Adatraktár vs Hadoop - 6 fontos különbség, hogy tudjuk

Tartalomjegyzék:

Anonim

Különbségek az adattárház és a Hadoop között

Az IT-ipar minden évtizedben jelentős innovációt tapasztal, amely az egész IT-ipart megrázza. Az elmúlt években az Apache Hadoop ugyanezt tette azáltal, hogy új infrastruktúrát töltött be az adatközpontokba

Azáltal, hogy a párhuzamos feldolgozás hatalmát a programozónak adta, a Hadoop ilyen exponenciálisan növekszik az elfogadásban, és ökoszisztémája mélységben és szélességben egyaránt bővül, természetes kérdés, vajon Hadoop-ok felváltják-e a hagyományos Adattárházat.

Lássuk, amit Alasdair Anderson (a Nordea ügyvezető alelnöke) mondott a Hadoop csúcstalálkozón erről a forró témáról a városban.

„Az EDW és a Hadoop között jelenleg nincs kapcsolat - ezek egymást kiegészítik. Nem szól a rip-ről és helyettesíti: nem fogunk megszabadulni az RDBMS-től vagy az MPP-től, hanem inkább a megfelelő eszközt használjuk a megfelelő feladathoz - és ezt nagyban befolyásolja az ár.

Amikor ez az érdekes vita elindul, sok kérdés jut eszünkbe, például:

1) Ha nagy adata van, szüksége van egy adattárházra?

2) A Hadoop lecseréli az adattárházat?

3) Ez a tradicionális Adattárház korszakának halála?

Ahhoz, hogy tudjuk a válaszokat ezekre a kérdésekre, meg kell vizsgálnunk a kép nagyobb összefüggéseit.

1. Mi a Hadoop?

Ki nem hallott a Big Data-ról a közelmúltban? Napi száz terabyte adatot generálva különböző forrásokból, egyértelmű, hogy a mai modern világ nagy adatvilág

Amikor elkezdi a Big Data-ról beszélni, előbb vagy utóbb elkezdi a Big Data World legforróbb témájának, a Hadoop-nak a megvitatását, de mi az?

A Hadoop egy nyílt forráskódú, Java alapú programozási keret, amely támogatja a rendkívül nagy adatkészletek feldolgozását és tárolását elosztott számítási környezetben.

A Hadoop 4 modulja -

A Hadoop 4 modulból áll -

  1. Elosztott fájlrendszer

Az elosztott fájlrendszer lehetővé teszi az adatok könnyen hozzáférhető formátumban történő tárolását számos kapcsolódó tárolóeszközön keresztül.

  1. Térkép csökkentése

A Map Reduce két művelet kombinációja - adatok leolvasása az adatbázisból, elemzésre (térkép) megfelelő formátumba helyezése és matematikai műveletek végrehajtása (csökkentés).

  1. Hadoop Common

A Hadoop Common biztosítja a HDFS-ben (Hadoop Distributed File System) tárolt adatokhoz szükséges eszközöket.

  1. YARN

A YARN kezeli az adatok tárolására és az elemzés futtatására szolgáló rendszerek erőforrásait.

2. Mi az adattárház?

Az adattárház egy relációs adatbázis, amelyet lekérdezési és elemzési adatokhoz terveztek. Általában különböző forrásokból származó történeti adatokat tartalmaz.

Az adattárház környezet ETL megoldásokat, egy online analitikus feldolgozási (OLAP) motort, ügyfél elemző eszközöket és más alkalmazásokat tartalmaz, amelyek az adatok elemzésének és az üzleti felhasználóknak történő továbbításának folyamatát irányítják.

Összegezzük, mi az adattárház -

  1. Tárgy-orientált

Az adattárház felhasználható egy adott témakör elemzésére, például eladások, pénzügyek és készletek. Minden tárgykör részletes adatokat tartalmaz.

  1. Integrált

Az adattárház több adatforrásból származó adatokat integrál. Például a dátumok azonos formátumban vannak, a férfi / női kódok konzisztensek. Az adattárházban csak egyetlen módon lehet azonosítani a terméket, és ugyanazt az ügyfélrekordot használják, nem másolatokat

  1. Nem illékony

Az adatokat az adattárházban módosítatlanul tárolják, és nem változnak. Tehát az adattárház történelmi adatait soha nem szabad megváltoztatni.

  1. Time-variáns

3 hónap, 6 hónap, 12 hónap vagy még régebbi adatok beolvashatók az adattárházból.

  1. Nem virtuális

Az adattárház egy fizikai, tartós adattár.

Adatraktár vs Hadoop (Infographics)

Az alábbiakban a 6 legjobb összehasonlítás található a Data Warehouse és a Hadoop között

Adatraktár vs Hadoop - melyiket kell használni?

  • Ha tiszta, konzisztens és magas színvonalú adatai vannak, akkor keresse meg az Adatraktárt, mert a Hadoop bizonyos megoldásainál hiányzik az adatminőség.
  • Ha van nyers, strukturálatlan adat, akkor érdemes a Hadoop-ot keresnie, mivel a Hadoop jól működik a strukturálatlan / nyers adatokkal, de az Data Warehouse csak a strukturált adatokkal működik.
  • Alacsony késleltetésű és interaktív jelentések esetén keresse meg az Adattárházat
  • Az OLTP / valós idejű / pont lekérdezések esetén az Adattárházba kell lépnie, mivel a Hadoop jól működik a kötegelt adatokkal.
  • Nagy mennyiségű adatkészletek esetén a Hadoop-ot kell keresnie, mivel a Hadoop-ot a nagy adatproblémák megoldására tervezték.

Head to Head összehasonlító táblázat az adattárház és a Hadoop között

Az alábbiakban a pontok listája ismerteti az Adattárház és a Hadoop összehasonlításait

Az összehasonlítás alapjaAdattárházHadoop
AdatAz Adatraktárban elemezzük a strukturált és feldolgozott adatokatA Hadoop-ban bármilyen adatot feldolgozhatunk, beleértve strukturált / nem strukturált / félig strukturált és nyers adatokat is
FeldolgozásFeldolgozása séma-on-írási koncepciókon alapulFeldolgozása séma alapján olvasott koncepciókon alapul
TárolásAlkalmas kis mennyiségű adatokhoz, és a túl nagy mennyiségű adatokhoz túl drágaNagyon jó a hatalmas mennyiségű, sebességű és változatosságú nagy adatkészletekkel
AgilitásKevésbé agilis és rögzített konfigurációjúNagyon agilis, szükség szerint konfigurálhatja és konfigurálhatja
BiztonságAz adattárház technológiák évtizedek óta léteznek. Így a biztonság szempontjából támaszkodhatunk az AdatraktárraMíg a Hadoop technológiák viszonylag újak a Data Warehouse-hoz képest, így a biztonság itt nagy gondot jelent
felhasználókAz üzleti szakemberek általában az adattárházat használjákA Hadoop nagyon híres az adattudomány és az adatgyártás területén

Következtetés - Adattárház és Hadoop

Most már tudjuk a Data Warehouse-ról és a Hadoop-ról is, térjünk vissza és vizsgáljuk meg azt a kérdést, amelyet feltettünk a Data Warehouse és a Hadoop-cikk elején -

1) ha nagy adatai vannak, szüksége van egy adattárházra?

Válasz - mindaddig, amíg a szervezetnek megbízható, hiteles és hozzáférhető adatokra van szüksége, addig adattárházra van szüksége.

2) A Hadoop lecseréli az adattárházat?

Válasz - Az Adattár és a Hadoop összehasonlítása olyan, mint az alma és a narancs összehasonlítása. Mind a Data Warehouse, mind a Hadoop saját előnyökkel rendelkezik a különféle használati esetekben. Bizonyos esetekben továbbra is a hagyományos Data Warehouse technikáktól függünk, de az idő változásával inkább a Hadoop Framework-re koncentrálunk a Big Data problémák kezelésére.

3) Ez a hagyományos adattárház korszakának halála?

Válasz - Mint láthatja, ez nem igazán egy egyszerű kérdés, ezért nem elégséges az egyszerű válasz megfogalmazására. Igaz, hogy a nagy adatok az elkövetkező néhány évben meg fogják változtatni a hagyományos adattárolási megközelítést, ám ez nem elavítja az adattárolás fogalmait és gyakorlatát.

Ajánlott cikk

Ez egy hasznos útmutató az Adatraktár és a Hadoop számára, itt megvitattuk azok jelentését, fej-fej összehasonlítást, kulcs-különbséget és következtetéseket. A következő cikkben további információkat is megnézhet -

  1. Hadoop vs Splunk - derítse ki a 7 legjobb különbséget
  2. Hadoop vs Elasticsearch - melyik hasznosabb
  3. Big Data vs Data Warehouse - fedezze fel a legjobb különbségeket
  4. Üzleti intelligencia vs. adattárház
  5. Splunk vs Nagios