Különbségek az adattárház és a Hadoop között
Az IT-ipar minden évtizedben jelentős innovációt tapasztal, amely az egész IT-ipart megrázza. Az elmúlt években az Apache Hadoop ugyanezt tette azáltal, hogy új infrastruktúrát töltött be az adatközpontokba
Azáltal, hogy a párhuzamos feldolgozás hatalmát a programozónak adta, a Hadoop ilyen exponenciálisan növekszik az elfogadásban, és ökoszisztémája mélységben és szélességben egyaránt bővül, természetes kérdés, vajon Hadoop-ok felváltják-e a hagyományos Adattárházat.
Lássuk, amit Alasdair Anderson (a Nordea ügyvezető alelnöke) mondott a Hadoop csúcstalálkozón erről a forró témáról a városban.
„Az EDW és a Hadoop között jelenleg nincs kapcsolat - ezek egymást kiegészítik. Nem szól a rip-ről és helyettesíti: nem fogunk megszabadulni az RDBMS-től vagy az MPP-től, hanem inkább a megfelelő eszközt használjuk a megfelelő feladathoz - és ezt nagyban befolyásolja az ár. ”
Amikor ez az érdekes vita elindul, sok kérdés jut eszünkbe, például:
1) Ha nagy adata van, szüksége van egy adattárházra?
2) A Hadoop lecseréli az adattárházat?
3) Ez a tradicionális Adattárház korszakának halála?
Ahhoz, hogy tudjuk a válaszokat ezekre a kérdésekre, meg kell vizsgálnunk a kép nagyobb összefüggéseit.
1. Mi a Hadoop?
Ki nem hallott a Big Data-ról a közelmúltban? Napi száz terabyte adatot generálva különböző forrásokból, egyértelmű, hogy a mai modern világ nagy adatvilág
Amikor elkezdi a Big Data-ról beszélni, előbb vagy utóbb elkezdi a Big Data World legforróbb témájának, a Hadoop-nak a megvitatását, de mi az?
A Hadoop egy nyílt forráskódú, Java alapú programozási keret, amely támogatja a rendkívül nagy adatkészletek feldolgozását és tárolását elosztott számítási környezetben.
A Hadoop 4 modulja -
A Hadoop 4 modulból áll -
- Elosztott fájlrendszer
Az elosztott fájlrendszer lehetővé teszi az adatok könnyen hozzáférhető formátumban történő tárolását számos kapcsolódó tárolóeszközön keresztül.
- Térkép csökkentése
A Map Reduce két művelet kombinációja - adatok leolvasása az adatbázisból, elemzésre (térkép) megfelelő formátumba helyezése és matematikai műveletek végrehajtása (csökkentés).
- Hadoop Common
A Hadoop Common biztosítja a HDFS-ben (Hadoop Distributed File System) tárolt adatokhoz szükséges eszközöket.
- YARN
A YARN kezeli az adatok tárolására és az elemzés futtatására szolgáló rendszerek erőforrásait.
2. Mi az adattárház?
Az adattárház egy relációs adatbázis, amelyet lekérdezési és elemzési adatokhoz terveztek. Általában különböző forrásokból származó történeti adatokat tartalmaz.
Az adattárház környezet ETL megoldásokat, egy online analitikus feldolgozási (OLAP) motort, ügyfél elemző eszközöket és más alkalmazásokat tartalmaz, amelyek az adatok elemzésének és az üzleti felhasználóknak történő továbbításának folyamatát irányítják.
Összegezzük, mi az adattárház -
-
Tárgy-orientált
Az adattárház felhasználható egy adott témakör elemzésére, például eladások, pénzügyek és készletek. Minden tárgykör részletes adatokat tartalmaz.
-
Integrált
Az adattárház több adatforrásból származó adatokat integrál. Például a dátumok azonos formátumban vannak, a férfi / női kódok konzisztensek. Az adattárházban csak egyetlen módon lehet azonosítani a terméket, és ugyanazt az ügyfélrekordot használják, nem másolatokat
-
Nem illékony
Az adatokat az adattárházban módosítatlanul tárolják, és nem változnak. Tehát az adattárház történelmi adatait soha nem szabad megváltoztatni.
-
Time-variáns
3 hónap, 6 hónap, 12 hónap vagy még régebbi adatok beolvashatók az adattárházból.
-
Nem virtuális
Az adattárház egy fizikai, tartós adattár.
Adatraktár vs Hadoop (Infographics)
Az alábbiakban a 6 legjobb összehasonlítás található a Data Warehouse és a Hadoop között
Adatraktár vs Hadoop - melyiket kell használni?
- Ha tiszta, konzisztens és magas színvonalú adatai vannak, akkor keresse meg az Adatraktárt, mert a Hadoop bizonyos megoldásainál hiányzik az adatminőség.
- Ha van nyers, strukturálatlan adat, akkor érdemes a Hadoop-ot keresnie, mivel a Hadoop jól működik a strukturálatlan / nyers adatokkal, de az Data Warehouse csak a strukturált adatokkal működik.
- Alacsony késleltetésű és interaktív jelentések esetén keresse meg az Adattárházat
- Az OLTP / valós idejű / pont lekérdezések esetén az Adattárházba kell lépnie, mivel a Hadoop jól működik a kötegelt adatokkal.
- Nagy mennyiségű adatkészletek esetén a Hadoop-ot kell keresnie, mivel a Hadoop-ot a nagy adatproblémák megoldására tervezték.
Head to Head összehasonlító táblázat az adattárház és a Hadoop között
Az alábbiakban a pontok listája ismerteti az Adattárház és a Hadoop összehasonlításait
Az összehasonlítás alapja | Adattárház | Hadoop |
Adat | Az Adatraktárban elemezzük a strukturált és feldolgozott adatokat | A Hadoop-ban bármilyen adatot feldolgozhatunk, beleértve strukturált / nem strukturált / félig strukturált és nyers adatokat is |
Feldolgozás | Feldolgozása séma-on-írási koncepciókon alapul | Feldolgozása séma alapján olvasott koncepciókon alapul |
Tárolás | Alkalmas kis mennyiségű adatokhoz, és a túl nagy mennyiségű adatokhoz túl drága | Nagyon jó a hatalmas mennyiségű, sebességű és változatosságú nagy adatkészletekkel |
Agilitás | Kevésbé agilis és rögzített konfigurációjú | Nagyon agilis, szükség szerint konfigurálhatja és konfigurálhatja |
Biztonság | Az adattárház technológiák évtizedek óta léteznek. Így a biztonság szempontjából támaszkodhatunk az Adatraktárra | Míg a Hadoop technológiák viszonylag újak a Data Warehouse-hoz képest, így a biztonság itt nagy gondot jelent |
felhasználók | Az üzleti szakemberek általában az adattárházat használják | A Hadoop nagyon híres az adattudomány és az adatgyártás területén |
Következtetés - Adattárház és Hadoop
Most már tudjuk a Data Warehouse-ról és a Hadoop-ról is, térjünk vissza és vizsgáljuk meg azt a kérdést, amelyet feltettünk a Data Warehouse és a Hadoop-cikk elején -
1) ha nagy adatai vannak, szüksége van egy adattárházra?
Válasz - mindaddig, amíg a szervezetnek megbízható, hiteles és hozzáférhető adatokra van szüksége, addig adattárházra van szüksége.
2) A Hadoop lecseréli az adattárházat?
Válasz - Az Adattár és a Hadoop összehasonlítása olyan, mint az alma és a narancs összehasonlítása. Mind a Data Warehouse, mind a Hadoop saját előnyökkel rendelkezik a különféle használati esetekben. Bizonyos esetekben továbbra is a hagyományos Data Warehouse technikáktól függünk, de az idő változásával inkább a Hadoop Framework-re koncentrálunk a Big Data problémák kezelésére.
3) Ez a hagyományos adattárház korszakának halála?
Válasz - Mint láthatja, ez nem igazán egy egyszerű kérdés, ezért nem elégséges az egyszerű válasz megfogalmazására. Igaz, hogy a nagy adatok az elkövetkező néhány évben meg fogják változtatni a hagyományos adattárolási megközelítést, ám ez nem elavítja az adattárolás fogalmait és gyakorlatát.
Ajánlott cikk
Ez egy hasznos útmutató az Adatraktár és a Hadoop számára, itt megvitattuk azok jelentését, fej-fej összehasonlítást, kulcs-különbséget és következtetéseket. A következő cikkben további információkat is megnézhet -
- Hadoop vs Splunk - derítse ki a 7 legjobb különbséget
- Hadoop vs Elasticsearch - melyik hasznosabb
- Big Data vs Data Warehouse - fedezze fel a legjobb különbségeket
- Üzleti intelligencia vs. adattárház
- Splunk vs Nagios