Hadoop keretrendszer - A Hadoop 4 legfontosabb kerete, amelyet tudnod kell

Bevezetés a Hadoop keretrendszerbe

Mielőtt mélyebben belemerülnénk a Hadoop műszaki keretébe, egy egyszerű példával kezdjük.

Van egy olyan gazdaság, amely betakarítja és paradicsomot tárolja egyetlen raktárhelyiségben. A növekvő zöldségigény miatt a gazdaság burgonyát, sárgarépát kezdett betakarítani - egyre növekvő kereslettel hiányzott a gazdálkodók, így több gazdát béreltek fel. Néhány idő múlva rájöttek, hogy hiányzik a tárolóhelyiség - így a zöldségeket különféle tárolóhelyekre osztották szét. Az adatok visszakeresésekor mindegyik a saját tárhelyével párhuzamosan működik.

Tehát hogyan kapcsolódik ez a történet a nagy adatokhoz?

Korábban korlátozott adatok álltak rendelkezésre, korlátozott processzorral és egy tárolóegységgel. De azután az adatgeneráció növekedett, ami nagy mennyiségű és különböző változatossághoz vezetett - strukturált, félig strukturált és strukturálatlan -, tehát a megoldás az volt, hogy elosztott tárolót használjunk minden processzorhoz, ez lehetővé tette az adatok tárolására és elérésére való könnyű hozzáférést.

Tehát most a zöldségeket helyettesíthetjük különféle adat- és tárolási helyekként, mint az adatok tárolására szolgáló elosztott helyekként, és az egyes feldolgozók különféle dolgozói.

Tehát a nagy adatok jelentik a kihívást, és Hadoop játszik a megoldás részét.

Hadoop

1. Megoldás a BIG ADATOKHOZ: mivel a nagy mennyiségű, sebességű és sokféle adat összetettségével foglalkozik.

2. A nyílt forráskódú projekt halmaza.

3. Nagyon nagy mennyiségű adatot tárol megbízhatóan, és hatalmas elosztott számításokat tesz lehetővé.

4. A Hadoop kulcsfontosságú tulajdonságai a redundancia és a megbízhatóság (teljesen nincs adatvesztés).

5. Elsősorban a kötegelt feldolgozásra összpontosít.

6. Fut az alapanyagokon - nem kell külön drága hardvert vásárolnia.

Hadoop-keretrendszer:

1. Közös közművek

2. HDFS

3. Térkép csökkentése

4. Fonal keret

1. Közös segédprogramok:

Hadoop néven is ismert. Ezek nem más, mint a JAVA könyvtárak, fájlok, szkriptek és segédprogramok, amelyeket a Hadoop többi összetevőjének valóban végrehajtásához szükség van.

2. HDFS: Hadoop elosztott fájlrendszer

Miért döntött a Hadoop egy elosztott fájlrendszer beépítésével?

Megértjük ezt egy példával: 1 TB adatot kell elolvasnunk, és van egy gépünk 4 I / O csatornával, mindegyik csatorna 100 MB / s sebességgel rendelkezik, az összes adat elolvasása 45 percbe telt. Most ugyanannyi adatot olvas be 10 gép, mindegyik 4 I / O csatornával, mindegyik csatorna 100 MB / s sebességgel. Találd ki, mennyi időbe telt az adatok elolvasása? 4, 3 perc. A HDFS megoldja a nagy adatok tárolásának problémáját. A HDFS két fő alkotóeleme a NAME NODE és DATA NODE. A névcsomópont a mester, akkor lehet egy másodlagos névcsomópont is, ha az elsődleges névcsomópont nem működik, a másodlagos névcsomópont biztonsági másolatként működik. A névcsomópont alapvetően a metaadatok tárolásával kezeli és kezeli az adatcsomópontokat. Az adatcsomó a rabszolga, amely alapvetően az olcsó árucikk-hardver. Több adatcsomópont is lehet. Az adatcsomópont a tényleges adatokat tárolja. Ez az adatcsomópont támogatja a replikációs tényezőt. Tegyük fel, hogy ha az egyik adatcsomópont leesik, akkor az adatokhoz a másik replikált adatcsomópont is hozzáférhet, tehát javul az adatok hozzáférhetősége és megakadályozzuk az adatok elvesztését.

3. Térkép csökkentése:

Megoldja a nagy adatok feldolgozásának problémáját. Megértjük a térkép fogalmának csökkenését a valós probléma megoldásával. Az ABC vállalat városi szempontból kiszámítja az összes eladását. Most a hash table koncepció nem fog működni, mert az adatok terabyte-ban vannak, tehát a Map-Reduce koncepciót fogjuk használni.

Két szakasz van: a) MAP. b) CSÖKKENTÉS

a) Térkép : Először az adatokat kisebb / nagy részekre osztjuk fel, amelyeket térképíróknak hívnak, a kulcs / érték pár alapján. Tehát itt a kulcs a város neve lesz, és az érték az összes eladás. Minden térképkészítő megkapja minden hónap adatait, amelyek megadják a város nevét és a megfelelő eladásokat.

b) Csökkent: Megkapja ezeket az adathalmokat, és minden reduktor felel az észak / nyugat / kelet / dél városokért. Tehát a reduktor munkája az lesz, hogy összegyűjtse ezeket a kis darabokat, és nagyobb összegekké alakítsa át (összeadva) egy adott város számára.

4.YARN-keret: újabb erőforrás-tárgyaló.

A Hadoop kezdeti verziója csak két összetevőből állt: Map Reduce és HDFS. Később rájött, hogy a Map Reduce nem képes sok nagy adatproblémát megoldani. Az ötlet az volt, hogy az erőforrás-gazdálkodással és a feladatok ütemezésével kapcsolatos felelősséget távolítsa el a régi térképcsökkentő motortól, és adjon neki egy új összetevőt. Tehát így került a képbe a YARN. A fürt erőforrásainak kezelése a középső réteg a HDFS és a Map Reduce között.

Két kulcsszerepet tölt be: a) Munkaütemezés. b) Erőforrás-menedzsment

a) Munkaütemezés: Ha nagy mennyiségű adat ad feldolgozásra, akkor azokat el kell osztani és különféle feladatokra / feladatokra bontani. Most a JS dönt arról, hogy melyik munkát kell elsőbbséget élvezni, a két feladat közötti időintervallum, a munkák közötti függőség, és ellenőrzi, hogy nincs-e átfedés a futó feladatok között.

b) Erőforrás-kezelés: Az adatok feldolgozásához és az adatok tárolásához erőforrásokra van szükségünk? Az erőforrás-kezelő tehát biztosítja, kezeli és karbantartja az adatok tárolására és feldolgozására szolgáló erőforrásokat.
Tehát most már tisztában vagyunk a Hadoop koncepciójával és azzal, hogy hogyan oldja meg a NAGY ADATOK által létrehozott kihívásokat !!!

Ajánlott cikkek

Ez egy útmutató a Hadoop-keretrendszerhez. Itt megbeszéljük a Hadoop négy legfontosabb keretét is. A további javasolt cikkeken keresztül további információkat is megtudhat -

Hadoop adatbázis
Hadoop ökoszisztéma
A Hadoop felhasználásai
Hadoop rendszergazdai munkák
Hadoop rendszergazda | Készségek és karrier út

Hadoop keretrendszer - A Hadoop 4 legfontosabb kerete, amelyet tudnod kell

Tartalomjegyzék:

Bevezetés a Hadoop keretrendszerbe

Hadoop

Hadoop-keretrendszer:

1. Közös segédprogramok:

2. HDFS: Hadoop elosztott fájlrendszer

3. Térkép csökkentése:

4.YARN-keret: újabb erőforrás-tárgyaló.

Ajánlott cikkek

4 dolog, amit tudnod kell az iPhone SE-ről

Amazon EBS - Az Amazon EBS 6 legfontosabb előnye és 6 fő felhasználása

Az Azure alternatívái - A 8 legfontosabb Azure-alternatíva, amelyet tudnia kell

25 érdekes tény! Tudnia kell az Apple Musicról (legfrissebb)

Alfa-formula - Számológép (példák Excel sablonnal)

Tömbök Pythonban Hogyan működnek a tömbök és a listák a Pythonban?

Tömbök a Java programozásban Komplett útmutató a Java tömbökhez

Tömbök R-ben Átfogó útmutató az R tömbökhez a példával

Tömbök a PHP-ben Tömbök készítése PHP-ben a 3 legfontosabb típus és 8 módszer segítségével

Array vs ArrayList - A 6 legfontosabb különbség a tanulás és az infographics számára

Beszúrja a megjegyzést az Excel programba Hogyan lehet beszúrni a megjegyzést az Excel programba?

Helyezze be a Naptár programot az Excel programba Példák naptár létrehozására és beszúrására az Excel programban

Helyezzen be több sort az Excelbe (példák) Hogyan lehet beszúrni több sort?

Helyezze be az új munkalapot az Excelbe (módszerek) Hogyan lehet új munkalapot beszúrni?

Kép beszúrása az Illustrator-ba - Hogyan beszúrhat vagy importálhat képeket az Illustrator-ba?