Bevezetés a Hadoop keretrendszerbe

Mielőtt mélyebben belemerülnénk a Hadoop műszaki keretébe, egy egyszerű példával kezdjük.

Van egy olyan gazdaság, amely betakarítja és paradicsomot tárolja egyetlen raktárhelyiségben. A növekvő zöldségigény miatt a gazdaság burgonyát, sárgarépát kezdett betakarítani - egyre növekvő kereslettel hiányzott a gazdálkodók, így több gazdát béreltek fel. Néhány idő múlva rájöttek, hogy hiányzik a tárolóhelyiség - így a zöldségeket különféle tárolóhelyekre osztották szét. Az adatok visszakeresésekor mindegyik a saját tárhelyével párhuzamosan működik.

Tehát hogyan kapcsolódik ez a történet a nagy adatokhoz?

Korábban korlátozott adatok álltak rendelkezésre, korlátozott processzorral és egy tárolóegységgel. De azután az adatgeneráció növekedett, ami nagy mennyiségű és különböző változatossághoz vezetett - strukturált, félig strukturált és strukturálatlan -, tehát a megoldás az volt, hogy elosztott tárolót használjunk minden processzorhoz, ez lehetővé tette az adatok tárolására és elérésére való könnyű hozzáférést.

Tehát most a zöldségeket helyettesíthetjük különféle adat- és tárolási helyekként, mint az adatok tárolására szolgáló elosztott helyekként, és az egyes feldolgozók különféle dolgozói.

Tehát a nagy adatok jelentik a kihívást, és Hadoop játszik a megoldás részét.

Hadoop

1. Megoldás a BIG ADATOKHOZ: mivel a nagy mennyiségű, sebességű és sokféle adat összetettségével foglalkozik.

2. A nyílt forráskódú projekt halmaza.

3. Nagyon nagy mennyiségű adatot tárol megbízhatóan, és hatalmas elosztott számításokat tesz lehetővé.

4. A Hadoop kulcsfontosságú tulajdonságai a redundancia és a megbízhatóság (teljesen nincs adatvesztés).

5. Elsősorban a kötegelt feldolgozásra összpontosít.

6. Fut az alapanyagokon - nem kell külön drága hardvert vásárolnia.

Hadoop-keretrendszer:

1. Közös közművek

2. HDFS

3. Térkép csökkentése

4. Fonal keret

1. Közös segédprogramok:

Hadoop néven is ismert. Ezek nem más, mint a JAVA könyvtárak, fájlok, szkriptek és segédprogramok, amelyeket a Hadoop többi összetevőjének valóban végrehajtásához szükség van.

2. HDFS: Hadoop elosztott fájlrendszer

Miért döntött a Hadoop egy elosztott fájlrendszer beépítésével?

Megértjük ezt egy példával: 1 TB adatot kell elolvasnunk, és van egy gépünk 4 I / O csatornával, mindegyik csatorna 100 MB / s sebességgel rendelkezik, az összes adat elolvasása 45 percbe telt. Most ugyanannyi adatot olvas be 10 gép, mindegyik 4 I / O csatornával, mindegyik csatorna 100 MB / s sebességgel. Találd ki, mennyi időbe telt az adatok elolvasása? 4, 3 perc. A HDFS megoldja a nagy adatok tárolásának problémáját. A HDFS két fő alkotóeleme a NAME NODE és DATA NODE. A névcsomópont a mester, akkor lehet egy másodlagos névcsomópont is, ha az elsődleges névcsomópont nem működik, a másodlagos névcsomópont biztonsági másolatként működik. A névcsomópont alapvetően a metaadatok tárolásával kezeli és kezeli az adatcsomópontokat. Az adatcsomó a rabszolga, amely alapvetően az olcsó árucikk-hardver. Több adatcsomópont is lehet. Az adatcsomópont a tényleges adatokat tárolja. Ez az adatcsomópont támogatja a replikációs tényezőt. Tegyük fel, hogy ha az egyik adatcsomópont leesik, akkor az adatokhoz a másik replikált adatcsomópont is hozzáférhet, tehát javul az adatok hozzáférhetősége és megakadályozzuk az adatok elvesztését.

3. Térkép csökkentése:

Megoldja a nagy adatok feldolgozásának problémáját. Megértjük a térkép fogalmának csökkenését a valós probléma megoldásával. Az ABC vállalat városi szempontból kiszámítja az összes eladását. Most a hash table koncepció nem fog működni, mert az adatok terabyte-ban vannak, tehát a Map-Reduce koncepciót fogjuk használni.

Két szakasz van: a) MAP. b) CSÖKKENTÉS

a) Térkép : Először az adatokat kisebb / nagy részekre osztjuk fel, amelyeket térképíróknak hívnak, a kulcs / érték pár alapján. Tehát itt a kulcs a város neve lesz, és az érték az összes eladás. Minden térképkészítő megkapja minden hónap adatait, amelyek megadják a város nevét és a megfelelő eladásokat.

b) Csökkent: Megkapja ezeket az adathalmokat, és minden reduktor felel az észak / nyugat / kelet / dél városokért. Tehát a reduktor munkája az lesz, hogy összegyűjtse ezeket a kis darabokat, és nagyobb összegekké alakítsa át (összeadva) egy adott város számára.

4.YARN-keret: újabb erőforrás-tárgyaló.

A Hadoop kezdeti verziója csak két összetevőből állt: Map Reduce és HDFS. Később rájött, hogy a Map Reduce nem képes sok nagy adatproblémát megoldani. Az ötlet az volt, hogy az erőforrás-gazdálkodással és a feladatok ütemezésével kapcsolatos felelősséget távolítsa el a régi térképcsökkentő motortól, és adjon neki egy új összetevőt. Tehát így került a képbe a YARN. A fürt erőforrásainak kezelése a középső réteg a HDFS és a Map Reduce között.

Két kulcsszerepet tölt be: a) Munkaütemezés. b) Erőforrás-menedzsment

a) Munkaütemezés: Ha nagy mennyiségű adat ad feldolgozásra, akkor azokat el kell osztani és különféle feladatokra / feladatokra bontani. Most a JS dönt arról, hogy melyik munkát kell elsőbbséget élvezni, a két feladat közötti időintervallum, a munkák közötti függőség, és ellenőrzi, hogy nincs-e átfedés a futó feladatok között.

b) Erőforrás-kezelés: Az adatok feldolgozásához és az adatok tárolásához erőforrásokra van szükségünk? Az erőforrás-kezelő tehát biztosítja, kezeli és karbantartja az adatok tárolására és feldolgozására szolgáló erőforrásokat.
Tehát most már tisztában vagyunk a Hadoop koncepciójával és azzal, hogy hogyan oldja meg a NAGY ADATOK által létrehozott kihívásokat !!!

Ajánlott cikkek

Ez egy útmutató a Hadoop-keretrendszerhez. Itt megbeszéljük a Hadoop négy legfontosabb keretét is. A további javasolt cikkeken keresztül további információkat is megtudhat -

  1. Hadoop adatbázis
  2. Hadoop ökoszisztéma
  3. A Hadoop felhasználásai
  4. Hadoop rendszergazdai munkák
  5. Hadoop rendszergazda | Készségek és karrier út

Kategória: