Bevezetés a Hadoop ökoszisztémába

Az Apache Hadoop egy nyílt forrású rendszer, amellyel sok információ megbízhatóan tárolható és feldolgozható sokféle számítógépen. A Hadoop-ot először írták egy cikkben, és 2013 októberében tették közzé, mint „Google File System”. Doug Cutting, aki abban az időben a Yahoo-ban dolgozott, fiának játék-elefánt neve alapján Hadoop Ecosystem néven mutatta be a nevet. Ha figyelembe vesszük az Apache Hadoop fõ magját, akkor egyrészt a Hadoop elosztott fájlrendszer (HDFS) néven tárolórészre, másrészt a feldolgozási részre, amely Map Reduce Programming modul néven ismert. A Hadoop valójában egy hatalmas fájlt hasít, és több csomópontban tárolja őket a fürtön keresztül.

A Hadoop ökoszisztéma fogalma

Az Apache Hadoop keretrendszer elsősorban az alábbi modulokat tartalmazza:

  1. Hadoop Common: tartalmazza a Hadoop modul használatához szükséges összes könyvtárat és segédprogramot.
  2. Hadoop elosztott fájlrendszer (HDFS): Ez az egyik elosztott fájlrendszer, amely elősegíti a hatalmas adatok tárolását többféle vagy árucikkben. Ezenkívül nagy hasznosságot biztosít sávszélesség esetén, általában egy nagyon nagy sávszélességet biztosított egy fürtön lévő aggregátumok egy típusánál.
  3. Hadoop fonal: 2012-ben vezették be. Elsősorban az árucikkek teljes rendszerének erőforrás-kezelésére vezetik be, még egy klaszterben is. Az erőforrás-képesség alapján elosztotta vagy ütemezte a felhasználó alkalmazását igény szerint.
  4. Hadoop MapReduce: Ez elsősorban a nagyméretű adatok feldolgozásához segíti a térképcsökkentő programozási módszertant.

Az Apache Hadoop mindig segíti az informatikai költségek csökkentését az óriási adatok intelligens feldolgozása és tárolása szempontjából. Mivel az Apache Hadoop nyílt forráskódú és a hardver nagyon gyakran elérhető, ez mindig segít nekünk az informatikai költségek megfelelő csökkentésének kezelésében.

Nyílt forráskódú szoftver + árucikk hardver = informatikai költségek csökkentése

Például, ha figyelembe vesszük a napi 942787 fájl és könyvtár fogadását, amelyek 4077936 blokkot igényelnek, összesen 5020723 blokkot. Tehát, ha legalább 1, 46 PB kapacitást konfiguráltunk, akkor a terhelés feletti kezeléshez az elosztott fájlrendszer 1, 09 PB-t fog használni, azaz az összes konfigurált kapacitás csaknem 74, 85% -át teszi ki, míg 178 élő csomópontot és 24 halott csomópontot tekintünk.

A Hadoop ökoszisztéma elsősorban nagy adatok tárolására és feldolgozására készült, amelyek általában rendelkeznek bizonyos kulcsfontosságú jellemzőkkel, mint például az alábbiak szerint:

  • Hangerő

A kötet a ténylegesen tárolt és előállított adatok méretét jelenti. Attól függ, hogy milyen méretű adatot határoztak meg, az adatkészlet nagy adat, vagy sem.

  • Fajta

A változatosság a felhasznált adatok természetét, felépítését és típusát jelenti.

  • Sebesség

A Sebesség jelenti az adatok sebességét, amelyeket egy adott fejlesztési folyamat folyamán tároltak és generáltak.

  • igazmondás

A valódiság a rögzített adatok minőségét jelenti, és elősegíti az adatok elemzését a kívánt cél elérésében.

A HDFS-t elsősorban nagyon nagy mennyiségű információ (terabyte vagy petabájt) tárolására szolgál egy fürt nagyszámú gépén keresztül. Mindig fenntart néhány olyan közös tulajdonságot, mint például az adatok megbízhatósága, az árufuvarozón fut, blokkokkal tárolva egy fájlt vagy annak egy részét, és felhasználva az „írjon egyszer több olvasást” modellt.

A HDFS az alábbi architektúrát követi a név-csomópont és az adatcsomó fogalmával.

A névcsomópont (mester) felelőssége:

- kezeli a fájlrendszer névterét

- fenntartja a fürt konfigurációját

- Felelős a replikációkezelésért

Az adatcsomópont (szolga) felelőssége:

- Tárolja az adatokat a helyi fájlrendszerben

- Rendszeresen jelentkezzen a névcsomópontra szívverés segítségével

HDFS írási művelet:

A Hadoop az alábbiakban ismertetett lépéseket követi bármely nagy fájl írásához:

  1. Hozzon létre egy fájlt, és frissítse az FS-képet, miután megkapott egy fájlírási kérelmet bármely HDFS-klienstől.
  2. Töltse le a blokk helyének vagy adatcsomópontjának részleteit a név csomópontból.
  3. Írja a csomagot párhuzamosan az egyes adatcsomópontokba.
  4. Nyugtázza a csomagírás befejezését vagy elfogadását, és küldje vissza az információkat a Hadoop kliensnek.

HDFS blokk replikációs csővezeték:

  1. Az ügyfél lekérdezi a Namenodeból a Datanode-k listáját, amely az adott blokk replikáját tárolja
  2. Az ügyfél ezután az adatblokkot az első Datanode-re tölti ki
  3. Az első Datanode blokkot vesz, azt írja és továbbítja a folyamatban lévő következő adatcsomóponthoz
  4. Az összes replika elkészítése után az Ügyfél továbblép a fájl következő blokkjára

HDFS hibatolerancia:

Az egyik adatcsomópont hirtelen leállt, ebben az esetben a HDFS képes automatikusan kezelni ezt a forgatókönyvet. Először: az összes névcsomópont mindig egy szívverést kap minden adatcsomóponttól, ha valamilyen módon elveszített egy szívverést az egyik adatcsomóponttól, tekintve ugyanazt az adatcsomópontot, mint lefelé, azonnal cselekedjen az automatikus blokkok automatikus megismételésével a fennmaradó csomópontokon, hogy azonnal kielégítse a replikációt tényező.

Ha a névcsomópont egy új, a fürtben elérhető adatcsomópontot észlel, akkor azonnal kiegyensúlyozza az összes blokkot, beleértve a hozzáadott adatcsomópontot.

Most valahogy a Névcsomópont elvesztése vagy kudarcot vallott, ebben az esetben a névcsomópont egy FS-képét tároló biztonsági mentési csomópont ismételten lejátssza az összes FS-műveletet, és felállítja a névcsomópontot igény szerint. De ebben az esetben kézi beavatkozásra van szükség, és a Hadoop teljes ökoszisztéma-rendszere néhányszor leáll, hogy új névcsomópontot hozzon létre. Tehát ebben az esetben a névcsomópont egypontos hibát jelenthet, hogy elkerülje ezt a forgatókönyvet. A HDFS Federation a névcsomópont több csoportját létrehozó fürtöket vezet be, és a ZooKeeper szükség szerint egy alternatív névcsomópontot azonnal kezelhet.

Példák a Hadoop ökoszisztémára

A teljes Hadoop ökoszisztéma-példát az alábbi ábra magyarázza meg megfelelően:

Az adatok bármilyen forrásból származhatnak, például az Adattárházból, a Felügyelt dokumentumtárból, a fájlmegosztásokból, a normál RDMS-adatbázisból, vagy felhőből vagy külső forrásokból. Mindezek az adatok a HDFS-hez szerkezeti vagy nem szerkezeti, vagy félig strukturált módon kerültek a HDFS-re. A HDFS ezeket az adatokat elosztott módon tárolja, azaz az intelligens tárolás az elosztott árucikkekben.

Következtetés

A Hadoop ökoszisztéma elsősorban hatalmas adatok tárolására és feldolgozására lett kifejlesztve, amelyeknek a térfogat, a sebesség és a változatosság két tényezőjének meg kellett volna jelennie. Adatokat tárol egy elosztott feldolgozó rendszerben, amely árufuvarozási hardveren fut. Figyelembe véve a teljes Hadoop ökoszisztéma folyamatot, a HDFS elosztja az adatblokkokat, és a Map Reduce biztosítja a programozási keretet az adatok olvasásához a HDFS-ben tárolt fájlokból.

Ajánlott cikkek:

Ez egy útmutató a Hadoop Ecosystem-hez. Itt megvitattuk a Hadoop Ökoszisztéma alapvető koncepcióját, annak architektúráját, HDFS műveleteit, példákat, HDFS hibatoleranciát stb. További tudnivalókat a következő cikkekben találhat meg -

  1. A Hadoop felhasználásai a való világban
  2. Hadoop vs Splunk
  3. Karrier a Hadoopban
  4. Hadoop vs SQL teljesítmény

Kategória: