Bevezetés a Hadoop eszközökbe

A Hadoop Tools a keret, amelyet nagy mennyiségű adat feldolgozására használnak. Ezeket az adatokat egy fürtön terjesztik és elosztott számításokat végeznek. Az adatokat 128 MB méretű blokkokban tárolják, és a Map Reduce teljesítményének feldolgozására és elérésére szolgálnak. A Map és a Reduce hagyományosan Java nyelven íródott, ám nehéz volt átmenni az Adatraktárban dolgozó erőforrások készségein, mivel nem voltak tapasztalataik. Az SQL közismert és könnyen használható, tehát a Facebook alapította, majd később az Apache-nak adományozta az eszköz, amely Hive-ként talált módot egy SQL írására, mint például a Map and Reduce formátumba konvertált lekérdezés. A Yahoo kifejlesztett egy Pig nevű eszközt is, amelyet végrehajtáskor konvertálnak Map Reduce-hez, hasonlóan a Sqoop és az flume az adatmozgatáshoz és az injektáló eszközökhöz. A HBase egy adatbázis-kezelő rendszer eszköz.

A Hadoop Tools jellemzői

  1. Kaptár
  2. malac
  3. Apache Sqoop
  4. HBase
  5. Állatgondozó
  6. Flume

Most meglátjuk a funkciókat egy rövid magyarázattal.

1. Kaptár

Az Apache Hive-t a Facebook alapította és később az Apache Alapítványnak adományozta, amely egy adattárház-infrastruktúra. Ez megkönnyíti az SQL, például a HQL vagy HiveQL nevű Query lekérdezés írását. Ezeket a lekérdezéseket belsőleg átalakítják a Map Reduce feladatokká, és a feldolgozás a Hadoop elosztott számítástechnikájával történik. Feldolgozza a HDFS, S3-ban található adatokat és az összes tárolót, amely kompatibilis a Hadoop-tal. Kihasználhatjuk a Map Reduce szolgáltatásait, ha valami nehezen megvalósítható a Kaptárban, ha a Felhasználó által definiált funkciókat hajtjuk végre. Ez lehetővé teszi a felhasználó számára az UDF-ek regisztrálását és a feladatokban való használatát.

A kaptár jellemzői

  • A kaptár sokféle formátumot képes feldolgozni, például a szekvenciafájl, az ORC fájl, a TextFile stb.
  • A particionálás, a vödörkészítés és az indexelés elérhető a gyorsabb végrehajtáshoz.
  • A tömörített adatok betölthetőek a kaptártáblába is.
  • A Hive kiemelkedő tulajdonságai a kezelt vagy a belső táblák és a külső táblák.

2. Pig

A Yahoo kifejlesztette az Apache Pig-ot, hogy rendelkezzen egy további eszközzel a Hadoop megerősítéséhez azáltal, hogy ad-hoc módon hajtja végre a Map Reduce alkalmazást. Pignek van egy Pig Engine nevû motorja, amely átalakítja a szkripteket Map Reduce-re. A Pig egy szkriptnyelv, a Pig számára írt szkriptek a PigLatin-ben vannak, ugyanúgy, mint a Hive itt, rendelkezhetünk UDF-kel a funkcionalitás fokozására. A Pig feladatok automatikusan optimalizálva vannak, így a programozóknak nem kell aggódniuk. A Pig kezeli a strukturált és a strukturálatlan adatokat is.

Jellemzői Pig

  • A felhasználóknak megvannak a saját funkciói, hogy speciális adatfeldolgozást végezzenek.
  • Könnyen kódot írni a disznóban, viszonylag kevés a kód hossza.
  • A rendszer automatikusan optimalizálja a végrehajtást.

3. Sqoop

Az Sqoop adatátvitelre szolgál a HDFS-ről az RDBMS-re és fordítva. Az RDBMS-ből, a Hive-ből stb. Beolvashatjuk az adatokat HDFS-be, és feldolgozhatjuk, és exportálhatjuk vissza az RDBMS-be. Az adatokat sokszor hozzáadhatjuk egy táblázathoz, létrehozhatunk egy Sqoop feladatot is, és n-szer végrehajthatjuk azt.

A Sqoop jellemzői

  • Az Sqoop az összes táblát egyszerre tudja importálni a HDFS-be.
  • Beágyazhatunk SQL lekérdezéseket, valamint az adatok importálásának feltételeit.
  • Adatokat importálhatunk a kaptárhoz, ha van táblázat a HDFS-ből.
  • A térképezők száma szabályozható, azaz a párhuzamos végrehajtást a térképezők számának meghatározásával lehet irányítani.

4. HBase

A HDFS tetején lévő adatbázis-kezelő rendszert HBase-nek hívják. A HBase egy NoSQL adatbázis, amelyet a HDFS tetején fejlesztettek ki. A HBase nem egy relációs adatbázis, nem támogatja a strukturált lekérdezési nyelveket. A HBase a HDFS elosztott feldolgozását használja fel. Nagy táblákkal rendelkezhet, milliókat és milliókat tartalmazó rekordokkal.

A HBase tulajdonságai

  • A HBase skálázhatóságot biztosít mind lineáris, mind modulárisan.
  • A JAVA-ban lévő API-k felhasználhatók az ügyfelek hozzáférésére.
  • A HBase héjat biztosít a lekérdezések végrehajtásához.

5. Állatkertész

Az Apache Állatkertőr egy központi konfigurációs karbantartó szolgáltatás, nyilvántartja az információkat, elnevezi, és szétosztott szinkronizálási és csoportszolgáltatásokat is nyújt. Az állatkertőr egy központi adattár, amelyet elosztott alkalmazások használnak az adatok tárolására és lekérésére. Segít a csomópontok kezelésében is, azaz ahhoz, hogy egy csomópontot csatlakoztasson vagy hagyjon el a fürtben. Nagyon megbízható adatnyilvántartást biztosít, ha kevés csomópont le van állítva.

Az állatkertőr jellemzői

  • A teljesítmény növelhető az olyan feladatok elosztásával, amelyeket több gép hozzáadásával érnek el.
  • Elrejti a disztribúció bonyolultságát, és egyetlen gépen ábrázolja magát.
  • Néhány rendszer meghibásodása nem érinti az egész rendszert, de ennek hátránya részleges adatvesztést okozhat.
  • Biztosítja az atomitást, azaz a tranzakció sikeres vagy sikertelen, de nem tökéletes állapotban.

6. Flume

Az Apache Flume olyan eszköz, amely adatbevitelt biztosít, amely hatalmas mennyiségű adatot gyűjthet, összesíthet és továbbíthat különböző forrásokból HDFS-be, HBase-ba stb. A Flume nagyon megbízható és konfigurálható. Úgy tervezték, hogy adatátvitelt folytasson a webkiszolgálótól vagy eseményadatokat a HDFS-hez, pl. A Twitter-adatokat HDFS-be tudja bevinni. A Flume adatokat tárolhat bármely olyan központi adattárolóba, mint például a HBase / HDFS. Ha van olyan helyzet, hogy az adatok előállítása nagyobb sebességgel történik, mint az adatok sebessége, akkor a flume közvetítőként működik, és folyamatosan biztosítja az adatáramlást.

A Flume tulajdonságai

  • Befogadhatja a webszerverek adatait az eseményadatokkal, például a közösségi médiából származó adatokkal.
  • A flum tranzakciók csatorna alapúak, azaz két üzenet fennmarad, az egyik a küldéshez és egy a fogadáshoz.
  • A vízszintes méretezés lehetséges a füstben.
  • Nagyon hibás, toleráns, mivel a környezeti útválasztás jelen van egy hullámban.

Következtetés - Hadoop eszközök

Itt, ebben a cikkben megismertünk néhány Hadoop eszközt és azt, hogy ezek miként használhatók az adatvilágban. Láttuk a Hive and Pig alkalmazást, amely az adatok lekérdezésére és elemzésére szolgál, az sqoop-ra az adatok áthelyezéséhez és az adatfolyam adatfolyamba történő bejuttatásához a HDFS-be.

Ajánlott cikkek

Ez a Hadoop Tools útmutatója. Itt a Hadoop különféle eszközeit tárgyaljuk azok jellemzőivel. A további javasolt cikkeken keresztül további információkat is megtudhat -

  1. Hadoop alternatívák
  2. Hadoop adatbázis
  3. SQL karakterlánc-funkciók
  4. Mi a Big Data?

Kategória: