Bevezetés a Hadoop ökoszisztémába
A Hadoop ökoszisztéma egy olyan keret, amely segít a nagy adatproblémák megoldásában. A Hadoop ökoszisztéma központi eleme egy Hadoop elosztott fájlrendszer (HDFS). A HDFS az elosztott fájlrendszer, amely képes nagy köteg adatkészlet tárolására. Shell parancsok segítségével a HADOOP interaktív a HDFS-sel. A Hadoop nem strukturált adatokat állít elő, és az adatok elemzése céljából elosztja azokat különböző szakaszokba. Az ökoszisztéma számos összetevőt tartalmaz, és a technológiák képesek üzleti összetett feladatok megoldására. Az ökoszisztéma tartalmaz nyílt forráskódú projekteket és példákat
A Hadoop ökoszisztéma áttekintése
Mint mindannyian tudjuk, hogy az internet létfontosságú szerepet játszik az elektronikai iparban, és a csomópontok által generált adatok mennyisége nagyon hatalmas, és az adatforgalomhoz vezet. Az adatok hatalmas mennyiségűek, tehát szükség van egy platformra, amely gondoskodik róla. A Hadoop architektúra minimalizálja a munkaerőt és segíti a munka ütemezését. Ezen adatok feldolgozásához erős számítási teljesítményre van szükségünk annak kezeléséhez. Az adatok drasztikus növekedése esetén nagy memóriamennyiséget és gyorsabb adatmennyiséget igényel a terabyte-os adatok feldolgozásához, és olyan kihívások leküzdésére használják az elosztott rendszert, amely több számítógépet használ az adatok szinkronizálására. Ennek a feldolgozó rendszernek a kezelése érdekében kötelező felfedezni egy szoftverplatformot az adatokkal kapcsolatos kérdések kezelésére. A Hadoop fejleszti a nagy adatproblémákat.
A Hadoop ökoszisztéma alkotóelemei
Mint láttuk a Hadoop ökoszisztéma áttekintését és a jól ismert nyílt forráskódú példákat, most mélyen megvitatjuk a Hadoop komponensek egyedileg felsorolását és azok nagy szerepet a nagy adatfeldolgozásban. A Hadoop ökoszisztéma alkotóelemei a következők:
-
HDFS:
A Hadoop elosztott fájlrendszere a Hadoop gerince, amely Java nyelven fut, és adatokat tárol a Hadoop alkalmazásokban. Parancsfelületként működnek, és kölcsönhatásba lépnek a Hadoop-tal. a HDFS két összetevője - adatcsomópont, a csomópont. Névcsomópont a fő csomópont kezeli a fájlrendszereket, működteti az összes csomópontot, és nyilvántartást vezet a metaadatok frissítéséről. Adatok törlése esetén automatikusan rögzítik azokat a Szerkesztési naplóba. Az adatcsomópont (Slave Node) hatalmas tárhelyet igényel az olvasási és írási műveletek végrehajtása miatt. A névcsomó utasításai szerint működnek. Az adatcsomópontok az elosztott rendszerben hardverek.
-
HBASE:
Ez egy nyílt forráskódú keret, amely minden típusú adatot tárol, és nem támogatja az SQL adatbázist. A HDFS tetején futnak, java nyelven íródnak. A legtöbb vállalat ezeket a funkcióit használja, mint például minden típusú adat támogatása, magas biztonság, a HBase táblák használata. Alapvető szerepet játszanak az analitikai feldolgozásban. A HBase két fő alkotóeleme a HBase master, a Regional Server. A HBase mester felel a Hadoop-fürt terheléselosztásáért, és kezeli a feladatátvételt. Ők felelősek az adminisztrációs szerep betöltéséért. A regionális kiszolgáló szerepe munkavállalói csomópont lenne, és felelős az adatok olvasásáért, a gyorsítótárba történő beírásáért.
-
fonal:
Ez az ökoszisztéma fontos eleme, amelyet operációs rendszernek hívnak a Hadoop-ban, amely erőforrás-kezelési és feladatütemezési feladatot nyújt. Az összetevők az erőforrás- és csomópontkezelő, az alkalmazáskezelő és a tároló. Őrökként szolgálnak a Hadoop klaszterek között is. Segítenek a klaszter erőforrások dinamikus elosztásában, növelik az adatközpont folyamatát, és lehetővé teszik a többszörös hozzáférésű motorokat.
-
Apache Sqoop:
Ez egy olyan eszköz, amely elősegíti az adatátvitelt a HDFS és a MySQL között, és gyakorlati segítséget nyújt az adatok importálásához és exportálásához. Csatlakozójuk van az adatok letöltéséhez és összekapcsolásához.
-
Apache Spark:
Ez egy nyílt forrású fürtszámítási keret az adatelemzéshez és alapvető adatfeldolgozó motor. Scala nyelven íródott, és csomagolt standard könyvtárakkal érkezik. Sok vállalat használja őket nagy feldolgozási sebességükhöz és adatfolyam-feldolgozáshoz.
-
Apache Flume:
Ez egy elosztott szolgáltatás, amely nagy mennyiségű adatot gyűjt a forrástól (webszerver), visszatér az eredeti helyére és továbbítja a HDFS-re. A három elem a forrás, a mosogató és a csatorna.
-
Hadoop térképcsökkentés:
Felelős az adatfeldolgozásért, és a Hadoop központi elemét képezi. A Map Reduce egy olyan feldolgozó motor, amely párhuzamos feldolgozást hajt végre ugyanazon klaszter több rendszerében. Ez a technika a split és conquers módszerre épül, és a java programozásban van írva. A párhuzamos feldolgozásnak köszönhetően elősegíti a gyors folyamatot a torlódások elkerülése érdekében, és hatékonyan javítja az adatfeldolgozást.
-
Apache Pig:
A Hadoop adatmanipulációját az Apache Pig hajtja végre, a Pig Latin nyelv használatával. Segít a kód újbóli felhasználásában, valamint a könnyen olvasható és írható kódban.
-
Kaptár:
Ez egy nyílt forráskódú szoftver az adattárolási koncepciók végrehajtására, képes a HDFS-ben tárolt nagy adatkészletek lekérdezésére. A Hadoop ökoszisztéma tetejére épül. a Hive által használt nyelv a Hive Query nyelv. A felhasználó a kaptár lekérdezéseit metaadatokkal nyújtja be, amelyek az SQL-t Map-csökkentő jobokká konvertálják, és átadják a Hadoop-fürtnek, amely egy mesterből és sok számú szolgaból áll.
-
Apache fúró:
Az Apache Drill egy nyílt forrású SQL motor, amely nem relációs adatbázisokat és fájlrendszert dolgoz fel. Úgy tervezték, hogy támogassák a felhőtárolóban található félig strukturált adatbázisokat. Jó memóriakezelési képességük van a hulladékgyűjtés fenntartásához. A hozzáadott szolgáltatások között szerepel az Oszlopos ábrázolás és az elosztott illesztések használata.
-
Apache Állatkertőr:
Ez egy API, amely segít az elosztott koordinációban. Itt egy Znode nevű csomópontot hoz létre egy alkalmazás a Hadoop klaszterben. Olyan szolgáltatásokat nyújtanak, mint a szinkronizálás, a konfigurálás. Ez rendezi az időigényes koordinációt a Hadoop ökoszisztémában.
-
Oozie:
Az Oozie egy Java alkalmazás, amely számos munkafolyamatot tart fenn egy Hadoop-fürtben. A webszolgáltatási API-k vezérlése egy feladat felett bárhol megtörténhet. Népszerű a több feladat hatékony kezelése szempontjából.
Példák a Hadoop ökoszisztémára
A térképcsökkentéssel kapcsolatban példát és példát láthatunk. az egyik ilyen eset a Skybox, amely a Hadoop segítségével hatalmas mennyiségű adatot elemez. A kaptár megtalálhatja az egyszerűséget a Facebookon. A szavak számának gyakorisága egy mondatban a térkép segítségével. A MAP úgy működik, hogy a számlálót bemenetként veszi figyelembe, és olyan funkciókat hajt végre, mint például a Szűrés és a válogatás, és a csökkentés () konszolidálja az eredményt. Hive példa arra, hogy a különböző államokból származó diákokat különböző DML parancsok segítségével bevonják a hallgatói adatbázisokból
Következtetés
Ez befejezi a Hadoop ökoszisztéma rövid bevezető megjegyzését. Az Apache Hadoop olyan népszerűségének köszönhetően népszerűvé vált, mint például az adathalmaz elemzése, a párhuzamos feldolgozás és a hibatolerancia elősegítése. Az ökoszisztémák fő alkotóelemei a Hadoop common, a HDFS, a Map-csökkentő és a fonalak. Hozzon létre egy hatékony megoldást. Meg kell tanulni egy alkotóelem-készletet, mindegyik elem elvégzi a sajátos feladatát, mivel ezek a Hadoop funkciók.
Ajánlott cikkek
Ez egy útmutató a Hadoop ökoszisztéma alkotóelemeiről. Itt részletesen megvitattuk a Hadoop ökoszisztéma alkotóelemeit. A további javasolt cikkeken keresztül további információkat is megtudhat -
- Karrier alkalmazási kör a Hadoop-ban
- Melyek a Hadoop felhasználásai?
- Mi az AWT a Java-ban?
- Tudjon meg többet az Adattárház és a Hadoop között