Bevezetés a Hadoop alternatívákba

Az Apache Hadoop egy szörnyű keret, amely számos más összetevőt is használ, mint például a HDFS, a Hive, a Spark, a YARN és a Zookeeper. A belső vagy külső forrásokból kinyert adatok feldolgozására és elemzésére szolgál. Több géptől vagy szervertől több ezerre méretezhető. Számos beépített könyvtárfunkció létezik, amelyek felismerik és kezelik a hibákat.

A Hadoop alkotóelemei

1) Hadoop elosztott fájlrendszer (HDFS):

Ez az adattároló tartály a Hadoopban. Az elosztott adatok elvén működik, amikor a hatalmas adatkészletek apró részekre oszlanak és több gépen tárolódnak egy fürtben.

2) MapReduce:

Ez egy olyan programozási modell, amely párhuzamosan végez elemzéseket a klaszter különböző csomópontjain található adatokról.

3) Kaptár:

Nyílt forráskódú keret, amelyet a strukturált adatok lekérdezésére használnak a Hive-Query nyelv használatával. Az indexelési funkciót felgyorsítják a lekérdezés folyamatához.

4) Ambari:

A fürt állapotának figyelésére és a műveletek automatizálására szolgáló platform. Egy egyszerű webes felhasználói felülettel rendelkezik, és könnyen telepíthető és konfigurálható.

A Hadoop alternatívák listája

Az alábbiakban bemutatjuk a különböző Hadoop alternatívákat, amelyek a következők:

Kötegelt feldolgozás

A feldolgozás itt csak az archív adatok alapján történik. Például a pénzügyi ellenőrzés és a népszámlálás a régi adatok elemzése, a jövőbeni eredmények jobb előrejelzése érdekében. Ezek az adatok milliárd sorot és oszlopot tartalmazhatnak. A kötegelt feldolgozás a leginkább alkalmas nagyméretű adatfeldolgozásra, valósidejű elemzés nélkül.

Valós idejű feldolgozás

Stream-Processing néven is ismert. Itt az adatokat időről időre dolgozzuk fel, ahogy azokat a várható eredmények gyors betekintése érdekében állítják elő. A földrengés észlelése és tőzsdei piacok a legjobb példák, ahol a valós idejű elemzés kötelező.

Apache Spark

A Spark egy keret, amelyet a Hadoop-nal együtt használnak kötegelt vagy valósidejű adatok feldolgozására fürtözött gépeken. Használható önállóan is, adatok lekérésére és tárolására harmadik fél szerverein HDFS használata nélkül. Ez egy nyílt forrású termék. API-kat biztosít, amelyek SCALA, R vagy Python használatával vannak írva, amely támogatja az általános feldolgozást. A strukturált adatok feldolgozásához a Spark-SQL használható. A Spark Streaming elvégzi a nagyon szükséges valós idejű elemzéseket. A Spark támogatja a gépi tanulást az MLIB használatával. Végül a feldolgozott adatok a Graphix segítségével tekinthetők meg.

A Spark leginkább figyelemreméltó tulajdonsága az In-Memory feldolgozás. Az adatok teljes feldolgozása a memóriában zajlik, nem a lemezen. Ez a módszer menti a bemenet olvasási és írási idejét a lemezre, és a kimenetet vissza a lemezről. A szikra villámgyors és szinte százszor gyorsabb, mint a Hadoop feldolgozása. A teljes függvényt meghatározzuk és elküldjük a Spark kontextusba. Csak akkor kezdődik el a feldolgozás a semmiből. Ezt a módszert nevezzük lusta végrehajtásnak. A Kafka, a Flume adatátvitel bemenetei. A Spark strukturált vagy nem strukturált adatokat használhat az elemzéshez. Az adatfolyamok egy csomó adat egy adott időintervallumra a Spark Streamingben. Ezeket tételekké alakítják át, és feldolgozás céljából benyújtják a Spark Engine-hez. A strukturált adatokat átalakítják adatkeretekké, mielőtt a Spark-SQL-t felhasználnák a további elemzéshez.

Apache Storm

Az Apache Storm a Hadoop egyik alternatívája, amely a legjobban elosztott, valós idejű elemzésre szolgál. Könnyen beállítható, felhasználóbarát és adatvesztést nem jelent. A vihar nagyon magas feldolgozási teljesítménygel rendelkezik, és alacsony késleltetési időt (általában másodpercben) biztosít a Hadoophoz képest.

Közelebbről megismerjük a Storm munkafolyamatát:

  • A Vihar-topológiát (hasonlóan a DAG-hoz, de a fizikai kivitelezési tervhez) benyújtják a Nimbusnak (mestercsomópont).
  • A feladatokat és azok végrehajtásának sorrendjét a Nimbus felé továbbítják.
  • A Nimbus egyenletesen osztja el a rendelkezésre álló feladatokat a felügyelők (kanapék) között, és a folyamatot a munkáscsomópontok (csavarok) végzik.
  • A csapok és csavarok egészségét a szívverések révén folyamatosan ellenőrzik. Amint a felügyelő meghal, a Nimbus kiosztja a feladatot egy másik csomópontnak.
  • Ha a Nimbus meghal, a figyelőeszközök automatikusan újraindítják. Eközben a felügyeletek folytatják a korábban kijelölt feladatok elvégzését.
  • Miután a Nimbus újraindult, továbbra is ott folytatja működését, ahol megállt. Ezért nincs adatvesztés, és minden adat legalább egyszer átjut a topológián.
  • A topológia továbbra is fut, kivéve, ha a Nimbus megszűnik vagy erősen leáll.
  • A Vihar az állatkertőr használatával figyeli a Nimbust és a többi felügyeleti csomópontot.

Nagy lekérdezés

Az adatbázisokat tranzakciós feldolgozásra használják. A vezetők jelentéseket készítenek és elemzik az adatokat különböző adatbázisokból. Bevezették az adattárakat, hogy a szervezetben több adatbázisból származtassák az adatokat. A Google kifejlesztett egy nagy lekérdezést, amely egy saját raktár által kezelt adattár. A nagyon összetett lekérdezések kezeléséhez nagyon nagy teljesítményű szerverekre és csomóponti gépekre lehet szükség, amelyek óriási költségeket okozhatnak. Az infrastruktúra létesítése akár több hétig is eltarthat. Miután elérte a maximális küszöböt, azt fel kell méretezni. E problémák kiküszöbölése érdekében a Nagy lekérdezés tárolást biztosít a Google felhő formájában. A munkavállaló csomópontjainak mérete az adatközpont méretének megfelelő, ha szükséges, hogy másodpercek alatt összetett lekérdezést hajtsanak végre. Fizet azért, amit használ, azaz a lekérdezést. A Google gondoskodik az erőforrásokról, azok karbantartásáról és biztonságáról. A lekérdezések futtatása normál adatbázisokban percek-órákig tarthat. A nagy lekérdezés sokkal gyorsabban dolgozza fel az adatokat, és elsősorban olyan adatfolyamokra alkalmas, mint például az online játék és a tárgyak internete (IoT). A feldolgozási sebesség másodpercenként akár milliárd sor is lehet.

Gyors

A Presto lekérdezés felhasználható a szervezet különböző forrásaiból származó adatok kombinálására és elemzésére. Az adatok a Hive-ben, az RDBMS-ben vagy a Cassandra-ban találhatók. A Presto leginkább az elemzők számára alkalmas, akik perceken belül várják el a teljes lekérdezett jelentést. Az architektúra analóg egy klasszikus adatbázis-kezelő rendszerrel, több fürt használatával a fürtön keresztül. A Facebook fejlesztette ki elemzések elvégzéséhez és betekintéshez belső adataikból, ideértve a 300PB-os adattárházukat is. Az adatokon több mint 30.000 lekérdezés futtatásra kerül, hogy napi petabájton át beolvassák. Más vezető cégek, például az Airbnb és a Dropbox is használják a Presto-t.

Ajánlott cikk

Ez egy útmutató a Hadoop Alternatívákhoz. Itt a Hadoop, a kötegelt feldolgozás és a Hadoop alternatívák valós idejű feldolgozása alkotóelemeit tárgyaljuk. A következő cikkeket is megnézheti további információkért:

  1. Hadoop rendszergazdai munkák
  2. Hadoop vs SQL teljesítmény
  3. Karrier a Hadoopban
  4. Hadoop vs Spark
  5. Hadoop rendszergazda | Készségek és karrier út

Kategória: