Bevezetés az Apache Spark architektúrába

Ez a cikk az Apache Spark Architecture és annak alkotóelemei fogalmait határozza meg. Ez az Apache Software Foundation csúcsszintű adatfeldolgozása. A szikra végül a Hadoop és a Map Reduce további lehetőségeinek tekinthető.

A Spark egy nyílt forráskódú architektúra, jól definiált összetevőkkel, amelyek segítenek nagy mennyiségű adat elemzésében, és működnek az elosztott számításban. A Spark Scala nyelven írva olyan engedélyezett szolgáltatásokkal, mint az API, R, és gazdagított könyvtárakkal rendelkezik, ami megkönnyíti az adatfeldolgozást. Az Apache Spark rendelkezik egyedi fürtszámításokkal a gyorsabb elérhetőség érdekében, és különböző platformon futtatható.

Az Apache Spark számos olyan funkcióval rendelkezik, mint például a gyorsabb futtatás a memória gyorsabb folyamatában, alkalmazkodik több programozási nyelvhez, továbbfejlesztette a gyorsítótárazási technikákat és támogatja az SQL lekérdezéseket, a gépi tanulást. Olyan platformon fut, mint a Microsoft Windows és a Linux operációs rendszerek. Telepítésük szerint egyetlen gépen és klaszter üzemmódban is futhatnak.

Apache Spark Architecture

Az Apache szikra építészetének lazán összekapcsolt elemei vannak. Spark fontolja meg a mester / munkás folyamatát az építészetben, és az összes feladat a Hadoop elosztott fájlrendszer tetején működik. Az Apache szikra a Hadoop-ot használja az adatfeldolgozáshoz és az adattárolási folyamatokhoz. Ezeket a memóriában lévő adatfeldolgozó motoroknak tekintik, és alkalmazásuknak köszönhetően a Hadoop fürtökön gyorsabban futnak, mint egy memória. A memóriában történő feldolgozás megakadályozza a lemez I / O meghibásodását. A Spark lehetővé teszi, hogy a heterogén munka ugyanazon adatokkal dolgozzon. A Spark adatait partíciókra osztja, a megosztott partíciók mérete az adott adatforrástól függ.

Az alábbiakban bemutatjuk az Apache Spark Architecture két fő megvalósítását:

1. Rugalmas elosztott adatkészletek (RDD)

Feladata az API biztosítása a gyorsítótárazás és a particionálás vezérléséhez. Fontos eszközkészlet az adatok kiszámításához. Segít az elemek újraszámításában hibák esetén, változatlan adatnak tekinthető, és interfészként működik. Az átalakítások és a műveletek az RDD által végrehajtott két művelet.

2. Irányított aciklikus grafikon (DAG)

Szekvenciakapcsolatot képez az egyik csomópontról a másikra. Az illesztőprogram minden feladathoz a programot DAG-ba konvertálja. Az Apache Spark Eco-rendszer különféle összetevőket tartalmaz, mint például az API mag, a Spark SQL, a streaming és a valósidejű feldolgozás, az MLIB és a Graph X. Néhány itt megismerhető terminológia a Spark shell, amely elősegíti a nagy mennyiségű adat olvasását, Spark kontextus - munka megszakítása, futtatása, feladat (munka), munka (számítás)

Az Apache Spark Architecture alkotóelemei

A Spark négy fő alkotóeleme az alábbiakban található, és meg kell érteni azokat a teljes kerethez.

  1. Spark Driver
  2. végrehajtók
  3. Klasztermenedzser
  4. Munkavállaló csomópontok

Az alábbi ábra a szikra architektúráját és alkotóelemeit mutatja be:

Ábra: Az Apache Spark Architecture önálló módja

A végrehajtási folyamat a következőképpen kezdődik:

1. Gyújtószikra-meghajtó

A vezető felelőssége a feladatok és a dolgozók koordinálása a vezetés érdekében. Ez egy Application JVM folyamat, amelyet mester csomópontnak tekintünk. Az illesztőprogram a szikrát feladatokra és ütemezésekre bontja, hogy végrehajthassák a klaszterek végrehajtóinál. A diagramban a meghajtóprogramok meghívják a fő alkalmazást, és szikrakontextust hoznak létre (átjáróként működnek), együttesen figyelik az adott fürtön belüli munkát, és csatlakoznak egy Spark-fürthez. Az összes funkció és parancs a szikrakontektoron keresztül történik.

A szikra összefüggés minden munkamenet bejegyzését jelenti. A Spark meghajtónak több összetevője van a fürtökben a jobok végrehajtására. A szikrafürtök különféle típusú fürtkezelőkhöz kapcsolódnak, és egyidejűleg a kontextus megszerzi a munkavállaló csomópontjait az adatok végrehajtására és tárolására. A fürtben, amikor végrehajtjuk a folyamatot, a feladatot szakaszokra bontják, a növekedési szakaszokat ütemezett feladatokra osztják.

2. Végrehajtó

Feladata a feladat végrehajtása, és az adatokat gyorsítótárban tárolja. A legelső szakaszban a végrehajtók regisztrálnak a járművezetőknél. Ennek a végrehajtónak számos időrész van az alkalmazás egyidejű futtatásához. A végrehajtók az olvasási / írási folyamatot külső forrásokon hajtják végre. A végrehajtó akkor futtatja a feladatot, amikor adatokat töltött be, és készenléti állapotban eltávolították azokat. A végrehajtót a dinamikus elosztás teszi lehetővé, és folyamatosan bevonják és kizárják őket, az időtartamtól függően. A feladatok végrehajtása során a végrehajtókat meghajtóprogram felügyeli. Végrehajtók hajtják végre a felhasználói feladatokat a java folyamatban.

3. Cluster Manager

Segít azon klaszterek kezelésében, amelyekben egy fő és több rabszolga van. Kétféle fürtkezelő létezik, például a YARN és az önálló, mindkettőt az Erőforrás-kezelő és a Csomópont kezeli. Az önálló klasztermunka a Spark Master és a munkavállaló csomópont szerepét igényli. A klasztermenedzser felelőssége az erőforrások elosztása és a feladat végrehajtása,

4. Munkavállaló csomópontok

Ezek a szolga csomópontok; a fő felelősség a feladatok végrehajtása, és azok kimenete visszakerül a szikra összefüggésbe. Kommunikálnak a fő csomóponttal az erőforrások rendelkezésre állásáról. A Spark kontextus végrehajtja, és kiadja a munkavállaló csomópontjainak. Mindegyik munkáscsomóponthoz egy szikrakezelőt kaptak a megfigyeléshez. A számítást nagyon egyszerűen úgy hajtják végre, hogy megnövelik a munkavállalói csomópontokat (1-től n-ig a munkavállalók száma), így minden feladatot párhuzamosan hajtanak végre úgy, hogy a feladatot több rendszer partícióira osztják. A másik elemfeladat munkaegységnek tekinthető, és egy végrehajtóhoz van hozzárendelve, minden partíciós szikra esetén egy feladatot futtat.

Következtetés

Ezért az Apache Spark Architecture megértésével azt jelenti, hogy a nagy adatokat könnyen megvalósítható. Végül megismertük azok akadálymentességét és alkotóelemeinek szerepét, ami nagyon hasznos a fürtszámításhoz és a nagy adattechnológiához. A szikra kiszámítja a kívánt eredményeket könnyebben és előnyben részesítve a kötegelt feldolgozás során.

A Spark megkülönböztető tulajdonságai, például az adatkészletek és az adatkeretek hozzájárulnak a felhasználói kód optimalizálásához. Az olyan fontos funkció, mint az SQL motor, elősegíti a végrehajtás sebességét, és sokoldalúvá teszi ezt a szoftvert. Ezért láttuk, hogy a szikraalkalmazások helyileg futnak vagy fürtönként terjednek. Az Apache Spark sokféle iparágban, mint például a nagy adat, nagyszerű kiegészítõnek tekinthetõ. Összefoglalva: a szikra segít a magas számítási feladatok megoldásában.

Ajánlott cikkek

Ez egy útmutató az Apache Spark Architecture-hez. Itt tárgyaljuk az Apache Spark Architecture bevezetését, a komponenseket és az Apache Spark blokkdiagramját. A további javasolt cikkeken keresztül további információkat is megtudhat -

  1. Spark Shell parancsok
  2. Apache Hadoop ökoszisztéma
  3. Big Data architektúra
  4. Mi az Apache

Kategória: