Telepítse a Spark - Teljes útmutató a Spark telepítéséhez

Hogyan telepítsük a Spark-t?

A Spark egy nyílt forráskódú keret az elemző alkalmazások futtatásához. Ez egy, a gyártótól független Apache Software Foundationnél üzemeltetett adatfeldolgozó motor, amely nagy adatkészletekkel vagy nagy adatokkal dolgozik. Ez egy általános célú fürtszámítógép-rendszer, amely magas szintű API-kat biztosít Scala, Python, Java és R. rendszerben. A Hadoop MapReduce paradigmájának korlátaihoz való kifejlesztésre fejlesztették ki. Az adattudósok úgy vélik, hogy a Spark 100-szor gyorsabban hajt végre mint a MapReduce, mivel tárolhatja az adatokat a memóriában, míg a MapReduce jobban működik, ha lemezeket olvas és ír. A memóriában történő feldolgozást hajtja végre, ami erősebbé és gyorsabbá teszi.

A Sparknak nincs saját fájlrendszere. Különböző adatforrásokból dolgozza fel az adatokat, mint például a Hadoop Distributed File System (HDFS), az Amazon S3 rendszere, az Apache Cassandra, a MongoDB, az Alluxio, az Apache Hive. Futtatható a Hadoop YARN (még egy erőforrás-tárgyaló), a Mesos, az EC2, a Kubernetes vagy az önálló fürtmóddal. RDD-ket (Resilient Distributed Dataset) használ a munkaterhelések delegálására az egyes csomópontokra, amelyek támogatják az iteratív alkalmazásokat. Az RDD miatt a programozás egyszerű a Hadoophoz képest.

A Spark különféle komponensekből áll, amelyeket Spark Ecosystem Components néven hívnak.

Spark Core: Ez a Spark alkalmazás alapja, amelytől más alkatrészek közvetlenül függenek. Platformot kínál számos alkalmazáshoz, például ütemezéshez, elosztott feladatok disztribúciójához, memóriafeldolgozáshoz és az adatok referenciájához.
Spark Streaming: Ez az elem működik az élő streaming adatokkal, és valós idejű elemzést nyújt. Az élő adatokat a diszkrét egységekbe nevezett, diszkrét egységekben veszük fel, amelyek a Spark Core-n futnak.
Spark SQL: Ez az összetevő működik a Spark mag tetején SQL lekérdezések futtatásához strukturált vagy félig strukturált adatokon. Az Adatkeret lehetővé teszi a Spark SQL használatát.
GraphX: A gráf-számítási motor vagy keret lehetővé teszi a grafikon adatok feldolgozását. Különböző grafikus algoritmusokat biztosít a Sparkon történő futtatáshoz.
MLlib: Gépi tanulási algoritmusokat tartalmaz, amelyek gépi tanulási keretet biztosítanak egy memória alapú elosztott környezetben. Az emlékezetes adatfeldolgozási képesség miatt hatékonyan végez iteratív algoritmusokat.
SparkR: A Spark R csomagot biztosít az adatkészletek futtatásához vagy elemzéséhez R héj segítségével.

Három módon telepítheti vagy telepítheti a szikra a rendszereire:

Önálló mód az Apache Spark-ban
Hadoop fonal / Mesos
SIMR (Spark in MapReduce)

Lássuk a telepítést önálló módban.

Spark önálló üzemmód:

1. lépés: Frissítse a csomag indexét

Ez szükséges a számítógép összes jelenlegi csomagjának frissítéséhez.

Használja a következő parancsot : $ sudo apt-get update

2. lépés: Telepítse a Java fejlesztőkészletet (JDK)

Ez telepíti a JDK-t a számítógépére, és segít a Java-alkalmazások futtatásában.

3. lépés: Ellenőrizze, hogy a Java megfelelően van-e telepítve

A Java az Apache Spark alkalmazások használatának vagy futtatásának előfeltétele.

Használja a : $ java –version parancsot

Ez a képernyőkép mutatja a java verziót, és biztosítja a java jelenlétét a gépen.

4. lépés: Telepítse a Scala-t a számítógépére

Mivel a Spark skálában van írva, ezért a szikra futtatásához a skálát telepíteni kell.

Használja a Parancsot: $ sudo apt-get install scala

5. lépés: Ellenőrizze, hogy a Scala megfelelően van-e telepítve

Ez biztosítja a skála sikeres telepítését a rendszerén.

Használja a parancsot : $ scala –version

6. lépés: Töltse le az Apache Spark-ot

Töltse le az Apache Spark-ot a Hadoop verziója szerint a https://spark.apache.org/downloads.html webhelyről

Amikor felmegy a fenti linkre, megjelenik egy ablak.

7. lépés: Válassza ki a Hadoop verziójának megfelelő verziót, majd kattintson a megjelölt linkre.

Újabb ablak jelenik meg.

8. lépés: Kattintson a megjelölt linkre, és az Apache szikra letöltésre kerül a rendszerébe.

Ellenőrizze, hogy a .tar.gz fájl elérhető-e a letöltések mappában.

9. lépés: Telepítse az Apache Spark-ot

A Spark telepítéséhez ki kell bontatni a tar fájlt.

Használja a Parancsot: $ tar xvf spark- 2.4.0-bin-hadoop2.7.tgz

A letöltött verziónak megfelelően meg kell változtatnia a parancsban említett verziót. Ebben letöltöttük a spark-2.4.0-bin-hadoop2.7 verziót.

10. lépés: Telepítési környezeti változó az Apache Spark számára

Használja a Parancsot: $ source ~ / .bashrc

Sor hozzáadása : export PATH = $ PATH: / usr / local / spark / bin

11. lépés: Ellenőrizze az Apache Spark telepítését

Használja a parancsot : $ spark-shell

Ha a telepítés sikeres volt, akkor a következő kimenet készül.

Ez azt jelenti, hogy az Apache Spark sikeresen telepítve van a gépen, és az Apache Spark elindul Scala-ban.

A Spark telepítése a Hadoop YARN-en:

Kétféle mód van az Apache Spark telepítésére a Hadoop YARN-en.

Klaszter üzemmód: Ebben a módban a fürt YARN kezeli a Spark illesztőprogramot, amely az alkalmazás fő folyamatában fut. Az alkalmazás kezdeményezése után az ügyfél elmehet.
Ügyfél mód: Ebben az üzemmódban az erőforrásokat az alkalmazás mester kéri a YARN-től, és a Spark illesztőprogram fut az ügyfél folyamatában.

Spark alkalmazás fürt módban történő telepítéséhez használja a következő parancsot:

$spark-submit –master yarn –deploy –mode cluster mySparkApp.jar

A fenti parancs egy YARN kliensprogramot indít, amely elindítja az alapértelmezett Application Master programot.

A Spark alkalmazás ügyfél módban történő telepítéséhez használja a következő parancsot:

$ spark-submit –master yarn –deploy –mode client mySparkApp.jar

A szikrahéjat ügyfél módban futtathatja a következő paranccsal:

$ spark-shell –master yarn –deploy-mode client

Tippek és trükkök a szikra telepítéséhez:

A szikra telepítése előtt ellenőrizze, hogy a Java telepítve van-e a számítógépén.
Ha scala nyelvet használ, akkor ellenőrizze, hogy a skála már telepítve van-e az Apache Spark használata előtt.
A Python is használható a Scala helyett a Sparkban történő programozáshoz, de azt is előzetesen telepíteni kell, mint például a Scala.
Az Apache Spark is futtatható Windows rendszeren, de javasolt egy virtuális gép létrehozása és az Ubuntu telepítése az Oracle Virtual Box vagy a VMWare Player használatával .
A Spark Hadoop nélkül is futhat (azaz önálló módban), de ha többcsomópontú beállításra van szükség, akkor erőforrás-kezelőkre, például YARN vagy Mesos szükséges.
A YARN használata közben nem szükséges a Spark-t mind a három csomópontra telepíteni. Az Apache Spark-ot csak egy csomópontra kell telepítenie.
A YARN használata közben, ha ugyanabban a helyi hálózatban van a fürttel, akkor használhatja az ügyfél módot, míg ha távol van, akkor a fürt módot is használhatja.

Ajánlott cikkek - Spark Install

Ez egy útmutató a Spark telepítéséhez. Itt láttuk, hogyan telepítheti az Apache Spark-ot önálló módban és az erőforrás-kezelő YARN tetejére, valamint néhány tippet és trükköt is említünk a Spark zökkenőmentes telepítéséhez. A következő cikkben további információkat is megnézhet -

A Spark parancsok használata
A karrier a Sparkban - Meg kell próbálnod
A Splunk és a szikra különbségei
Spark Interjú Kérdések és válaszok
A szikra streaming előnyei
Csatlakozás típusai a Spark SQL-ben (példák)

Telepítse a Spark - Teljes útmutató a Spark telepítéséhez

Tartalomjegyzék:

Hogyan telepítsük a Spark-t?

A Spark különféle komponensekből áll, amelyeket Spark Ecosystem Components néven hívnak.

Három módon telepítheti vagy telepítheti a szikra a rendszereire:

Spark önálló üzemmód:

1. lépés: Frissítse a csomag indexét

2. lépés: Telepítse a Java fejlesztőkészletet (JDK)

3. lépés: Ellenőrizze, hogy a Java megfelelően van-e telepítve

4. lépés: Telepítse a Scala-t a számítógépére

5. lépés: Ellenőrizze, hogy a Scala megfelelően van-e telepítve

6. lépés: Töltse le az Apache Spark-ot

7. lépés: Válassza ki a Hadoop verziójának megfelelő verziót, majd kattintson a megjelölt linkre.

8. lépés: Kattintson a megjelölt linkre, és az Apache szikra letöltésre kerül a rendszerébe.

9. lépés: Telepítse az Apache Spark-ot

10. lépés: Telepítési környezeti változó az Apache Spark számára

11. lépés: Ellenőrizze az Apache Spark telepítését

A Spark telepítése a Hadoop YARN-en:

Tippek és trükkök a szikra telepítéséhez:

Ajánlott cikkek - Spark Install

A munkahelyi érzelmi intelligencia készségeinek 10 legjobb módja

Érzelmi intelligencia a vezetésben - Koncepció és kulcsszerkezetek

Munkavállalói motiváció - Miért az elismerés a legfontosabb?

10 legjobb módszer a munkavállalói kommunikációs stratégiák élesítésére edu CBA

Miért vannak az alkalmazottak a legértékesebb immateriális javak? - edu CBA

Projektvezető felelősségei Útmutató a szerepekhez és a felelősségvállaláshoz

Projektvezető fizetése 5 Különböző típusú projektmenedzser

Projektjavaslat vs. Projekt Alapszabály - edu CBA

Projektvezetők vs Projektvezetők - melyik a legjobb?

8 Projektmenedzser arra törekszik, hogy minden áron elkerülje a hibákat edu CBA

Mély tanulási algoritmusok A 7 legfontosabb építészeti módszer a mély tanuláshoz

Az adósság és a saját tőke arányának képlete - Számológép (példák Excel sablonnal)

Decile képlet - Decile kiszámítása (példák Excel sablonnal)

Döntési fa algoritmus - Magyarázat és az entrópia szerepe a döntési fában

13 Hasznos, mélyreható tanulási interjúkérdések és válaszok