Telepítse a Spark - Teljes útmutató a Spark telepítéséhez

Tartalomjegyzék:

Anonim

Hogyan telepítsük a Spark-t?

A Spark egy nyílt forráskódú keret az elemző alkalmazások futtatásához. Ez egy, a gyártótól független Apache Software Foundationnél üzemeltetett adatfeldolgozó motor, amely nagy adatkészletekkel vagy nagy adatokkal dolgozik. Ez egy általános célú fürtszámítógép-rendszer, amely magas szintű API-kat biztosít Scala, Python, Java és R. rendszerben. A Hadoop MapReduce paradigmájának korlátaihoz való kifejlesztésre fejlesztették ki. Az adattudósok úgy vélik, hogy a Spark 100-szor gyorsabban hajt végre mint a MapReduce, mivel tárolhatja az adatokat a memóriában, míg a MapReduce jobban működik, ha lemezeket olvas és ír. A memóriában történő feldolgozást hajtja végre, ami erősebbé és gyorsabbá teszi.

A Sparknak nincs saját fájlrendszere. Különböző adatforrásokból dolgozza fel az adatokat, mint például a Hadoop Distributed File System (HDFS), az Amazon S3 rendszere, az Apache Cassandra, a MongoDB, az Alluxio, az Apache Hive. Futtatható a Hadoop YARN (még egy erőforrás-tárgyaló), a Mesos, az EC2, a Kubernetes vagy az önálló fürtmóddal. RDD-ket (Resilient Distributed Dataset) használ a munkaterhelések delegálására az egyes csomópontokra, amelyek támogatják az iteratív alkalmazásokat. Az RDD miatt a programozás egyszerű a Hadoophoz képest.

A Spark különféle komponensekből áll, amelyeket Spark Ecosystem Components néven hívnak.

  • Spark Core: Ez a Spark alkalmazás alapja, amelytől más alkatrészek közvetlenül függenek. Platformot kínál számos alkalmazáshoz, például ütemezéshez, elosztott feladatok disztribúciójához, memóriafeldolgozáshoz és az adatok referenciájához.
  • Spark Streaming: Ez az elem működik az élő streaming adatokkal, és valós idejű elemzést nyújt. Az élő adatokat a diszkrét egységekbe nevezett, diszkrét egységekben veszük fel, amelyek a Spark Core-n futnak.
  • Spark SQL: Ez az összetevő működik a Spark mag tetején SQL lekérdezések futtatásához strukturált vagy félig strukturált adatokon. Az Adatkeret lehetővé teszi a Spark SQL használatát.
  • GraphX: A gráf-számítási motor vagy keret lehetővé teszi a grafikon adatok feldolgozását. Különböző grafikus algoritmusokat biztosít a Sparkon történő futtatáshoz.
  • MLlib: Gépi tanulási algoritmusokat tartalmaz, amelyek gépi tanulási keretet biztosítanak egy memória alapú elosztott környezetben. Az emlékezetes adatfeldolgozási képesség miatt hatékonyan végez iteratív algoritmusokat.
  • SparkR: A Spark R csomagot biztosít az adatkészletek futtatásához vagy elemzéséhez R héj segítségével.

Három módon telepítheti vagy telepítheti a szikra a rendszereire:

  1. Önálló mód az Apache Spark-ban
  2. Hadoop fonal / Mesos
  3. SIMR (Spark in MapReduce)

Lássuk a telepítést önálló módban.

Spark önálló üzemmód:

1. lépés: Frissítse a csomag indexét

Ez szükséges a számítógép összes jelenlegi csomagjának frissítéséhez.

Használja a következő parancsot : $ sudo apt-get update

2. lépés: Telepítse a Java fejlesztőkészletet (JDK)

Ez telepíti a JDK-t a számítógépére, és segít a Java-alkalmazások futtatásában.

3. lépés: Ellenőrizze, hogy a Java megfelelően van-e telepítve

A Java az Apache Spark alkalmazások használatának vagy futtatásának előfeltétele.

Használja a : $ java –version parancsot

Ez a képernyőkép mutatja a java verziót, és biztosítja a java jelenlétét a gépen.

4. lépés: Telepítse a Scala-t a számítógépére

Mivel a Spark skálában van írva, ezért a szikra futtatásához a skálát telepíteni kell.

Használja a Parancsot: $ sudo apt-get install scala

5. lépés: Ellenőrizze, hogy a Scala megfelelően van-e telepítve

Ez biztosítja a skála sikeres telepítését a rendszerén.

Használja a parancsot : $ scala –version

6. lépés: Töltse le az Apache Spark-ot

Töltse le az Apache Spark-ot a Hadoop verziója szerint a https://spark.apache.org/downloads.html webhelyről

Amikor felmegy a fenti linkre, megjelenik egy ablak.

7. lépés: Válassza ki a Hadoop verziójának megfelelő verziót, majd kattintson a megjelölt linkre.

Újabb ablak jelenik meg.

8. lépés: Kattintson a megjelölt linkre, és az Apache szikra letöltésre kerül a rendszerébe.

Ellenőrizze, hogy a .tar.gz fájl elérhető-e a letöltések mappában.

9. lépés: Telepítse az Apache Spark-ot

A Spark telepítéséhez ki kell bontatni a tar fájlt.

Használja a Parancsot: $ tar xvf spark- 2.4.0-bin-hadoop2.7.tgz

A letöltött verziónak megfelelően meg kell változtatnia a parancsban említett verziót. Ebben letöltöttük a spark-2.4.0-bin-hadoop2.7 verziót.

10. lépés: Telepítési környezeti változó az Apache Spark számára

Használja a Parancsot: $ source ~ / .bashrc

Sor hozzáadása : export PATH = $ PATH: / usr / local / spark / bin

11. lépés: Ellenőrizze az Apache Spark telepítését

Használja a parancsot : $ spark-shell

Ha a telepítés sikeres volt, akkor a következő kimenet készül.

Ez azt jelenti, hogy az Apache Spark sikeresen telepítve van a gépen, és az Apache Spark elindul Scala-ban.

A Spark telepítése a Hadoop YARN-en:

Kétféle mód van az Apache Spark telepítésére a Hadoop YARN-en.

  1. Klaszter üzemmód: Ebben a módban a fürt YARN kezeli a Spark illesztőprogramot, amely az alkalmazás fő folyamatában fut. Az alkalmazás kezdeményezése után az ügyfél elmehet.
  2. Ügyfél mód: Ebben az üzemmódban az erőforrásokat az alkalmazás mester kéri a YARN-től, és a Spark illesztőprogram fut az ügyfél folyamatában.

Spark alkalmazás fürt módban történő telepítéséhez használja a következő parancsot:

$spark-submit –master yarn –deploy –mode cluster mySparkApp.jar

A fenti parancs egy YARN kliensprogramot indít, amely elindítja az alapértelmezett Application Master programot.

A Spark alkalmazás ügyfél módban történő telepítéséhez használja a következő parancsot:

$ spark-submit –master yarn –deploy –mode client mySparkApp.jar

A szikrahéjat ügyfél módban futtathatja a következő paranccsal:

$ spark-shell –master yarn –deploy-mode client

Tippek és trükkök a szikra telepítéséhez:

  1. A szikra telepítése előtt ellenőrizze, hogy a Java telepítve van-e a számítógépén.
  2. Ha scala nyelvet használ, akkor ellenőrizze, hogy a skála már telepítve van-e az Apache Spark használata előtt.
  3. A Python is használható a Scala helyett a Sparkban történő programozáshoz, de azt is előzetesen telepíteni kell, mint például a Scala.
  4. Az Apache Spark is futtatható Windows rendszeren, de javasolt egy virtuális gép létrehozása és az Ubuntu telepítése az Oracle Virtual Box vagy a VMWare Player használatával .
  5. A Spark Hadoop nélkül is futhat (azaz önálló módban), de ha többcsomópontú beállításra van szükség, akkor erőforrás-kezelőkre, például YARN vagy Mesos szükséges.
  6. A YARN használata közben nem szükséges a Spark-t mind a három csomópontra telepíteni. Az Apache Spark-ot csak egy csomópontra kell telepítenie.
  7. A YARN használata közben, ha ugyanabban a helyi hálózatban van a fürttel, akkor használhatja az ügyfél módot, míg ha távol van, akkor a fürt módot is használhatja.

Ajánlott cikkek - Spark Install

Ez egy útmutató a Spark telepítéséhez. Itt láttuk, hogyan telepítheti az Apache Spark-ot önálló módban és az erőforrás-kezelő YARN tetejére, valamint néhány tippet és trükköt is említünk a Spark zökkenőmentes telepítéséhez. A következő cikkben további információkat is megnézhet -

  1. A Spark parancsok használata
  2. A karrier a Sparkban - Meg kell próbálnod
  3. A Splunk és a szikra különbségei
  4. Spark Interjú Kérdések és válaszok
  5. A szikra streaming előnyei
  6. Csatlakozás típusai a Spark SQL-ben (példák)