Hogyan telepítsük a Spark-t?
A Spark egy nyílt forráskódú keret az elemző alkalmazások futtatásához. Ez egy, a gyártótól független Apache Software Foundationnél üzemeltetett adatfeldolgozó motor, amely nagy adatkészletekkel vagy nagy adatokkal dolgozik. Ez egy általános célú fürtszámítógép-rendszer, amely magas szintű API-kat biztosít Scala, Python, Java és R. rendszerben. A Hadoop MapReduce paradigmájának korlátaihoz való kifejlesztésre fejlesztették ki. Az adattudósok úgy vélik, hogy a Spark 100-szor gyorsabban hajt végre mint a MapReduce, mivel tárolhatja az adatokat a memóriában, míg a MapReduce jobban működik, ha lemezeket olvas és ír. A memóriában történő feldolgozást hajtja végre, ami erősebbé és gyorsabbá teszi.
A Sparknak nincs saját fájlrendszere. Különböző adatforrásokból dolgozza fel az adatokat, mint például a Hadoop Distributed File System (HDFS), az Amazon S3 rendszere, az Apache Cassandra, a MongoDB, az Alluxio, az Apache Hive. Futtatható a Hadoop YARN (még egy erőforrás-tárgyaló), a Mesos, az EC2, a Kubernetes vagy az önálló fürtmóddal. RDD-ket (Resilient Distributed Dataset) használ a munkaterhelések delegálására az egyes csomópontokra, amelyek támogatják az iteratív alkalmazásokat. Az RDD miatt a programozás egyszerű a Hadoophoz képest.
A Spark különféle komponensekből áll, amelyeket Spark Ecosystem Components néven hívnak.
- Spark Core: Ez a Spark alkalmazás alapja, amelytől más alkatrészek közvetlenül függenek. Platformot kínál számos alkalmazáshoz, például ütemezéshez, elosztott feladatok disztribúciójához, memóriafeldolgozáshoz és az adatok referenciájához.
- Spark Streaming: Ez az elem működik az élő streaming adatokkal, és valós idejű elemzést nyújt. Az élő adatokat a diszkrét egységekbe nevezett, diszkrét egységekben veszük fel, amelyek a Spark Core-n futnak.
- Spark SQL: Ez az összetevő működik a Spark mag tetején SQL lekérdezések futtatásához strukturált vagy félig strukturált adatokon. Az Adatkeret lehetővé teszi a Spark SQL használatát.
- GraphX: A gráf-számítási motor vagy keret lehetővé teszi a grafikon adatok feldolgozását. Különböző grafikus algoritmusokat biztosít a Sparkon történő futtatáshoz.
- MLlib: Gépi tanulási algoritmusokat tartalmaz, amelyek gépi tanulási keretet biztosítanak egy memória alapú elosztott környezetben. Az emlékezetes adatfeldolgozási képesség miatt hatékonyan végez iteratív algoritmusokat.
- SparkR: A Spark R csomagot biztosít az adatkészletek futtatásához vagy elemzéséhez R héj segítségével.
Három módon telepítheti vagy telepítheti a szikra a rendszereire:
- Önálló mód az Apache Spark-ban
- Hadoop fonal / Mesos
- SIMR (Spark in MapReduce)
Lássuk a telepítést önálló módban.
Spark önálló üzemmód:
1. lépés: Frissítse a csomag indexét
Ez szükséges a számítógép összes jelenlegi csomagjának frissítéséhez.
Használja a következő parancsot : $ sudo apt-get update
2. lépés: Telepítse a Java fejlesztőkészletet (JDK)
Ez telepíti a JDK-t a számítógépére, és segít a Java-alkalmazások futtatásában.
3. lépés: Ellenőrizze, hogy a Java megfelelően van-e telepítve
A Java az Apache Spark alkalmazások használatának vagy futtatásának előfeltétele.
Használja a : $ java –version parancsot
Ez a képernyőkép mutatja a java verziót, és biztosítja a java jelenlétét a gépen.
4. lépés: Telepítse a Scala-t a számítógépére
Mivel a Spark skálában van írva, ezért a szikra futtatásához a skálát telepíteni kell.
Használja a Parancsot: $ sudo apt-get install scala
5. lépés: Ellenőrizze, hogy a Scala megfelelően van-e telepítve
Ez biztosítja a skála sikeres telepítését a rendszerén.
Használja a parancsot : $ scala –version
6. lépés: Töltse le az Apache Spark-ot
Töltse le az Apache Spark-ot a Hadoop verziója szerint a https://spark.apache.org/downloads.html webhelyről
Amikor felmegy a fenti linkre, megjelenik egy ablak.
7. lépés: Válassza ki a Hadoop verziójának megfelelő verziót, majd kattintson a megjelölt linkre.
Újabb ablak jelenik meg.
8. lépés: Kattintson a megjelölt linkre, és az Apache szikra letöltésre kerül a rendszerébe.
Ellenőrizze, hogy a .tar.gz fájl elérhető-e a letöltések mappában.
9. lépés: Telepítse az Apache Spark-ot
A Spark telepítéséhez ki kell bontatni a tar fájlt.
Használja a Parancsot: $ tar xvf spark- 2.4.0-bin-hadoop2.7.tgz
A letöltött verziónak megfelelően meg kell változtatnia a parancsban említett verziót. Ebben letöltöttük a spark-2.4.0-bin-hadoop2.7 verziót.
10. lépés: Telepítési környezeti változó az Apache Spark számára
Használja a Parancsot: $ source ~ / .bashrc
Sor hozzáadása : export PATH = $ PATH: / usr / local / spark / bin
11. lépés: Ellenőrizze az Apache Spark telepítését
Használja a parancsot : $ spark-shell
Ha a telepítés sikeres volt, akkor a következő kimenet készül.
Ez azt jelenti, hogy az Apache Spark sikeresen telepítve van a gépen, és az Apache Spark elindul Scala-ban.
A Spark telepítése a Hadoop YARN-en:
Kétféle mód van az Apache Spark telepítésére a Hadoop YARN-en.
- Klaszter üzemmód: Ebben a módban a fürt YARN kezeli a Spark illesztőprogramot, amely az alkalmazás fő folyamatában fut. Az alkalmazás kezdeményezése után az ügyfél elmehet.
- Ügyfél mód: Ebben az üzemmódban az erőforrásokat az alkalmazás mester kéri a YARN-től, és a Spark illesztőprogram fut az ügyfél folyamatában.
Spark alkalmazás fürt módban történő telepítéséhez használja a következő parancsot:
$spark-submit –master yarn –deploy –mode cluster mySparkApp.jar
A fenti parancs egy YARN kliensprogramot indít, amely elindítja az alapértelmezett Application Master programot.
A Spark alkalmazás ügyfél módban történő telepítéséhez használja a következő parancsot:
$ spark-submit –master yarn –deploy –mode client mySparkApp.jar
A szikrahéjat ügyfél módban futtathatja a következő paranccsal:
$ spark-shell –master yarn –deploy-mode client
Tippek és trükkök a szikra telepítéséhez:
- A szikra telepítése előtt ellenőrizze, hogy a Java telepítve van-e a számítógépén.
- Ha scala nyelvet használ, akkor ellenőrizze, hogy a skála már telepítve van-e az Apache Spark használata előtt.
- A Python is használható a Scala helyett a Sparkban történő programozáshoz, de azt is előzetesen telepíteni kell, mint például a Scala.
- Az Apache Spark is futtatható Windows rendszeren, de javasolt egy virtuális gép létrehozása és az Ubuntu telepítése az Oracle Virtual Box vagy a VMWare Player használatával .
- A Spark Hadoop nélkül is futhat (azaz önálló módban), de ha többcsomópontú beállításra van szükség, akkor erőforrás-kezelőkre, például YARN vagy Mesos szükséges.
- A YARN használata közben nem szükséges a Spark-t mind a három csomópontra telepíteni. Az Apache Spark-ot csak egy csomópontra kell telepítenie.
- A YARN használata közben, ha ugyanabban a helyi hálózatban van a fürttel, akkor használhatja az ügyfél módot, míg ha távol van, akkor a fürt módot is használhatja.
Ajánlott cikkek - Spark Install
Ez egy útmutató a Spark telepítéséhez. Itt láttuk, hogyan telepítheti az Apache Spark-ot önálló módban és az erőforrás-kezelő YARN tetejére, valamint néhány tippet és trükköt is említünk a Spark zökkenőmentes telepítéséhez. A következő cikkben további információkat is megnézhet -
- A Spark parancsok használata
- A karrier a Sparkban - Meg kell próbálnod
- A Splunk és a szikra különbségei
- Spark Interjú Kérdések és válaszok
- A szikra streaming előnyei
- Csatlakozás típusai a Spark SQL-ben (példák)