Bevezetés a Spark Interjúhoz kapcsolódó kérdések és válaszok
Az Apache Spark egy nyílt forráskódú keret. A Spark, mivel ez egy nyílt forráskódú platform, több programozási nyelvet is használhatunk, mint például a java, python, Scala, R. A Map-Reduce folyamatteljesítményéhez képest a spark hozzájárul a végrehajtás teljesítményének javításához. Ezenkívül 100-szor gyorsabb a memória végrehajtása, mint a Map-Reduce. A szikra feldolgozási ereje miatt manapság az iparág inkább a szikrát részesíti előnyben.
Tehát végre megtalálta álmai állását a Sparkban, de azon gondolkodik, hogyan lehet kitörni a Spark Interjúban, és mi lehet a valószínű Spark Interjú kérdései 2018-ra. Minden interjú eltérő, és a munka köre is eltérő. Ezt szem előtt tartva megterveztük a leggyakoribb Spark-interjúval kapcsolatos kérdéseket és válaszokat 2018-ra, hogy segítsenek sikereket szerezni az interjúban.
Ezeket a kérdéseket két részre osztják
1. rész - Spark interjú kérdése (alapvető)
Ez az első rész a Spark interjúval kapcsolatos alapvető kérdéseket és válaszokat tartalmazza
1. Mi a Spark?
Válasz:
Az Apache Spark egy nyílt forráskódú keret. Javítja a végrehajtás teljesítményét, mint a Map-Reduce folyamat. Ez egy nyitott platform, ahol több programozási nyelvet is használhatunk, például Java, Python, Scala, R. A Spark a memóriában történő végrehajtást 100-szor gyorsabb, mint a Map-Reduce. Az RDD koncepcióját használja. Az RDD rugalmas elosztott adatkészlet, amely lehetővé teszi az adatok átlátszó tárolását a memóriában, és továbbra is csak a szükséges lemezek tárolására szolgál. Ez csökkenti a lemez helyett az adatok memóriából való elérésének idejét. Manapság az ipar a Sparkot részesíti előnyben feldolgozási ereje miatt.
2. Különbség a Hadoop és a Spark között?
Válasz:
Funkciókritériumok | Apache Spark | Hadoop |
Sebesség | 10-100-szor gyorsabb, mint a Hadoop | Normál sebesség |
Feldolgozás | Valós idejű és kötegelt feldolgozás, memóriában, gyorsítótárazás | Csak kötegelt feldolgozás, lemeztől függ |
Nehézség | Könnyű a magas szintű modulok miatt | Nehéz megtanulni |
Felépülés | Lehetővé teszi a partíciók helyreállítását az RDD használatával | Hibatűrő |
Az interaktivitás | Interaktív, interaktív módokkal rendelkezik | Nincs interaktív mód, a Pig & Hive kivételével, nincs iteratív mód |
A normál Hadoop architektúra az alapvető Map-Reduce-t követi, ugyanabban a folyamatban a szikra a memóriában végrehajtja. A Map-Reduce merevlemezéről történő olvasás-írás helyett a spark az olvasás-írás virtuális memóriából biztosít.
Menjünk a következő Spark Interjú-kérdésekhez
3. Melyek a szikra jellemzői?
Válasz:
- Biztosítson integrációs lehetőséget a Hadoop és a HDFS fájlok között. A Spark a Hadoop tetején futhat a YARN erőforrás-fürtök használatával. A Spark képes helyettesíteni a Hadoop Map-Reduce motorját.
- Polyglot: Spark Magas szintű API-t biztosít a Java, Python, Scala és R. számára. A Spark Code a négy nyelv bármelyikén írható. Az IT független héjat biztosít a skála számára (a nyelv, amelyen a Spark meg van írva), és egy python tolmácsot biztosít. Melyik segít együttműködni a gyújtómotorral? A Scala shell elérhető a ./bin/spark-shell és a Python shell keresztül ./bin/pyspark keresztül a telepített könyvtárból.
- Sebesség: A nagy teljesítményű adatfeldolgozáshoz a Spark motor százszor gyorsabb, mint a Hadoop Map-Reduce. A sebesség a particionálás révén érhető el, hogy párhuzamosítsák az elosztott adatfeldolgozást minimális hálózati forgalommal. Spark biztosítson RDD-ket (rugalmas elosztott adatkészletek), amelyek gyorsítótárazhatók egy fürt számítási csomópontjai között
- Több formátum: A Spark rendelkezik adatforrás API-val. Ez a mechanizmus biztosítja a strukturált adatokhoz való hozzáférést a szikra SQL segítségével. Az adatforrások bármi lehetnek, a Spark csak létrehoz egy mechanizmust az adatok konvertálásához és a szikrahúzáshoz. A Spark számos adatforrást támogat, például Hive, HBase, Cassandra, JSON, Parquet, ORC.
- A Spark néhány beépített könyvtárat biztosít több feladat elvégzéséhez ugyanabból a magból, például kötegelt feldolgozás, gőzölés, gépi tanulás, interaktív SQL lekérdezések. A Hadoop azonban csak a kötegelt feldolgozást támogatja. Spark Provide MLIb (Machine learning könyvtárak), amely hasznos lesz a Big-Data Developer számára az adatok feldolgozásához. Ez segít eltávolítani a több eszköztől való függőségeket különböző célokra. A Spark közös nagy teljesítményű platformot biztosít az adatmérnökök és az adattudósok számára, mind gyors, mind egyszerűen használható.
- Az Apache Spark késlelteti a folyamat végrehajtását, amíg a művelet nem szükséges. Ez a szikra egyik legfontosabb jellemzője. A Spark hozzáad minden egyes transzformációt a DAG-hoz (Direct Acyclic Graph) végrehajtás céljából, és amikor a művelet végrehajtani akarja, akkor a DAG feldolgozását ténylegesen kiváltja.
- Valós idejű adatfolyam: Az Apache Spark a memóriában lévő végrehajtás miatt valós idejű számításokat és alacsony késleltetést biztosít. A Spark nagy skálázhatósághoz lett kifejlesztve, mint például a fürt ezer csomópontja és több modell a számításhoz.
4. Mi a fonalak?
Válasz:
Ez az interjú során feltett alapvető Spark-interjúkérdések. YARN (még egy erőforrás-tárgyaló) az erőforrás-kezelő. A Spark egy olyan platform, amely gyors végrehajtást biztosít. A Spark a YARN-t fogja használni a fürtön végzett munka végrehajtásához, nem pedig a saját beépített kezelőjéhez. Van néhány konfiguráció a Yarn futtatásához. Ezek közé tartozik a master, a deploy-mode, az illesztőprogram-memória, a végrehajtó-memória, a végrehajtó-magok és a sor. Ez az a gyakori Spark Interjú-kérdés, amelyet az alábbi interjúban kérdeznek, és ez a szikra előnyei:
A Spark előnyei a térkép-csökkentéshez képest
A Spark előnyei vannak a Map-Reduce-hez képest az alábbiak szerint: -
Mivel a memória folyamat képes a Spark 10-100-szor gyorsabban végrehajtani, mint a Map-Reduce. Ahol a Map-Reduce felhasználható az adatok megmaradására a Map and Reduce szakaszban.
Az Apache Spark magas szintű beépített könyvtárakat biztosít több feladat feldolgozására egyidejűleg kötegelt feldolgozás, valósidejű adatfolyam, Spark-SQL, strukturált adatfolyam, MLib stb. Ugyanakkor a Hadoop csak kötegelt feldolgozást biztosít.
A Hadoop Map-Reduce folyamat lemeztől függ, ahol a Spark gyorsítótárat és memóriát biztosít.
A Sparknak mind iteratív, számításokat végez ugyanabban az adatkészletben és interaktív, számításokat végez különféle adatkészletek között, ahol a Hadoop nem támogatja az iteratív számítást.
5. Milyen nyelvet támogat a Spark?
Válasz:
Spark támogató scala, Python, R és Java. A piacon a nagy adatfejlesztők leginkább a scala-t és a python-ot részesítik előnyben. Ahhoz, hogy a skála a kódot összeállítsa, a Set Path of scale / bin könyvtárához szükséges vagy jar fájl készítéséhez szükséges.
6. Mi az RDD?
Válasz:
Az RDD a rugalmas, elosztott adatkészlet absztrakciója, amely a fürt összes csomópontján felosztott elemek gyűjteményét biztosítja, amely elősegíti a több folyamat párhuzamos végrehajtását. Az RDD fejlesztővel az adatok tárolhatók a memóriában vagy a gyorsítótárban, és hatékonyan felhasználhatók a műveletek párhuzamos végrehajtására. Az RDD könnyen visszaállítható a csomópont meghibásodásából.
2. rész - Spark interjú kérdése (haladó)
Vessen egy pillantást a speciális Spark Interjú Kérdésekre.
7. Milyen tényezők felelősek a Spark végrehajtásáért?
Válasz:
1. A Spark a memóriában végrehajtja a lemezfüggő helyett, mint például a Hadoop Map-Reduce.
2.RDD rugalmas elosztott adatkészlet, amely több művelet felelős párhuzamos végrehajtása a fürt összes csomópontján.
3. A Spark megosztott változó szolgáltatást nyújt a párhuzamos végrehajtáshoz. Ezek a változók csökkentik az adatátvitelt a csomópontok között, és megosztják az összes csomópont másolatát. Két változó létezik.
4.Broadcast-változó: Ez a változó felhasználható az összes csomópont memóriájában lévő érték gyorsítótárba helyezésére
5.Akkumulátorok változója: Ez a változó csak „hozzáadódik” a számlálókhoz és az összegekhez.
8. Mi az a végrehajtó memória?
Válasz:
Ez egy gyakran feltett Spark interjú kérdés egy interjúban. Ez a szikra-végrehajtó számára kiosztott halom méret. Ez a tulajdonság az –executor-memory zászló spark.executor.memory tulajdonságával vezérelhető. Minden Spark alkalmazásnak van egy végrehajtója minden dolgozó csomóponthoz. Ez a tulajdonság arra utal, hogy a munkavállaló csomópontjai mennyi memóriát fognak foglalni egy alkalmazás számára.
9. Hogyan használja a Spark Stream-et? Magyarázza meg egy felhasználási esetet?
Válasz:
A Spark Stream az egyik olyan szolgáltatás, amely hasznos lehet valós idejű felhasználási esetekben. Erre a célra használhatunk flume, Kafka szikra segítségével. A Flume elindítja az adatokat egy forrásból. A Kafka az adatokat a témába fogja őrizni. A Kafka-tól a Spark az adatot a patak segítségével fogja kihúzni, és D-adatfolyamként továbbítja és végrehajtja az átalakítást.
Ezt a folyamatot felhasználhatjuk valós idejű gyanús tranzakciókra, valós idejű ajánlatokra stb.
Menjünk a következő Spark Interjú-kérdésekhez
10. Használhatjuk-e a Spark-ot az ETL-folyamathoz?
Válasz:
Igen, szikraplatformot használhatunk az ETL-folyamathoz.
11. Mi a Spark SQL?
Válasz:
Ez a szikra egyik különleges összetevője, amely támogatja az SQL lekérdezéseket.
12. Milyen lusta értékelés?
Válasz:
Ha szikrával dolgozunk, az átalakulásokat addig nem értékelik, amíg Ön nem hajt végre egy műveletet. Ez elősegíti az általános adatfeldolgozási munkafolyamat optimalizálását. Az átalakítás meghatározásakor hozzá fogja adni a DAG-t (közvetlen aciklikus grafikon). És a cselekvés idején elkezdi lépésről lépésre végrehajtani az átalakításokat. Ez egy hasznos Spark interjú kérdés, amelyet egy interjúban feltett.
Ajánlott cikk
Ez egy útmutató a Spark Interjúval kapcsolatos kérdések és válaszok listájához, így a jelölt könnyen meg tudja oldani ezeket a Spark Interjúval kapcsolatos kérdéseket. A következő cikkeket is megnézheti további információkért -
- Java vs Node JS, a különbségek egyszerűsítése
- Mongo adatbázis interjúkérdések | Hasznos és a legtöbb kérdés
- 15 legsikeresebb R interjú kérdés és válasz
- Perl interjúkérdések és válaszok
- SAS rendszerinterjúval kapcsolatos kérdések - a 10 legfontosabb hasznos kérdés