Spark Interjú Kérdések - A 2018 legfontosabb 12 kérdése frissítve

Bevezetés a Spark Interjúhoz kapcsolódó kérdések és válaszok

Az Apache Spark egy nyílt forráskódú keret. A Spark, mivel ez egy nyílt forráskódú platform, több programozási nyelvet is használhatunk, mint például a java, python, Scala, R. A Map-Reduce folyamatteljesítményéhez képest a spark hozzájárul a végrehajtás teljesítményének javításához. Ezenkívül 100-szor gyorsabb a memória végrehajtása, mint a Map-Reduce. A szikra feldolgozási ereje miatt manapság az iparág inkább a szikrát részesíti előnyben.

Tehát végre megtalálta álmai állását a Sparkban, de azon gondolkodik, hogyan lehet kitörni a Spark Interjúban, és mi lehet a valószínű Spark Interjú kérdései 2018-ra. Minden interjú eltérő, és a munka köre is eltérő. Ezt szem előtt tartva megterveztük a leggyakoribb Spark-interjúval kapcsolatos kérdéseket és válaszokat 2018-ra, hogy segítsenek sikereket szerezni az interjúban.

Ezeket a kérdéseket két részre osztják

1. rész - Spark interjú kérdése (alapvető)

Ez az első rész a Spark interjúval kapcsolatos alapvető kérdéseket és válaszokat tartalmazza

1. Mi a Spark?

Válasz:
Az Apache Spark egy nyílt forráskódú keret. Javítja a végrehajtás teljesítményét, mint a Map-Reduce folyamat. Ez egy nyitott platform, ahol több programozási nyelvet is használhatunk, például Java, Python, Scala, R. A Spark a memóriában történő végrehajtást 100-szor gyorsabb, mint a Map-Reduce. Az RDD koncepcióját használja. Az RDD rugalmas elosztott adatkészlet, amely lehetővé teszi az adatok átlátszó tárolását a memóriában, és továbbra is csak a szükséges lemezek tárolására szolgál. Ez csökkenti a lemez helyett az adatok memóriából való elérésének idejét. Manapság az ipar a Sparkot részesíti előnyben feldolgozási ereje miatt.

2. Különbség a Hadoop és a Spark között?

Válasz:

Funkciókritériumok	Apache Spark	Hadoop
Sebesség	10-100-szor gyorsabb, mint a Hadoop	Normál sebesség
Feldolgozás	Valós idejű és kötegelt feldolgozás, memóriában, gyorsítótárazás	Csak kötegelt feldolgozás, lemeztől függ
Nehézség	Könnyű a magas szintű modulok miatt	Nehéz megtanulni
Felépülés	Lehetővé teszi a partíciók helyreállítását az RDD használatával	Hibatűrő
Az interaktivitás	Interaktív, interaktív módokkal rendelkezik	Nincs interaktív mód, a Pig & Hive kivételével, nincs iteratív mód

A normál Hadoop architektúra az alapvető Map-Reduce-t követi, ugyanabban a folyamatban a szikra a memóriában végrehajtja. A Map-Reduce merevlemezéről történő olvasás-írás helyett a spark az olvasás-írás virtuális memóriából biztosít.

Menjünk a következő Spark Interjú-kérdésekhez

3. Melyek a szikra jellemzői?

Válasz:

Biztosítson integrációs lehetőséget a Hadoop és a HDFS fájlok között. A Spark a Hadoop tetején futhat a YARN erőforrás-fürtök használatával. A Spark képes helyettesíteni a Hadoop Map-Reduce motorját.
Polyglot: Spark Magas szintű API-t biztosít a Java, Python, Scala és R. számára. A Spark Code a négy nyelv bármelyikén írható. Az IT független héjat biztosít a skála számára (a nyelv, amelyen a Spark meg van írva), és egy python tolmácsot biztosít. Melyik segít együttműködni a gyújtómotorral? A Scala shell elérhető a ./bin/spark-shell és a Python shell keresztül ./bin/pyspark keresztül a telepített könyvtárból.
Sebesség: A nagy teljesítményű adatfeldolgozáshoz a Spark motor százszor gyorsabb, mint a Hadoop Map-Reduce. A sebesség a particionálás révén érhető el, hogy párhuzamosítsák az elosztott adatfeldolgozást minimális hálózati forgalommal. Spark biztosítson RDD-ket (rugalmas elosztott adatkészletek), amelyek gyorsítótárazhatók egy fürt számítási csomópontjai között
Több formátum: A Spark rendelkezik adatforrás API-val. Ez a mechanizmus biztosítja a strukturált adatokhoz való hozzáférést a szikra SQL segítségével. Az adatforrások bármi lehetnek, a Spark csak létrehoz egy mechanizmust az adatok konvertálásához és a szikrahúzáshoz. A Spark számos adatforrást támogat, például Hive, HBase, Cassandra, JSON, Parquet, ORC.
A Spark néhány beépített könyvtárat biztosít több feladat elvégzéséhez ugyanabból a magból, például kötegelt feldolgozás, gőzölés, gépi tanulás, interaktív SQL lekérdezések. A Hadoop azonban csak a kötegelt feldolgozást támogatja. Spark Provide MLIb (Machine learning könyvtárak), amely hasznos lesz a Big-Data Developer számára az adatok feldolgozásához. Ez segít eltávolítani a több eszköztől való függőségeket különböző célokra. A Spark közös nagy teljesítményű platformot biztosít az adatmérnökök és az adattudósok számára, mind gyors, mind egyszerűen használható.
Az Apache Spark késlelteti a folyamat végrehajtását, amíg a művelet nem szükséges. Ez a szikra egyik legfontosabb jellemzője. A Spark hozzáad minden egyes transzformációt a DAG-hoz (Direct Acyclic Graph) végrehajtás céljából, és amikor a művelet végrehajtani akarja, akkor a DAG feldolgozását ténylegesen kiváltja.
Valós idejű adatfolyam: Az Apache Spark a memóriában lévő végrehajtás miatt valós idejű számításokat és alacsony késleltetést biztosít. A Spark nagy skálázhatósághoz lett kifejlesztve, mint például a fürt ezer csomópontja és több modell a számításhoz.

4. Mi a fonalak?

Válasz:
Ez az interjú során feltett alapvető Spark-interjúkérdések. YARN (még egy erőforrás-tárgyaló) az erőforrás-kezelő. A Spark egy olyan platform, amely gyors végrehajtást biztosít. A Spark a YARN-t fogja használni a fürtön végzett munka végrehajtásához, nem pedig a saját beépített kezelőjéhez. Van néhány konfiguráció a Yarn futtatásához. Ezek közé tartozik a master, a deploy-mode, az illesztőprogram-memória, a végrehajtó-memória, a végrehajtó-magok és a sor. Ez az a gyakori Spark Interjú-kérdés, amelyet az alábbi interjúban kérdeznek, és ez a szikra előnyei:

A Spark előnyei a térkép-csökkentéshez képest

A Spark előnyei vannak a Map-Reduce-hez képest az alábbiak szerint: -
Mivel a memória folyamat képes a Spark 10-100-szor gyorsabban végrehajtani, mint a Map-Reduce. Ahol a Map-Reduce felhasználható az adatok megmaradására a Map and Reduce szakaszban.

Az Apache Spark magas szintű beépített könyvtárakat biztosít több feladat feldolgozására egyidejűleg kötegelt feldolgozás, valósidejű adatfolyam, Spark-SQL, strukturált adatfolyam, MLib stb. Ugyanakkor a Hadoop csak kötegelt feldolgozást biztosít.
A Hadoop Map-Reduce folyamat lemeztől függ, ahol a Spark gyorsítótárat és memóriát biztosít.

A Sparknak mind iteratív, számításokat végez ugyanabban az adatkészletben és interaktív, számításokat végez különféle adatkészletek között, ahol a Hadoop nem támogatja az iteratív számítást.

5. Milyen nyelvet támogat a Spark?

Válasz:
Spark támogató scala, Python, R és Java. A piacon a nagy adatfejlesztők leginkább a scala-t és a python-ot részesítik előnyben. Ahhoz, hogy a skála a kódot összeállítsa, a Set Path of scale / bin könyvtárához szükséges vagy jar fájl készítéséhez szükséges.

6. Mi az RDD?

Válasz:
Az RDD a rugalmas, elosztott adatkészlet absztrakciója, amely a fürt összes csomópontján felosztott elemek gyűjteményét biztosítja, amely elősegíti a több folyamat párhuzamos végrehajtását. Az RDD fejlesztővel az adatok tárolhatók a memóriában vagy a gyorsítótárban, és hatékonyan felhasználhatók a műveletek párhuzamos végrehajtására. Az RDD könnyen visszaállítható a csomópont meghibásodásából.

2. rész - Spark interjú kérdése (haladó)

Vessen egy pillantást a speciális Spark Interjú Kérdésekre.

7. Milyen tényezők felelősek a Spark végrehajtásáért?

Válasz:
1. A Spark a memóriában végrehajtja a lemezfüggő helyett, mint például a Hadoop Map-Reduce.
2.RDD rugalmas elosztott adatkészlet, amely több művelet felelős párhuzamos végrehajtása a fürt összes csomópontján.
3. A Spark megosztott változó szolgáltatást nyújt a párhuzamos végrehajtáshoz. Ezek a változók csökkentik az adatátvitelt a csomópontok között, és megosztják az összes csomópont másolatát. Két változó létezik.
4.Broadcast-változó: Ez a változó felhasználható az összes csomópont memóriájában lévő érték gyorsítótárba helyezésére
5.Akkumulátorok változója: Ez a változó csak „hozzáadódik” a számlálókhoz és az összegekhez.

8. Mi az a végrehajtó memória?

Válasz:
Ez egy gyakran feltett Spark interjú kérdés egy interjúban. Ez a szikra-végrehajtó számára kiosztott halom méret. Ez a tulajdonság az –executor-memory zászló spark.executor.memory tulajdonságával vezérelhető. Minden Spark alkalmazásnak van egy végrehajtója minden dolgozó csomóponthoz. Ez a tulajdonság arra utal, hogy a munkavállaló csomópontjai mennyi memóriát fognak foglalni egy alkalmazás számára.

9. Hogyan használja a Spark Stream-et? Magyarázza meg egy felhasználási esetet?

Válasz:
A Spark Stream az egyik olyan szolgáltatás, amely hasznos lehet valós idejű felhasználási esetekben. Erre a célra használhatunk flume, Kafka szikra segítségével. A Flume elindítja az adatokat egy forrásból. A Kafka az adatokat a témába fogja őrizni. A Kafka-tól a Spark az adatot a patak segítségével fogja kihúzni, és D-adatfolyamként továbbítja és végrehajtja az átalakítást.

Ezt a folyamatot felhasználhatjuk valós idejű gyanús tranzakciókra, valós idejű ajánlatokra stb.

Menjünk a következő Spark Interjú-kérdésekhez

10. Használhatjuk-e a Spark-ot az ETL-folyamathoz?

Válasz:
Igen, szikraplatformot használhatunk az ETL-folyamathoz.

11. Mi a Spark SQL?

Válasz:
Ez a szikra egyik különleges összetevője, amely támogatja az SQL lekérdezéseket.

12. Milyen lusta értékelés?

Válasz:
Ha szikrával dolgozunk, az átalakulásokat addig nem értékelik, amíg Ön nem hajt végre egy műveletet. Ez elősegíti az általános adatfeldolgozási munkafolyamat optimalizálását. Az átalakítás meghatározásakor hozzá fogja adni a DAG-t (közvetlen aciklikus grafikon). És a cselekvés idején elkezdi lépésről lépésre végrehajtani az átalakításokat. Ez egy hasznos Spark interjú kérdés, amelyet egy interjúban feltett.

Ajánlott cikk

Ez egy útmutató a Spark Interjúval kapcsolatos kérdések és válaszok listájához, így a jelölt könnyen meg tudja oldani ezeket a Spark Interjúval kapcsolatos kérdéseket. A következő cikkeket is megnézheti további információkért -

Java vs Node JS, a különbségek egyszerűsítése
Mongo adatbázis interjúkérdések | Hasznos és a legtöbb kérdés
15 legsikeresebb R interjú kérdés és válasz
Perl interjúkérdések és válaszok
SAS rendszerinterjúval kapcsolatos kérdések - a 10 legfontosabb hasznos kérdés

Spark Interjú Kérdések - A 2018 legfontosabb 12 kérdése frissítve

Tartalomjegyzék:

Bevezetés a Spark Interjúhoz kapcsolódó kérdések és válaszok

1. rész - Spark interjú kérdése (alapvető)

1. Mi a Spark?

2. Különbség a Hadoop és a Spark között?

3. Melyek a szikra jellemzői?

4. Mi a fonalak?

5. Milyen nyelvet támogat a Spark?

6. Mi az RDD?

2. rész - Spark interjú kérdése (haladó)

7. Milyen tényezők felelősek a Spark végrehajtásáért?

8. Mi az a végrehajtó memória?

9. Hogyan használja a Spark Stream-et? Magyarázza meg egy felhasználási esetet?

10. Használhatjuk-e a Spark-ot az ETL-folyamathoz?

11. Mi a Spark SQL?

12. Milyen lusta értékelés?

Ajánlott cikk

8 félelmetes tipp a rugalmas munkaidő kéréséhez (Hasznos)

Hogyan kell átalakítani a szűrőinterjúkat - 7 tipp a sikerhez edu CBA

Hogyan kell alkalmazni a menedzsment elméleteket a munkahelyen edu CBA

Hogyan válhatunk adattudósnak Mi az adattudomány részleteiben?

HLOOKUP Excelben (képlet, példák) A HLOOKUP funkció használata

Go vs PHP - Öt legfontosabb különbség az infographics-ban

Menj vs Ruby - A 10 legfontosabb különbség, amelyet az infographics segítségével lehet megtanulni

Színátmenet növelő algoritmus - Teljes útmutató a színátmenet-növelésről

Gordon növekedési modellképlet - Számológép (Excel sablon)

Go vs Scala - Ismerje meg a 8 legcsodálatosabb különbséget

TRANSPOSE Képlet Excelben - Hogyan kell használni a TRANSPOSE képletet?

A nagy adatok tendenciái, amelyeket a vállalatoknak el kell sajátítaniuk eduCBA

Triggerek a PL / SQL-ben Hogyan hozhatók létre triggerek a PL / SQL-ben? - Példák

A Matte nyomon követése az effektusokban - Alkalmazza a Track Matte effektusokat több rétegre

T-SQL parancsok - Koncepció - Alapvető és haladó T-SQL parancsok