A Hadoop klaszter interjúval kapcsolatos kérdések és válaszok

Ez a cikk célja, hogy segítse a Big Data törekvéseit a Hadoop Cluster Interjú kérdéseinek megválaszolásában, amelyek a Big Data Environment telepítésével kapcsolatosak egy szervezetben. Ez a kérdőív segít az adatcsomópontok, a névcsomópont létrehozásában és a Big Data démonok által üzemeltetett szerver kapacitásának meghatározásában.

Tehát ha végre megtalálta álmai munkáját a Hadoop Clusterben, de azon gondolkodik, hogyan lehet kitörni a Hadoop Cluster interjúját, és mi lehet a Hadoop Cluster interjúval kapcsolatos lehetséges kérdése? Minden interjú különbözik, és a munkaköre is eltérő. Ezt szem előtt tartva megterveztük a leggyakoribb Hadoop klaszter interjúkérdéseket és -válaszokat, amelyek segítenek abban, hogy sikerrel járjon az interjúban.

Az egyik legfontosabb Hadoop klaszter interjú kérdés, amelyet gyakran kérdeznek egy interjúban, a következők:

1.Melyek a Hadoop fő alkotóelemei a Hadoop klaszterben?

Válasz:
A Hadoop olyan keret, ahol nagy adatot dolgozunk fel, vagy a Hadoop az a platform, amelyen az óriási mennyiségű adat feldolgozható az árucikkek kiszolgálóin. A Hadoop számos összetevő kombinációja. Az alábbiakban bemutatjuk a Hadoop környezet legfontosabb alkotóelemeit.
Név csomópont : A fő csomópont gondoskodik az adatcsomópontok összes információjáról és az adattárolási helyről metaadat formátumban.
Másodlagos név csomópont : Elsődleges név csomópontként működik, ha az elsődleges név csomópont csökken.
HDFS (Hadoop elosztott fájlrendszer) : Ez a Hadoop-fürt tárolását végzi.
Adatcsomópontok : Az adatcsomópontok szolga csomópontok. A tényleges adatok mentésre kerülnek a Slave Nodes-en feldolgozás céljából.
Fonal (még egy erőforrás-tárgyaló) : Szoftverkeret az alkalmazások írására és hatalmas mennyiségű adat feldolgozására. Ugyanazokat a szolgáltatásokat nyújtja, mint a MapReduce, emellett lehetővé tenné az egyes kötegelt jobok párhuzamos futtatását a Hadoop-fürtben.

2.Hogyan lehet megtervezni az adattárolást a Hadoop-fürtben?

Válasz:
A tárolás a (Tárolás = Napi adatfelhasználás * Replikáció) képlet alapján történik.
Ha a Hadoop-fürt napi rendszerességgel 120 TB adatot kap, és alapértelmezett replikációs tényezőnk van, akkor a napi adattárolási követelmény
Tárolási igény = 120 TB (napi adatbevétel) * 3 (alapértelmezett replikáció) => 360 TB
Ennek eredményeként be kell állítanunk legalább 360 TB adatcsoportot a napi adatbeviteli követelményekhez.
A tárolás az adatmegőrzési követelményektől is függ. Abban az esetben, ha azt akarjuk, hogy az adatokat két évig ugyanabban a fürtben tároljuk, ezért az adatcsomópontokat a megőrzési követelmény szerint kell elrendeznünk.

3. Számolja ki az adatcsomópont számát.

Válasz:
Ki kell számolnunk a Hadoop-fürthez szükséges adatcsomópontokat. Tegyük fel, hogy olyan szerverünk van, amelynek JBOD-ja 10 lemez, és minden lemez 4 TB tárolómérettel rendelkezik, tehát mindegyik kiszolgáló 40 TB tárolóval rendelkezik. A Hadoop-fürt napi 120 TB és 360 TB adatot kap az alapértelmezett replikációs tényező alkalmazása után.
Adatcsomópontok száma = Napi adatbevitel / adatcsomó kapacitás
Adatcsomópontok száma = 360/40 => 9 adatcsomópont
Ezért ahhoz, hogy a Hadoop-fürt 120 TB adatot kapjon a fenti konfigurációval, csak 9 adatcsomópontot kell beállítania.

4.Hogyan lehet megváltoztatni a replikációs tényezőt a Hadoop-fürtben?

Válasz:
Szerkessze a hdfs-site.xml fájlt. Az alapértelmezett elérési út a Hadoop telepítési könyvtárának konf / mappájában található. a következő tulajdonság módosítása / hozzáadása a hdfs-site.xml fájlban:
dfs.replication
3
Replikáció blokkolása
A 3. replikációs tényező nem kötelező. Ez 1-re is beállítható. Az 5. replikációs faktor a Hadoop klaszterben is működik. Az alapértelmezett érték beállítása hatékonyabbá teszi a fürtöt, és minimális hardverre van szükség.
A replikációs tényező növekedése növeli a hardverigényt, mivel az adattárolás megszorozódik a replikációs tényezővel.

5.Milyen az alapértelmezett adatblokk mérete a Hadoopban, és hogyan lehet azt módosítani?

Válasz:
Blokkméret: vágja le / ossza meg az adatokat blokkokra és mentse el különféle adatcsomópontokra.
Alapértelmezés szerint a blokk mérete 128 MB (az Apache Hadoopban), és módosíthatjuk az alapértelmezett blokk méretét.
Szerkessze a hdfs-site.xml fájlt. Az alapértelmezett elérési út a Hadoop telepítési könyvtárának konf / mappájában található. a következő tulajdonság módosítása / hozzáadása a hdfs-site.xml fájlban:
dfs.block.size
134217728
Blokk mérete
A blokkméret byte-ban 134 217 728 vagy 128 MB. Ezenkívül adja meg a méretet utótaggal (a kis- és nagybetűk nem érzékenyek), például k (kilo-), m (mega-), g (giga-) vagy t (tera-) a blokk méretének KB, MB, TB stb. Beállításához.…

6.Hogyan kell a Hadoop-fürtnek törölt HDFS fájlt tárolni a törlés / kuka könyvtárban?

Válasz:
Az „fs.trash.interval” az a paraméter, amely meghatározza, hogy a HDFS mennyi ideig tudja megőrizni a törölt fájlokat a Hadoop környezetben a törölt fájl visszaszerzéséhez.
Az időtartamot csak percekben lehet meghatározni. 2 napos lekérdezési időközönként meg kell határoznunk a tulajdonságot folyó formátumban.
Szerkessze a core-site.xml fájlt, és adja hozzá / módosítsa a következő tulajdonsággal
fs.trash.interval
2880
Alapértelmezés szerint a lekérési időköz 0, de a Hadoop Administrator követelménynek megfelelően hozzáadhatja / módosíthatja a fenti tulajdonságot.

7.Milyen alapvető parancsok vannak a Hadoop démonok indítására és leállítására?

Válasz:
Az összes parancs az sbin / mappában tárolt démonok elindítására és leállítására.
./sbin/stop-all.sh - Az összes démon egyszerre történő leállítása.
hadoop-daemon.sh kezdőnév csomópont
Hadoop-daemon.sh kezdőadat-csomópont
yarn-daemon.sh, indítsa el az erőforrás-kezelőt
yarn-daemon.sh, indítsa el a csomópontkezelőt
mr-jobhistory-daemon.sh indítási előzmények szerver

8.Milyen tulajdonság határozza meg a memóriaelosztást a YARN által kezelt feladatokhoz?

Válasz:
A „yarn.nodemanager.resource.memory-mb” tulajdonságot módosítani / hozzáadni kell a YARN által kezelt összes feladat memóriaelosztásának megváltoztatásához.
Megadja a RAM mennyiségét MB-ban. Az adatcsomópontok a tényleges RAM 70% -át veszik igénybe a YARN számára. A 96 GB-os adatcsomópont 68 GB-ot fog használni a YARN számára, a többi RAM-ot az Adat-csomópont démon használja a „Nem-YARN-Work” -hez.
Szerkessze a „yarn.xml file” fájlt, és adja hozzá / módosítsa a következő tulajdonságot.
yarn.nodemanager.resource.memory-mb
68608
A yarn.nodemanager.resource.memory-mb alapértelmezett értéke 8 192 MB (8 GB). Ha az adatcsomópontok nagy RAM-kapacitással rendelkeznek, akkor értékre kell változtatnunk akár 70% -ra is, ekkor pazaroljuk a memóriát.

9.Milyen ajánlások vannak a névcsomópont méretére?

Válasz:
A következő részek ajánlottak a fő csomópont beállításához a kezdeti szakaszban.
Processzorok: A folyamatokhoz egy CPU 6-8 maggal elegendő.
RAM memória: Az adat- és a munkafeldolgozási szervernek legalább 24–96 GB RAM-mal kell rendelkeznie.
Tárolás: Mivel nem tárolnak HDFS-adatokat a fő csomóponton. 1–2 TB-ot használhat helyi tárolóként
Mivel nehéz eldönteni a jövőbeli munkaterheléseket, ezért úgy tervezze meg a klaszterét, hogy olyan hardvert választ, mint a CPU, a RAM és a memória, amely az idő múlásával könnyen frissíthető.

10.Melyek az alapértelmezett portok a Hadoop-fürtben?

Válasz:

Démon neveAlapértelmezett portszám
Név Csomópont.50070
Adat csomópontok.50075
Másodlagos név csomópont.50090
Biztonsági mentési / ellenőrzési pont csomópont.50105
Job Tracker.50030
Feladatkövető50060

Ajánlott cikkek

Ez egy útmutató a Hadoop klaszter interjúkérdések és válaszok listájához, így a jelölt könnyen meg tudja oldani ezeket a Hadoop klaszter interjúkérdéseket. A következő cikkeket is megnézheti további információkért -

  1. Elasticsearch interjú kérdések és válaszok tetején és a leghasznosabb
  2. 9 Csodálatos MapReduce interjúkérdések és válaszok
  3. 8 A Big Data interjúkérdések leghasznosabb útmutatója
  4. Az ETL interjúval kapcsolatos kérdések és válaszok, amelyeket tudnia kell