Bevezetés a Hadoop rendszergazdai interjúkérdésekbe és -válaszokba

Tehát végül megtalálta álmai munkáját a Hadoop Adminban, de azon gondolkodik, hogyan lehet megtörni a Hadoop Admin Interjút, és mi lehet a Hadoop Admin Interjú kérdése. Minden interjú különbözik, és a munkaköre is eltérő. Ezt szem előtt tartva megterveztük a leggyakoribb Hadoop rendszergazdai interjúkérdéseket és -válaszokat, amelyek segítenek az interjú sikerében.

Az alábbiakban bemutatjuk a Hadoop rendszergazdai interjúkérdéseit, amelyek segítenek a Hadooplal készített interjú feltárásában.

1. Mi a rack-tudatosság? És miért szükséges?

Válasz:
A rack-tudatosság az adatcsomópontok több rack-en való elosztásáról szól. A HDFS a rack-tudatosság algoritmust követi az adatblokkok elhelyezéséhez. A rack több szervert tartalmaz. És egy klaszternél több állvány is lehet. Tegyük fel, hogy van egy Hadoop-fürt 12 csomóponttal. Lehet 3 állvány, 4-szerverrel. Mind a 3 állvány össze van kötve úgy, hogy mind a 12 csomópont csatlakozik, és klasztert képezzen. A rack számának eldöntésekor fontos szempont a replikációs tényező. Ha 100 GB-os adat folyik naponta a 3. replikációs tényezővel, akkor 300 GB-os adatnak kell maradnia a fürtön. Jobb lehetőség, ha az adatokat az állványokon át replikálják. Még ha bármelyik csomópont le is megy, a replika egy másik rackben lesz.

2. Mi az alapértelmezett blokkméret és hogyan van meghatározva?

Válasz:
128 MB, és ez a hdfs-site.xml fájlban van meghatározva, és ez szintén testreszabható az adatok mennyiségétől és a hozzáférés szintjétől függően. Tegyük fel, hogy 100 GB-os adat áramlik egy nap alatt, és az adatok elkülönülnek és a fürtön tárolódnak. Mekkora lesz a fájlok száma? 800 fájl. (1024 * 100/128) (1024 à átalakítva egy GB-t MB-re.) Kétféle módon állíthatja be az adatblokk méretének testreszabását.

  1. hadoop fs -D fs.local.block.size = 134217728 (bitben)
  2. A hdfs-site.xml fájlban adja hozzá ezt a tulajdonságot à block.size a bit méretével.

Ha az alapértelmezett méretet 512 MB-ra változtatja, mivel az adatméret hatalmas, akkor a létrehozott fájlok száma 200 lesz. (1024 * 100/512)

3. Hogyan kaphatja meg a hdfs fájlrendszer jelentését? A lemez elérhetőségéről és az aktív csomópontok számáról?

Válasz:
Parancs: sudo -u hdfs dfsadmin –report

Ezek a felsorolt ​​információk listája,

  1. Konfigurált kapacitás - rendelkezésre álló teljes kapacitás hdfs formátumban
  2. Jelenlegi kapacitás - Ez az az összes hely, amelyet az erőforrások számára elkülönítettek a metastore és a fsimage hely felhasználása mellett.
  3. Hátralévő DFS - Ez a HDFS számára még rendelkezésre álló tárhely, hogy további fájlokat tároljon
  4. Használt DFS - A Tárhelyet használt fel a HDFS.
  5. Használt DFS% - százalékban
  6. Replikált blokkok alatt - Blokkok száma
  7. Blokkok sérült másolatokkal - Ha vannak sérült blokkok
  8. Hiányzó blokkok
  9. Hiányzó blokkok (1. replikációs tényezővel)

4. Mi a Hadoop kiegyensúlyozó és miért szükséges?

Válasz:
A csomópontok között elosztott adatok nem oszlanak meg a megfelelő arányban, vagyis az egyes csomópontok kihasználása nem kiegyensúlyozott. Az egyik csomópont túlzott mértékben kihasználható, a másik pedig kihasználatlan. Ez ahhoz vezet, hogy bármilyen folyamat futtatásakor magas költségekkel jár, és végül ezen csomópontok nehéz felhasználásával jár. Ennek megoldására Hadoop kiegyensúlyozót használnak, amely kiegyensúlyozza az adatok felhasználását a csomópontokban. Tehát amikor egy kiegyenlítőt hajtanak végre, az adatok átkerülnek arra a pontra, ahol az alul kihasznált csomópontok kitöltődnek, és a fölöslegesen felhasznált csomópontok felszabadulnak.

5. Különbség Cloudera és Ambari között?

Válasz:

Cloudera menedzserAmbari
Felügyeleti eszköz Cloudera számáraA Horton adminisztrációs eszköze működik
Figyelemmel kíséri és kezeli a teljes fürtöt, és jelentést készít a felhasználásról és az esetleges problémákrólFigyelemmel kíséri és kezeli a teljes fürtöt, és jelentést készít a felhasználásról és az esetleges problémákról
A Cloudera fizetett szolgáltatásához tartozikNyílt forráskód

6. Milyen fő műveleteket hajtja végre a Hadoop admin?

Válasz:
Figyelemmel kíséri a klaszter állapotát - Sok alkalmazásoldal van, amelyet figyelni kell, ha valamilyen folyamat fut. (Munkaköltség-kiszolgáló, YARN erőforrás-kezelő, Cloudera-menedzser / ambary az eloszlástól függően)

kapcsolja be a biztonságot - SSL vagy Kerberos

Hangolás - Hadoop kiegyensúlyozó

Szükség szerint adjon hozzá új adatcsomópontokat - Infrastruktúra változások és konfigurációk

Opcionálisan bekapcsolhatja a MapReduce Job History Tracking Server-t à A szolgáltatások újraindítása néha elősegítené a gyorsítótár-memória felszabadítását. Ebben az esetben a fürt egy üres folyamat.

7. Mi a Kerberos?

Válasz:
Ez egy hitelesítés, amelyet minden szolgáltatásnak szinkronizálnia kell a folyamat futtatásához. Ajánlott engedélyezni a Kerberos-t. Mivel az elosztott számítástechnikával foglalkozunk, mindig jó gyakorlat, ha titkosítunk az adatok elérése és feldolgozása közben. Mivel minden csomópont össze van kapcsolva, és minden információ áthalad a hálózaton. Mivel a Hadoop Kerberos-t használ, a jelszavakat nem a hálózatokon küldik el. Ehelyett a jelszavakat használják a titkosítási kulcsok kiszámításához. Az üzeneteket kicserélik az ügyfél és a szerver. Egyszerűen fogalmazva: a Kerberos biztonságos módon azonosítja egymást (csomópontokat) a titkosítással.

Konfiguráció a core-site.xml fájlban
Hadoop.security.authentication: Kerberos

8. Mi a hdfs parancsok fontos listája?

Válasz:

parancsokCélja
hdfs dfs –lsFájlok felsorolása a hdfs fájlrendszerből.
Hdfs dfs –putMásolja a fájlt a helyi rendszerből a hdfs fájlrendszerbe
Hdfs dfs –chmod 777Adjon olvasási, írási, végrehajtási engedélyt a fájlhoz
Hdfs dfs –getMásolja a fájlt az hdfs fájlrendszerből a helyi fájlrendszerre
Hdfs dfs –catTekintse meg a fájl tartalmát az hdfs fájlrendszerből
Hdfs dfs –rmTávolítsa el a fájlt az hdfs fájlrendszerből. De áthelyezi a kukába a fájl elérési útjára (olyan, mint egy újrahasznosító táska a Windowsban)
Hdfs dfs –rm –skipTrashVéglegesen eltávolítja a fájlt a fürtből.
Hdfs dfs –touchzHozzon létre egy fájlt a hdfs fájlrendszerben

9. Hogyan ellenőrizhetem a fürtben benyújtott Hadoop job naplóit, és hogyan fejezzem be a már futó folyamatot?

Válasz:
fonalnaplók –applicationId - Az alkalmazás mester naplókat generál a tárolóján, és hozzáfűzi a generált azonosítóval. Ez hasznos lesz a folyamat futási állapotának és a naplóinformációk figyelésében.

fonal alkalmazás –kill - Ha egy meglévő folyamatot, amely a fürtben futott, meg kell szüntetni, akkor a kill parancsot kell használni, ahol az alkalmazás azonosítója a fürtben lévő feladat lezárására szolgál.

Ajánlott cikk

Ez egy útmutató a Hadoop rendszergazdai interjúkérdések és válaszok listájához, így a jelölt könnyen meg tudja oldani ezeket a Hadoop rendszergazdai interjúkérdéseket. A következő cikkeket is megnézheti további információkért

  1. A Hadoop Cluster interjúval kapcsolatos kérdések és válaszok - a 10 leghasznosabb
  2. Adatmodellezési interjúkérdések - 10 fontos kérdés
  3. SAS rendszerinterjúval kapcsolatos kérdések - a 10 legfontosabb hasznos kérdés