Bevezetés az Sqoop interjúkérdéseire és kérdéseire

Az Sqoop egy nyílt forrású adatátviteli eszköz, az Sqoop eszköz továbbítja az adatokat a Hadoop ökoszisztéma és a relációs adatbázis-kiszolgálók (RDBMS) között. Az adatokat importálja a Hadoop fájlrendszerbe (HDFS), a Relációs adatbázisokból, mint például az Oracle, a MySQL, stb., És exportálja az adatokat a Hadoop fájlrendszerből az RDMS-be is.

Az alábbiakban bemutatjuk a 15 fontos 2019 Sqoop interjú kérdést és választ:

Tehát végre megtalálta álmai munkáját a Sqoopban, de azon gondolkodik, hogyan lehet kitörni a Sqoop interjúját, és mi lehet a 2019-es Sqoop interjú kérdése. Minden interjú különbözik, és a munkaköre is eltérő. Ezt szem előtt tartva a Sqoop interjúkkal kapcsolatos leggyakoribb kérdéseket és válaszokat dolgoztunk ki, amelyek segítenek az interjú sikerében.

Ezeket a kérdéseket két részre osztják:

1. rész - Sqoop interjúkérdések (alapvető)

Ez az első rész a Sqoop interjúval kapcsolatos alapvető kérdéseket és válaszokat tartalmazza.

1. Definiálja a Sqoop-ot és miért használjuk az Sqoop-ot?

Válasz:
A Sqoop egy nyílt forrású adatátviteli eszköz, amelyet adatátvitelre fejlesztettek ki a Hadoop ökoszisztéma és a relációs adatbázis-kiszolgálók (RDBMS) között. Az Sqoop adatot importál a relációs adatbázisokból, például Oracle, MySQL stb., A Hadoop fájlrendszerbe (HDFS), valamint az adatokat a Hadoop fájlrendszerből a relációs adatbázisokba exportálja.

2. Melyek a Sqoop különlegességei?

Válasz:
Az alábbiakban bemutatjuk a Sqoop által támogatott különféle szolgáltatásokat -

  1. Teherbírás
  2. Teljes és növekményes betöltés
  3. Adattömörítési technikák
  4. Az SQL lekérdezések eredményeinek importálása
  5. Adatcsatlakozók az összes főbb adatbázishoz
  6. Közvetlen adatbetöltési támogatás a Hadoop File Systems rendszerbe
  7. Biztonsági konfigurációk, például a Kerberos
  8. Egyidejű importálás vagy exportálás

Térjünk át a következő Sqoop interjúkérdésekhez.

3. Nevezze meg a Sqoop által támogatott relációs adatbázisokat és Hadoop ökoszisztéma-forrásokat?

Válasz:
Az Sqoop a relációs adatbázis részeként jelenleg támogatja a MySQL, PostgreSQL, Oracle, MSSQL, Teradata és az IBM Netezza szolgáltatásait.

A Hadoop ökoszisztéma célzott szolgáltatásai jelenleg a HDFC, a Hive, a HBase, a H katalógus és az Accumulo.

Az Sqoop a MySQL-t használja alapértelmezett adatbázisként.

4. Hogyan működik a Sqoop?

Válasz:
Ez egy gyakori Sqoop interjúkérdés, amelyet egy interjúban feltettek. Az adatátvitel végrehajtásához az Sqoop export és import parancsokat használ. A Map Reduce programot az Sqoop belsőleg fogja használni az adatkészlet HDFS-be történő tárolására. A parancsokat a Térkép feladatokhoz társítják, hogy adatokat nyerjenek a relációs adatbázisokból; A csökkentés feladata a visszakeresett adatok rendeltetési helyekbe történő elhelyezéséért (HDFS / HBase / Hive) lesz.

A Sqoop különféle API-csatlakozókat is használ a több adatbázishoz történő csatlakozáshoz. A Sqoop emellett lehetővé teszi egyedi csatlakozók létrehozását a meghatározott követelmények teljesítéséhez.

Nézzük meg az alábbi mintákat az importáláshoz és az exportáláshoz

Parancs a MySQL adatbázishoz való kapcsolódáshoz, az adatok importálásához a 'Napló' táblából

sqoop import –connect jdbc: mysql: // localhost / –felhasználónév – jelszó –table –m 1
sqoop import - csatlakoztassa jdbc: mysql: // localhost / mytestdb - felhasználónév gyökér - jelszó admin123 - táblázatos napló –m 1

Parancs az adatok exportálására a HDFS-ből a Relációs adatbázisba

sqoop export –Csatlakozás jdbc: mysql: // localhost / sqoop_export –table export-dir / sqoop / emp_last / part-m-00000 - updatedate key id
sqoop export - csatlakoztassa jdbc: mysql: // localhost / sqoop_export - táblázatos log_table - export-dir / sqoop / data / foler1 / part-m-00000

5. Mi a Sqoop Metastore? Magyarázd meg?

Válasz:
A Sqoop Metastore egy olyan eszköz, amely a Sqoop-ban elérhető, amelyet az Sqoop alkalmazás konfigurálására használnak, hogy metaadatok formájában lehetővé tegyék a megosztott lerakat tárolását. Ez a Metastore felhasználható a feladatok végrehajtására és számos felhasználó kezelésére a felhasználói szerepek és tevékenységek alapján. Az összes felhasználó több feladatot vagy műveletet egyszerre hajthat végre a feladatok hatékony elérése érdekében. A Sqoop Metastore alapértelmezés szerint a memóriában jelenik meg. Amikor egy job létrehozásra kerül az Sqoop-on, a jobdefiníció a Metastore-ban tárolódik, és szükség esetén az Sqoop-jobok használatával kerül felsorolásra.

6. Milyen fájlformátumokat támogat a Sqoop az adatok importálása közben?

Válasz:
Az Sqoop két fájlformátumot használ az adatok importálásához. Ezek a következők: - Határozott tesztfájl formátum és szekvenciafájl formátum.

Elhatárolt szövegfájl-formátum : A behatárolt szövegformátum az alapértelmezett fájlformátum az importáláshoz. Még kifejezetten meghatározhatjuk a –as- textil argumentum használatával. Ugyanígy az argumentum átadásakor a határoló karakterek a sorok és oszlopok között kerülnek beállításra.

Szekvenciafájl formátuma : Ezt a fájlformátumot mondhatjuk bináris fájlformátumnak. Az ilyen típusú formátumú fájlrekordokat egyéni rekordokra specifikus adattípusokban tárolják, amelyek Java osztályokként vannak kitéve.

Térjünk át a következő Sqoop interjúkérdésekhez.

7. Vezérelhetünk számos térképezőt az sqoop-ban? Ha igen, hogyan?

Válasz:
Igen, ellenőrizhetjük a térképezők számát az Sqoopban az „-num-mappers” paraméter megadásával az sqoop parancsban. Ez a paraméter vezérelheti a térképfeladatok számát, azaz az sqoop csak a párhuzamosság mértékét használja. A számot a követelmény alapján határozzák meg.

Szintaxis: Ezeket a jelzőket használja a térképezők számának ellenőrzésére: m, -num- térképezők

2. rész - Sqoop interjúkérdések (haladó)

Vessen egy pillantást a fejlett Sqoop interjúkérdésekre.

8. Mi az Sqoop-merge és magyarázza annak használatát?

Válasz:
Az Sqoop egyesítése egy olyan eszköz, amely két különféle adatkészletet kombinál, amelyek fenntartják az egyetlen verziót azáltal, hogy felülírják az adatkészlet egy régebbi verziójának bejegyzéseit új fájlokkal, hogy a legfrissebb adatállomány legyen. A két különféle adatkészlet összevonása közben simítás történik, amely megőrzi az adatokat veszteség nélkül, hatékonysággal és biztonsággal. Ennek a műveletnek az elvégzéséhez az egyesítési kulcs parancsot kell használni, mint a „–merge-key”

9. Mi a különbség a Sqoop, a flume és a distcp között?

Válasz:
A Distcp és az Sqoop adatátvitelt egyaránt használják. Az Sqoop bármilyen típusú adatátvitelre kerül az egyik Hadoop-fürtről a másikra, míg az Sqoop az adatokat a Relációs adatbázisok és a Hadoop-ökoszisztéma, például Hive, HDFS és HBase stb. Között továbbítja. De mindkét módszer ugyanazt a megközelítést használja az adatok másolására., ami pull / transfer.

A Flume egy eszközt terjesztett, ügynöki alapú architektúrát követ, hogy naplózza a Hadoop ökoszisztémát. Míg a Sqoop csatlakozási alapú architektúra.

A Flume hatalmas mennyiségű naplóadatot gyűjt és aggregál. A Flume más típusú forrásokból gyűjtheti az adatokat; nem veszi figyelembe a sémát vagy a strukturált / nem strukturált adatokat. A Flume bármilyen adatot képes behúzni. Míg az Sqoop csak a Relációs adatbázis-adatokat tudja importálni, így a séma kötelező az sqoop feldolgozásához. Általában az ömlesztett munkaterhelés mozgatásakor a füst a legjobb megoldás.

Térjünk át a következő Sqoop interjúkérdésekhez.

10. Milyen adatforrásokat támogat az Apache Sqoop?

Válasz:
Az Apache Sqoop által támogatott különböző alkalmazások különböző adatforrásai a következők:

  1. Kaptár
  2. HBase
  3. Hadoop elosztott fájlrendszer (HDFS)
  4. HCatalog
  5. Accumulo

11. Melyek a leggyakrabban használt parancsok / funkciók az Sqoop-ban?

Válasz:

Ez egy speciális Sqoop interjúkérdés, amelyet egy interjúban tettek fel. A Sqoop-ban használt alapparancsok listája a következő:

A Codegen -Codegen kód létrehozására szolgál az adatbázisrekordokkal való kommunikációhoz.

Eval -Sqoop Eval segít az SQL lekérdezések minták futtatásában az adatbázisokkal szemben, és eredményeket szolgáltat a konzolon.

Súgó - Súgó felsorolja az elérhető parancsokat

Importálás - Az Import importálja a táblát a Hadoop ökoszisztémába

Exportálás -Export a HDFS adatok exportálása a relációs adatbázisokba.

Létrehozás-kaptár-tábla - Ez a parancs hasznos a tábladefiníció importálásához a kaptárba

Import-all-táblák -Import-all-táblák importálja a táblázatokat, hogy relációs adatbázisokat képezzenek a HDFS-be.

Lista-adatbázisok - felsorolja az összes kiszolgálón lévő adatbázist.

Listatáblák - Felsorolja az adatbázisban lévő összes táblát.

Verziók - Megjeleníti a verzióinformációkat.

Funkciók - Párhuzamos importálás / exportálás, Teljes betöltés, Növekményes betöltés, Teljes betöltés, Összehasonlítás, Csatlakozók az RDBMS adatbázisokhoz, Kerberos biztonsági integráció, Adatok betöltése közvetlenül a HDFS-be (Hive / HBase)

12. Magyarázza el a bevált gyakorlatokat, miközben táblákat importál a MySQL-ből vagy más adatbázisokból az Sqoop használatával?

Válasz:
A táblák MySQL-ből történő importálása során bizonyos dolgokról, például hitelesítésről és engedélyeztetésről, a célkiszolgálóra és az adatbázisokra ügyelnünk kell. Gondoskodnunk kell arról, hogy megadtuk-e a szükséges privilégiumokat az elérhető adatbázisokhoz, és ellenőriznünk kell a hostnév felbontását, amikor csatlakozunk a forrás- és célgazdanevekhez. Ha nincs a szükséges engedély, akkor kapcsolati hiba kivételt kapunk az adatbázishoz történő csatlakozás közben.

13. Hogyan frissítheti a már exportált adatokat vagy sorokat?

Válasz:
A rendeltetési helyre már exportált sorok frissítéséhez használhatjuk a „–frissítés-kulcs” paramétert. Ebben egy vesszővel elválasztott oszloplista kerül felhasználásra, amely egyértelműen azonosítja a sort, és ezeket az oszlopokat a létrehozott UPDATE lekérdezés WHERE szakaszában használja. A lekérdezés SET része gondoskodik az összes többi táblázat oszlopról.

Térjünk át a következő Sqoop interjúkérdésekhez.

14. Hogyan állíthatjuk be és telepíthetjük a JDBC illesztőprogramot az Apache Sqoop alkalmazásba?

Válasz:
Az Apache Sqoop JDB illesztőprogramjai a Hadoop szolgáltató, például a Cloudera vagy a Hortonworks alapján konfigurálhatók, ahol konfigurációjuk kissé eltér a Hadoop szolgáltatótól. A Cloudera-ban található JDBC úgy konfigurálható, hogy létrehoz egy könyvtármappát, például / var / lib /. Ez megtehető bármilyen harmadik fél könyvtáránál, amelyet a követelményeknek megfelelően konfigurálni kell. Ily módon bármilyen típusú adatbázis konfigurálható a JDBC illesztőprogramjával. A JDBC meghajtón kívül az Apache Sqoopnak csatlakozóra van szüksége a kapcsolat létrehozásához a különféle relációs adatbázisok között. Az adatbázisokkal való kapcsolat létrehozásához a fő összetevők az adott adatbázis-szolgáltató Illesztőprogramján és Csatlakozóján keresztül vannak.

15. Mi az a split-by záradék és mikor használjuk?

Válasz:
A megosztott paraméter az importált adatok szétválasztására szolgál több párhuzamos feladatba. Ezzel a paraméterrel meghatározhatjuk az oszlop nevét, ezek oszlopok nevei, amelyek alapján az sqoop osztja az importálandó adatokat több darabbá, és ezek párhuzamosan futnak. Ez az egyik módszer az előadás hangolására a Sqoopban.

Ajánlott cikkek

Ez egy útmutató az Sqoop interjúkérdések és válaszok listájához, így a jelölt könnyen meg tudja oldani ezeket a Sqoop interjúkérdéseket. A következő cikkeket is megnézheti további információkért -

  1. Hadoop vs Teradata -Melyik előnyös
  2. 13 Csodálatos adatbázis-tesztelési interjúkérdés
  3. A 10 leghasznosabb HBase interjúkérdés
  4. 10 legfélelmetesebb PHP interjú kérdés a tapasztalt személyek számára
  5. Ismerje meg az öt legfontosabb hasznos DBA-interjúkérdést