Bevezetés az Sqoop interjúkérdéseire és kérdéseire
Az Sqoop egy nyílt forrású adatátviteli eszköz, az Sqoop eszköz továbbítja az adatokat a Hadoop ökoszisztéma és a relációs adatbázis-kiszolgálók (RDBMS) között. Az adatokat importálja a Hadoop fájlrendszerbe (HDFS), a Relációs adatbázisokból, mint például az Oracle, a MySQL, stb., És exportálja az adatokat a Hadoop fájlrendszerből az RDMS-be is.
Az alábbiakban bemutatjuk a 15 fontos 2019 Sqoop interjú kérdést és választ:
Tehát végre megtalálta álmai munkáját a Sqoopban, de azon gondolkodik, hogyan lehet kitörni a Sqoop interjúját, és mi lehet a 2019-es Sqoop interjú kérdése. Minden interjú különbözik, és a munkaköre is eltérő. Ezt szem előtt tartva a Sqoop interjúkkal kapcsolatos leggyakoribb kérdéseket és válaszokat dolgoztunk ki, amelyek segítenek az interjú sikerében.
Ezeket a kérdéseket két részre osztják:
1. rész - Sqoop interjúkérdések (alapvető)
Ez az első rész a Sqoop interjúval kapcsolatos alapvető kérdéseket és válaszokat tartalmazza.
1. Definiálja a Sqoop-ot és miért használjuk az Sqoop-ot?
Válasz:
A Sqoop egy nyílt forrású adatátviteli eszköz, amelyet adatátvitelre fejlesztettek ki a Hadoop ökoszisztéma és a relációs adatbázis-kiszolgálók (RDBMS) között. Az Sqoop adatot importál a relációs adatbázisokból, például Oracle, MySQL stb., A Hadoop fájlrendszerbe (HDFS), valamint az adatokat a Hadoop fájlrendszerből a relációs adatbázisokba exportálja.
2. Melyek a Sqoop különlegességei?
Válasz:
Az alábbiakban bemutatjuk a Sqoop által támogatott különféle szolgáltatásokat -
- Teherbírás
- Teljes és növekményes betöltés
- Adattömörítési technikák
- Az SQL lekérdezések eredményeinek importálása
- Adatcsatlakozók az összes főbb adatbázishoz
- Közvetlen adatbetöltési támogatás a Hadoop File Systems rendszerbe
- Biztonsági konfigurációk, például a Kerberos
- Egyidejű importálás vagy exportálás
Térjünk át a következő Sqoop interjúkérdésekhez.
3. Nevezze meg a Sqoop által támogatott relációs adatbázisokat és Hadoop ökoszisztéma-forrásokat?
Válasz:
Az Sqoop a relációs adatbázis részeként jelenleg támogatja a MySQL, PostgreSQL, Oracle, MSSQL, Teradata és az IBM Netezza szolgáltatásait.
A Hadoop ökoszisztéma célzott szolgáltatásai jelenleg a HDFC, a Hive, a HBase, a H katalógus és az Accumulo.
Az Sqoop a MySQL-t használja alapértelmezett adatbázisként.
4. Hogyan működik a Sqoop?
Válasz:
Ez egy gyakori Sqoop interjúkérdés, amelyet egy interjúban feltettek. Az adatátvitel végrehajtásához az Sqoop export és import parancsokat használ. A Map Reduce programot az Sqoop belsőleg fogja használni az adatkészlet HDFS-be történő tárolására. A parancsokat a Térkép feladatokhoz társítják, hogy adatokat nyerjenek a relációs adatbázisokból; A csökkentés feladata a visszakeresett adatok rendeltetési helyekbe történő elhelyezéséért (HDFS / HBase / Hive) lesz.
A Sqoop különféle API-csatlakozókat is használ a több adatbázishoz történő csatlakozáshoz. A Sqoop emellett lehetővé teszi egyedi csatlakozók létrehozását a meghatározott követelmények teljesítéséhez.
Nézzük meg az alábbi mintákat az importáláshoz és az exportáláshoz
Parancs a MySQL adatbázishoz való kapcsolódáshoz, az adatok importálásához a 'Napló' táblából
sqoop import –connect jdbc: mysql: // localhost / –felhasználónév – jelszó –table –m 1
sqoop import - csatlakoztassa jdbc: mysql: // localhost / mytestdb - felhasználónév gyökér - jelszó admin123 - táblázatos napló –m 1
Parancs az adatok exportálására a HDFS-ből a Relációs adatbázisba
sqoop export –Csatlakozás jdbc: mysql: // localhost / sqoop_export –table export-dir / sqoop / emp_last / part-m-00000 - updatedate key id
sqoop export - csatlakoztassa jdbc: mysql: // localhost / sqoop_export - táblázatos log_table - export-dir / sqoop / data / foler1 / part-m-00000
5. Mi a Sqoop Metastore? Magyarázd meg?
Válasz:
A Sqoop Metastore egy olyan eszköz, amely a Sqoop-ban elérhető, amelyet az Sqoop alkalmazás konfigurálására használnak, hogy metaadatok formájában lehetővé tegyék a megosztott lerakat tárolását. Ez a Metastore felhasználható a feladatok végrehajtására és számos felhasználó kezelésére a felhasználói szerepek és tevékenységek alapján. Az összes felhasználó több feladatot vagy műveletet egyszerre hajthat végre a feladatok hatékony elérése érdekében. A Sqoop Metastore alapértelmezés szerint a memóriában jelenik meg. Amikor egy job létrehozásra kerül az Sqoop-on, a jobdefiníció a Metastore-ban tárolódik, és szükség esetén az Sqoop-jobok használatával kerül felsorolásra.
6. Milyen fájlformátumokat támogat a Sqoop az adatok importálása közben?
Válasz:
Az Sqoop két fájlformátumot használ az adatok importálásához. Ezek a következők: - Határozott tesztfájl formátum és szekvenciafájl formátum.
Elhatárolt szövegfájl-formátum : A behatárolt szövegformátum az alapértelmezett fájlformátum az importáláshoz. Még kifejezetten meghatározhatjuk a –as- textil argumentum használatával. Ugyanígy az argumentum átadásakor a határoló karakterek a sorok és oszlopok között kerülnek beállításra.
Szekvenciafájl formátuma : Ezt a fájlformátumot mondhatjuk bináris fájlformátumnak. Az ilyen típusú formátumú fájlrekordokat egyéni rekordokra specifikus adattípusokban tárolják, amelyek Java osztályokként vannak kitéve.
Térjünk át a következő Sqoop interjúkérdésekhez.
7. Vezérelhetünk számos térképezőt az sqoop-ban? Ha igen, hogyan?
Válasz:
Igen, ellenőrizhetjük a térképezők számát az Sqoopban az „-num-mappers” paraméter megadásával az sqoop parancsban. Ez a paraméter vezérelheti a térképfeladatok számát, azaz az sqoop csak a párhuzamosság mértékét használja. A számot a követelmény alapján határozzák meg.
Szintaxis: Ezeket a jelzőket használja a térképezők számának ellenőrzésére: m, -num- térképezők
2. rész - Sqoop interjúkérdések (haladó)
Vessen egy pillantást a fejlett Sqoop interjúkérdésekre.
8. Mi az Sqoop-merge és magyarázza annak használatát?
Válasz:
Az Sqoop egyesítése egy olyan eszköz, amely két különféle adatkészletet kombinál, amelyek fenntartják az egyetlen verziót azáltal, hogy felülírják az adatkészlet egy régebbi verziójának bejegyzéseit új fájlokkal, hogy a legfrissebb adatállomány legyen. A két különféle adatkészlet összevonása közben simítás történik, amely megőrzi az adatokat veszteség nélkül, hatékonysággal és biztonsággal. Ennek a műveletnek az elvégzéséhez az egyesítési kulcs parancsot kell használni, mint a „–merge-key”
9. Mi a különbség a Sqoop, a flume és a distcp között?
Válasz:
A Distcp és az Sqoop adatátvitelt egyaránt használják. Az Sqoop bármilyen típusú adatátvitelre kerül az egyik Hadoop-fürtről a másikra, míg az Sqoop az adatokat a Relációs adatbázisok és a Hadoop-ökoszisztéma, például Hive, HDFS és HBase stb. Között továbbítja. De mindkét módszer ugyanazt a megközelítést használja az adatok másolására., ami pull / transfer.
A Flume egy eszközt terjesztett, ügynöki alapú architektúrát követ, hogy naplózza a Hadoop ökoszisztémát. Míg a Sqoop csatlakozási alapú architektúra.
A Flume hatalmas mennyiségű naplóadatot gyűjt és aggregál. A Flume más típusú forrásokból gyűjtheti az adatokat; nem veszi figyelembe a sémát vagy a strukturált / nem strukturált adatokat. A Flume bármilyen adatot képes behúzni. Míg az Sqoop csak a Relációs adatbázis-adatokat tudja importálni, így a séma kötelező az sqoop feldolgozásához. Általában az ömlesztett munkaterhelés mozgatásakor a füst a legjobb megoldás.
Térjünk át a következő Sqoop interjúkérdésekhez.
10. Milyen adatforrásokat támogat az Apache Sqoop?
Válasz:
Az Apache Sqoop által támogatott különböző alkalmazások különböző adatforrásai a következők:
- Kaptár
- HBase
- Hadoop elosztott fájlrendszer (HDFS)
- HCatalog
- Accumulo
11. Melyek a leggyakrabban használt parancsok / funkciók az Sqoop-ban?
Válasz:
Ez egy speciális Sqoop interjúkérdés, amelyet egy interjúban tettek fel. A Sqoop-ban használt alapparancsok listája a következő:
A Codegen -Codegen kód létrehozására szolgál az adatbázisrekordokkal való kommunikációhoz.
Eval -Sqoop Eval segít az SQL lekérdezések minták futtatásában az adatbázisokkal szemben, és eredményeket szolgáltat a konzolon.
Súgó - Súgó felsorolja az elérhető parancsokat
Importálás - Az Import importálja a táblát a Hadoop ökoszisztémába
Exportálás -Export a HDFS adatok exportálása a relációs adatbázisokba.
Létrehozás-kaptár-tábla - Ez a parancs hasznos a tábladefiníció importálásához a kaptárba
Import-all-táblák -Import-all-táblák importálja a táblázatokat, hogy relációs adatbázisokat képezzenek a HDFS-be.
Lista-adatbázisok - felsorolja az összes kiszolgálón lévő adatbázist.
Listatáblák - Felsorolja az adatbázisban lévő összes táblát.
Verziók - Megjeleníti a verzióinformációkat.
Funkciók - Párhuzamos importálás / exportálás, Teljes betöltés, Növekményes betöltés, Teljes betöltés, Összehasonlítás, Csatlakozók az RDBMS adatbázisokhoz, Kerberos biztonsági integráció, Adatok betöltése közvetlenül a HDFS-be (Hive / HBase)
12. Magyarázza el a bevált gyakorlatokat, miközben táblákat importál a MySQL-ből vagy más adatbázisokból az Sqoop használatával?
Válasz:
A táblák MySQL-ből történő importálása során bizonyos dolgokról, például hitelesítésről és engedélyeztetésről, a célkiszolgálóra és az adatbázisokra ügyelnünk kell. Gondoskodnunk kell arról, hogy megadtuk-e a szükséges privilégiumokat az elérhető adatbázisokhoz, és ellenőriznünk kell a hostnév felbontását, amikor csatlakozunk a forrás- és célgazdanevekhez. Ha nincs a szükséges engedély, akkor kapcsolati hiba kivételt kapunk az adatbázishoz történő csatlakozás közben.
13. Hogyan frissítheti a már exportált adatokat vagy sorokat?
Válasz:
A rendeltetési helyre már exportált sorok frissítéséhez használhatjuk a „–frissítés-kulcs” paramétert. Ebben egy vesszővel elválasztott oszloplista kerül felhasználásra, amely egyértelműen azonosítja a sort, és ezeket az oszlopokat a létrehozott UPDATE lekérdezés WHERE szakaszában használja. A lekérdezés SET része gondoskodik az összes többi táblázat oszlopról.
Térjünk át a következő Sqoop interjúkérdésekhez.
14. Hogyan állíthatjuk be és telepíthetjük a JDBC illesztőprogramot az Apache Sqoop alkalmazásba?
Válasz:
Az Apache Sqoop JDB illesztőprogramjai a Hadoop szolgáltató, például a Cloudera vagy a Hortonworks alapján konfigurálhatók, ahol konfigurációjuk kissé eltér a Hadoop szolgáltatótól. A Cloudera-ban található JDBC úgy konfigurálható, hogy létrehoz egy könyvtármappát, például / var / lib /. Ez megtehető bármilyen harmadik fél könyvtáránál, amelyet a követelményeknek megfelelően konfigurálni kell. Ily módon bármilyen típusú adatbázis konfigurálható a JDBC illesztőprogramjával. A JDBC meghajtón kívül az Apache Sqoopnak csatlakozóra van szüksége a kapcsolat létrehozásához a különféle relációs adatbázisok között. Az adatbázisokkal való kapcsolat létrehozásához a fő összetevők az adott adatbázis-szolgáltató Illesztőprogramján és Csatlakozóján keresztül vannak.
15. Mi az a split-by záradék és mikor használjuk?
Válasz:
A megosztott paraméter az importált adatok szétválasztására szolgál több párhuzamos feladatba. Ezzel a paraméterrel meghatározhatjuk az oszlop nevét, ezek oszlopok nevei, amelyek alapján az sqoop osztja az importálandó adatokat több darabbá, és ezek párhuzamosan futnak. Ez az egyik módszer az előadás hangolására a Sqoopban.
Ajánlott cikkek
Ez egy útmutató az Sqoop interjúkérdések és válaszok listájához, így a jelölt könnyen meg tudja oldani ezeket a Sqoop interjúkérdéseket. A következő cikkeket is megnézheti további információkért -
- Hadoop vs Teradata -Melyik előnyös
- 13 Csodálatos adatbázis-tesztelési interjúkérdés
- A 10 leghasznosabb HBase interjúkérdés
- 10 legfélelmetesebb PHP interjú kérdés a tapasztalt személyek számára
- Ismerje meg az öt legfontosabb hasznos DBA-interjúkérdést