Különbség a kaptár és az Impala között
A Hive az APACHE HADOOP tetejére épített adatraktári szoftver, amelyet a Jeff Facebook csapata fejlesztett ki, a 2.3.0 jelenlegi stabil verziójával. A nagy adatok összefoglalására szolgál, és megkönnyíti a lekérdezést és az elemzést. Az Apache Hive az SQL-in Hadoop hatékony szabványa. Az Impala egy párhuzamosan feldolgozó SQL lekérdező motor, amely Apache Hadoop rendszeren fut, és a HBase (Hadoop adatbázis) és a Hadoop elosztott fájlrendszerében tárolt adatok feldolgozására szolgál. Az Impala nyílt forráskódú termék, amely párhuzamos feldolgozású (MPP) SQL lekérdezőmotorhoz használható, az Apache Hadoopon futó helyi rendszerfürtben tárolt adatokhoz. Az Apache Hive és az Impala egyaránt a Hadoop rendszer kulcsfontosságú elemei.
Tehát tanulmányozzuk részletesen Hive-t és Impalat:
KAPTÁR
- Az Apache Hive segít a Hadoop fájlrendszerben (HDFS) és más kompatibilis fájlrendszerekben tárolt hatalmas adatkészlet elemzésében.
- Hive QL - A Hadoop Clusterben tárolt adatok lekérdezésére.
- Kihasználja a Hadoop skálázhatóságát fordítás alapján .
- A kaptár NEM teljes adatbázis .
- Nem nyújt rekordszintű frissítéseket .
- A Hadoop kötegorientált rendszer .
- A kaptárkérelmeknek a MapReduce miatt nagy késése van .
- A Hive nem nyújt olyan szolgáltatásokat, amelyek közel állnak az OLAP-hoz .
- A legjobb az adattárház alkalmazásokhoz .
- Lekérdezés végrehajtása a MapReduce segítségével .
- A lekérdezési nyelv használható egyéni skaláris függvényekkel (UDF), aggregációkkal (UDAF) és táblázati függvényekkel (UDTF) .
- A Hive indexelést is biztosít a gyorsításhoz, az index típusa, beleértve a tömörítést és a bitmap indexet 0, 10-től kezdve, további index típusokat tervez.
- A Hive által támogatott tárolási típusok: RCfile, HBase, ORC és Plain text .
- SQL-szerű lekérdezések (Hive QL), amelyeket implicit módon MapReduce, Tez vagy Spark jobokká konvertálnak .
- Alapértelmezés szerint a Hive a metaadatokat egy beágyazott Apache Derby adatbázisban tárolja .
IMPALA
- Az Impala egy lekérdező motor, amely a Hadoop-on működik . A nyilvános béta teszt disztribúciót 2012 októberében jelentették be, és 2013 májusában vált elérhetővé.
- Támogatja a HDFS Apache HBase tárolást és az Amazon S3-at .
- Olvassa el a Hadoop fájlformátumokat, beleértve a szöveget, parkettát, Avro-t, RCFile-t, LZO-t és a szekvencia fájlt .
- Támogatja a Hadoop biztonságot (Kerberos hitelesítés) .
- Az Apache Hive metaadatait, ODBC illesztőprogramját és SQL szintaxisát használja .
- Több tömörítési kodeket támogat:
a) Pillanatnyi (ajánlott a tömörítési arány és a dekompressziós sebesség közötti hatékony egyensúlyhoz),
b) Gzip (a legmagasabb tömörítési szint elérésekor ajánlott),
c) Deflate (nem támogatott szöveges fájlok esetén), Bzip2, LZO (csak szöveges fájlok esetén);
- Ez lehetővé teszi a beágyazott struktúrák lekérdezését, beleértve a térképeket, struktúrákat és tömböket.
- Ez lehetővé teszi a több felhasználós egyidejű lekérdezéseket, valamint a belépés ellenőrzését a prioritások és a lekérdezések sorba rendezése alapján.
A fej és a fej összehasonlítása a kaptár és az Impala között (Infographics)
Az alábbiakban látható a 20 legjobb összehasonlítás a Hive vs Impala között
Legfontosabb különbség a kaptár és az Impala között
A Hive és Impala közötti különbségeket az alábbiakban mutatjuk be:
- A Hive-t a Jeff Facebook csapata fejlesztette ki, az Impalat pedig az Apache Software Foundation fejlesztette ki.
- A Hive támogatja az Optimalizált sor oszlopos (ORC) formátumú fájl formátumát Zlib tömörítéssel, de az Impala támogatja a Parkett formátumot szellemes tömörítéssel .
- A kaptár Java nyelven, Impala pedig C ++ nyelven íródott.
- A lekérdezés feldolgozási sebessége a kaptárban lassú, de az Impala 6-69-szer gyorsabb, mint a kaptár .
- A kaptárban a késés magas, az Impala esetében pedig a késés alacsony .
- A Hive támogatja az RC fájlok és az ORC tárolását, de az Impala tárolási támogatása a Hadoop és az Apache HBase .
- A Hive lekérdezés-kifejezést generál fordításkor, de az Impala kód generálásakor a '' nagy hurkok '' futás közben történik .
- A kaptár nem támogatja a párhuzamos feldolgozást, de az Impala támogatja a párhuzamos feldolgozást.
- A Hive támogatja a MapReduce szolgáltatást, de az Impala nem támogatja a MapReduce szolgáltatást .
- A Hive-ben nincs biztonsági funkció, de az Impala támogatja a Kerberos hitelesítést .
- Bármely olyan projekt fejlesztésekor, ahol a kompatibilitás és a sebesség is fontos, a Hive ideális választás, de egy új projekthez az Impala ideális választás .
- A kaptár hibatűrő, de az Impala nem támogatja a hibatűrést .
- A kaptár támogatja a komplex típusokat, de az Impala nem támogatja a komplex típusokat .
- A Hive kötegelt bázisú Hadoop MapReduce, de az Impala MPP adatbázis .
- A Hive nem támogatja az interaktív számítástechnikát, de az Impala támogatja az interaktív számítástechnikát .
- A kaptárkérdezésnek a „hidegindítás” problémája van, de az Impala démonfolyamatok már a rendszerindításkor is elindulnak .
- A kaptár erőforrás-kezelője YARN (még egy erőforrás-tárgyaló), de az Impala erőforrás-kezelője natív * YARN .
- A kaptár eloszlások mind Hadoop, Hortonworks (Tez, LLAP), de az Impala eloszlásban a Cloudera MapR (* Amazon EMR) .
- A kaptár közönsége Data Engineers, de az Impala közönség Data Analyst / Data tudósok.
- A kaptárátvitel magas, de az Impala teljesítménye alacsony .
Hive vs Impala összehasonlító táblázat
Sorszám. | Az összehasonlítás alapja | Kaptár | Impala |
1. | Által kifejlesztett | Apache szoftver Alapítvány |
|
2. | Fájlformátum |
|
|
3. | Nyelv | Írta JAVA-ban | C ++ nyelven írva |
4. | Feldolgozási sebesség | A kaptár lassú | Az Impala gyors |
5. | Késleltetés | Magas | Alacsony |
6. | Tárolási támogatás | RC fájl, ORC | Hadoop, Apache HBase |
7. | Kód konvertálás | Lekérdezés kifejezést generál fordítási időpontban | A kód generálása futás közben történik. |
8. | Támogatja a párhuzamos feldolgozást | Nem | Igen |
9. | MapReduce támogatás | Igen | Nem |
10. | Hadoop biztonság | Nem | Támogatja a Kerberos hitelesítést. |
11. | Használat | Ideális a projekt fokozására | Ideális új projekt indításához. |
12. | Hibatűrő | A kaptár hibatűrő. | Nem támogatja a hibatűrést. |
13. | Komplex típusok | A kaptár támogatja a komplex típusokat. | Az Impala nem támogatja az összetett típusokat. |
14. | Adatbázis típusa | A Hive kötegelt bázisú Hadoop MapReduce. | MPP adatbázis |
15. | Interaktív számítástechnika | Nem támogatja az interaktív számítógépet. | Támogatja az interaktív számítógépet. |
16. | Végrehajtás | A kaptárkérdezésnek problémája van a „Cold Start” funkcióval | Az Impala folyamat mindig a Démonok indulási idején kezdődik. |
17. | Erőforrás menedzsment | YARN | Natív * fonál |
18. | disztribúciók | HIVE - minden Hadoop disztribúció, Hortonworks (Tez, LLAP) | Cloudera MapR, (* Amazon EMR) |
19. | Közönség | Adatmérnökök | Adatanalitikus / adattudósok |
20. | áteresztőképesség | Nagy teljesítmény | Alacsony teljesítmény |
Következtetés - Kaptár vs Impala
Ebben a cikkben megpróbáltuk bemutatni, hogy mi a két technológia, nevezetesen a Hive és az Impala, és emellett az alapvető különbség e technológiák között. Gyakorlatilag azt mondhatjuk, hogy Hive és Impala nem versenytársak, és mindkettő ugyanahhoz az alapítványhoz tartozik, amelyet MapReduce néven hívnak le a lekérdezések végrehajtására, mindkettő használata megteremtheti a különbséget. Igényeink szerint együtt használhatjuk, vagy a legjobban, a kompatibilitás, igény és teljesítmény alapján. A kaptár lekérdezési nyelve a Hive QL, amely nagyon sokoldalú és univerzális nyelv, miközben az Impala memóriaigényes, és nem működik jól a nehéz adatműveletek kezelésére, például a csatlakozási lekérdezések. Ha a projektben a munka nagy mennyiségű kötegelt feldolgozáshoz kapcsolódik, akkor a Kaptár jobb lesz, és ha munkája kapcsolódik egy ad-hoc adatkérdezés valósidejű folyamatához, akkor az Impala jobb ebben az esetben.
Ajánlott cikk
Ez egy útmutató a Hive Vs Impala jelentéséhez, jelentésükhöz, a fej-fej összehasonlításhoz, a legfontosabb különbségekhez, az összehasonlító táblázathoz és a következtetésekhez. A következő cikkeket is megnézheti további információkért -
- Apache Hive vs Apache Spark SQL - 13 lenyűgöző különbség
- Hive VS HUE - A legjobb 6 hasznos összehasonlítás a tanuláshoz
- Apache Pig vs Apache Hive - A 12 legfontosabb különbség
- Hadoop vs Hive - derítse ki a legjobb különbségeket
- Az ORDER BY funkció használata a kaptárban