Különbség a kaptár és az Impala között

A Hive az APACHE HADOOP tetejére épített adatraktári szoftver, amelyet a Jeff Facebook csapata fejlesztett ki, a 2.3.0 jelenlegi stabil verziójával. A nagy adatok összefoglalására szolgál, és megkönnyíti a lekérdezést és az elemzést. Az Apache Hive az SQL-in Hadoop hatékony szabványa. Az Impala egy párhuzamosan feldolgozó SQL lekérdező motor, amely Apache Hadoop rendszeren fut, és a HBase (Hadoop adatbázis) és a Hadoop elosztott fájlrendszerében tárolt adatok feldolgozására szolgál. Az Impala nyílt forráskódú termék, amely párhuzamos feldolgozású (MPP) SQL lekérdezőmotorhoz használható, az Apache Hadoopon futó helyi rendszerfürtben tárolt adatokhoz. Az Apache Hive és az Impala egyaránt a Hadoop rendszer kulcsfontosságú elemei.

Tehát tanulmányozzuk részletesen Hive-t és Impalat:

KAPTÁR

  • Az Apache Hive segít a Hadoop fájlrendszerben (HDFS) és más kompatibilis fájlrendszerekben tárolt hatalmas adatkészlet elemzésében.
  • Hive QL - A Hadoop Clusterben tárolt adatok lekérdezésére.
  • Kihasználja a Hadoop skálázhatóságát fordítás alapján .
  • A kaptár NEM teljes adatbázis .
  • Nem nyújt rekordszintű frissítéseket .
  • A Hadoop kötegorientált rendszer .
  • A kaptárkérelmeknek a MapReduce miatt nagy késése van .
  • A Hive nem nyújt olyan szolgáltatásokat, amelyek közel állnak az OLAP-hoz .
  • A legjobb az adattárház alkalmazásokhoz .
  • Lekérdezés végrehajtása a MapReduce segítségével .
  • A lekérdezési nyelv használható egyéni skaláris függvényekkel (UDF), aggregációkkal (UDAF) és táblázati függvényekkel (UDTF) .
  • A Hive indexelést is biztosít a gyorsításhoz, az index típusa, beleértve a tömörítést és a bitmap indexet 0, 10-től kezdve, további index típusokat tervez.
  • A Hive által támogatott tárolási típusok: RCfile, HBase, ORC és Plain text .
  • SQL-szerű lekérdezések (Hive QL), amelyeket implicit módon MapReduce, Tez vagy Spark jobokká konvertálnak .
  • Alapértelmezés szerint a Hive a metaadatokat egy beágyazott Apache Derby adatbázisban tárolja .

IMPALA

  • Az Impala egy lekérdező motor, amely a Hadoop-on működik . A nyilvános béta teszt disztribúciót 2012 októberében jelentették be, és 2013 májusában vált elérhetővé.
  • Támogatja a HDFS Apache HBase tárolást és az Amazon S3-at .
  • Olvassa el a Hadoop fájlformátumokat, beleértve a szöveget, parkettát, Avro-t, RCFile-t, LZO-t és a szekvencia fájlt .
  • Támogatja a Hadoop biztonságot (Kerberos hitelesítés) .
  • Az Apache Hive metaadatait, ODBC illesztőprogramját és SQL szintaxisát használja .
  • Több tömörítési kodeket támogat:

a) Pillanatnyi (ajánlott a tömörítési arány és a dekompressziós sebesség közötti hatékony egyensúlyhoz),

b) Gzip (a legmagasabb tömörítési szint elérésekor ajánlott),

c) Deflate (nem támogatott szöveges fájlok esetén), Bzip2, LZO (csak szöveges fájlok esetén);

  • Ez lehetővé teszi a beágyazott struktúrák lekérdezését, beleértve a térképeket, struktúrákat és tömböket.
  • Ez lehetővé teszi a több felhasználós egyidejű lekérdezéseket, valamint a belépés ellenőrzését a prioritások és a lekérdezések sorba rendezése alapján.

A fej és a fej összehasonlítása a kaptár és az Impala között (Infographics)

Az alábbiakban látható a 20 legjobb összehasonlítás a Hive vs Impala között

Legfontosabb különbség a kaptár és az Impala között

A Hive és Impala közötti különbségeket az alábbiakban mutatjuk be:

  • A Hive-t a Jeff Facebook csapata fejlesztette ki, az Impalat pedig az Apache Software Foundation fejlesztette ki.
  • A Hive támogatja az Optimalizált sor oszlopos (ORC) formátumú fájl formátumát Zlib tömörítéssel, de az Impala támogatja a Parkett formátumot szellemes tömörítéssel .
  • A kaptár Java nyelven, Impala pedig C ++ nyelven íródott.
  • A lekérdezés feldolgozási sebessége a kaptárban lassú, de az Impala 6-69-szer gyorsabb, mint a kaptár .
  • A kaptárban a késés magas, az Impala esetében pedig a késés alacsony .
  • A Hive támogatja az RC fájlok és az ORC tárolását, de az Impala tárolási támogatása a Hadoop és az Apache HBase .
  • A Hive lekérdezés-kifejezést generál fordításkor, de az Impala kód generálásakor a '' nagy hurkok '' futás közben történik .
  • A kaptár nem támogatja a párhuzamos feldolgozást, de az Impala támogatja a párhuzamos feldolgozást.
  • A Hive támogatja a MapReduce szolgáltatást, de az Impala nem támogatja a MapReduce szolgáltatást .
  • A Hive-ben nincs biztonsági funkció, de az Impala támogatja a Kerberos hitelesítést .
  • Bármely olyan projekt fejlesztésekor, ahol a kompatibilitás és a sebesség is fontos, a Hive ideális választás, de egy új projekthez az Impala ideális választás .
  • A kaptár hibatűrő, de az Impala nem támogatja a hibatűrést .
  • A kaptár támogatja a komplex típusokat, de az Impala nem támogatja a komplex típusokat .
  • A Hive kötegelt bázisú Hadoop MapReduce, de az Impala MPP adatbázis .
  • A Hive nem támogatja az interaktív számítástechnikát, de az Impala támogatja az interaktív számítástechnikát .
  • A kaptárkérdezésnek a „hidegindítás” problémája van, de az Impala démonfolyamatok már a rendszerindításkor is elindulnak .
  • A kaptár erőforrás-kezelője YARN (még egy erőforrás-tárgyaló), de az Impala erőforrás-kezelője natív * YARN .
  • A kaptár eloszlások mind Hadoop, Hortonworks (Tez, LLAP), de az Impala eloszlásban a Cloudera MapR (* Amazon EMR) .
  • A kaptár közönsége Data Engineers, de az Impala közönség Data Analyst / Data tudósok.
  • A kaptárátvitel magas, de az Impala teljesítménye alacsony .

Hive vs Impala összehasonlító táblázat

Sorszám.Az összehasonlítás alapjaKaptárImpala
1.Által kifejlesztettFacebookApache szoftver
Alapítvány
2.Fájlformátum
  • Szekvencia fájl.
  • Szöveges fájl.
  • Optimalizált soroszlopos (ORC) formátum Zlib tömörítéssel.
  • RC fájl formátum.
  • Parketta formátum hanyag tömörítéssel.
  • Avro
  • LZO
  • Szekvencia fájl.
3.NyelvÍrta JAVA-banC ++ nyelven írva
4.Feldolgozási sebességA kaptár lassúAz Impala gyors
5.KésleltetésMagasAlacsony
6.Tárolási támogatásRC fájl, ORCHadoop, Apache HBase
7.Kód konvertálásLekérdezés kifejezést generál fordítási időpontbanA kód generálása futás közben történik.
8.Támogatja a párhuzamos feldolgozástNemIgen
9.MapReduce támogatásIgenNem
10.Hadoop biztonságNemTámogatja a Kerberos hitelesítést.
11.HasználatIdeális a projekt fokozásáraIdeális új projekt indításához.
12.HibatűrőA kaptár hibatűrő.Nem támogatja a hibatűrést.
13.Komplex típusokA kaptár támogatja a komplex típusokat.Az Impala nem támogatja az összetett típusokat.
14.Adatbázis típusaA Hive kötegelt bázisú Hadoop MapReduce.MPP adatbázis
15.Interaktív számítástechnikaNem támogatja az interaktív számítógépet.Támogatja az interaktív számítógépet.
16.VégrehajtásA kaptárkérdezésnek problémája van a „Cold Start” funkcióvalAz Impala folyamat mindig a Démonok indulási idején kezdődik.
17.Erőforrás menedzsmentYARNNatív * fonál
18.disztribúciókHIVE - minden Hadoop disztribúció, Hortonworks (Tez, LLAP)Cloudera MapR,
(* Amazon EMR)
19.KözönségAdatmérnökökAdatanalitikus / adattudósok
20.áteresztőképességNagy teljesítményAlacsony teljesítmény

Következtetés - Kaptár vs Impala

Ebben a cikkben megpróbáltuk bemutatni, hogy mi a két technológia, nevezetesen a Hive és az Impala, és emellett az alapvető különbség e technológiák között. Gyakorlatilag azt mondhatjuk, hogy Hive és Impala nem versenytársak, és mindkettő ugyanahhoz az alapítványhoz tartozik, amelyet MapReduce néven hívnak le a lekérdezések végrehajtására, mindkettő használata megteremtheti a különbséget. Igényeink szerint együtt használhatjuk, vagy a legjobban, a kompatibilitás, igény és teljesítmény alapján. A kaptár lekérdezési nyelve a Hive QL, amely nagyon sokoldalú és univerzális nyelv, miközben az Impala memóriaigényes, és nem működik jól a nehéz adatműveletek kezelésére, például a csatlakozási lekérdezések. Ha a projektben a munka nagy mennyiségű kötegelt feldolgozáshoz kapcsolódik, akkor a Kaptár jobb lesz, és ha munkája kapcsolódik egy ad-hoc adatkérdezés valósidejű folyamatához, akkor az Impala jobb ebben az esetben.

Ajánlott cikk

Ez egy útmutató a Hive Vs Impala jelentéséhez, jelentésükhöz, a fej-fej összehasonlításhoz, a legfontosabb különbségekhez, az összehasonlító táblázathoz és a következtetésekhez. A következő cikkeket is megnézheti további információkért -

  1. Apache Hive vs Apache Spark SQL - 13 lenyűgöző különbség
  2. Hive VS HUE - A legjobb 6 hasznos összehasonlítás a tanuláshoz
  3. Apache Pig vs Apache Hive - A 12 legfontosabb különbség
  4. Hadoop vs Hive - derítse ki a legjobb különbségeket
  5. Az ORDER BY funkció használata a kaptárban

Kategória: