Bevezetés a kaptár alternatíváiba

Mielőtt megvitatnánk a HIVE alternatíváit. Először megértjük, mi a HIVE? Tehát a HIVE alapvetően egy adattárolási eszköz, amelyet a HDFS (Hadoop Distributed File System) tetején fejlesztettek ki. SQL-lekérdezéses felületet ad a lekérdezési adatokhoz, amelyeket a Hadoopmal integrált különféle fájlokban tárolnak. Az SQL-lekérdezéseket konvertálja a Map Reduce feladatokká, amelyek megkönnyítik a nagy mennyiségű adat könnyebb végrehajtását.

Jellemzők

Az alábbiakban bemutatjuk a Kaptár néhány funkcióját:

  • Mint az SQL-nek is, van saját deklaratív nyelve, HiveQL.
  • Táblázatának szerkezete hasonló a Relációs adatbázisban található táblázatokhoz, és ETL (kivonat / támogatás / betöltés) támogatást is nyújt.
  • Érdekes tulajdonság, hogy lehetővé teszi a formátum konvertálását a HIVE-n belül.

A kaptár alternatíváinak korlátozása

Tudjuk meg a kaptár néhány korlátozását:

  • Nem az OLTP (Online Transaction Processing) számára készült, de támogatja az OLAP (Online Analytical Processing) szolgáltatást.
  • Az egyik fontos korlátozás az, hogy nem támogatja a frissítéseket és a törléseket.
  • A kaptárban az alküldéseket nem támogatják.

5 fontos kaptár alternatíva

Az alábbiakban a HIVE öt fontos alternatíváját tárgyaljuk a piacon:

1. Apache Impala

Ez egy nyílt forráskódú, párhuzamosan feldolgozó SQL lekérdező motor az Apache Hadoopot futtató számítógépes fürtön tárolt adatokhoz. 2012. októberében jelentették be. Az Apache Impala legfontosabb tulajdonságai az alábbiakban találhatók, a HIVE alternatívájaként.

  • Az Impala jó választás azok számára, akik SQL lekérdezéseket futtatnak a Hadoop-on és az Apache HBase-en anélkül, hogy átalakítanák az adatokat, mivel a HIVE-től eltérően nem szükséges az adatok átalakítása vagy mozgatása.
  • Egy másik különbség a kettő között a lekérdező kifejezések generálása. Az Impala futás közben generálja őket az llvm segítségével, míg a HIVE generálja őket fordítási időben.
  • A Hive Queriesnek van hidegindításának problémája, amely nem vonatkozik az Impala lekérdezésekre, mivel az Impala démonfolyamatok a rendszerindítási időben indulnak el, mindig készen állnak a lekérdezés feldolgozására, ezért elkerülik a hidegindítási problémát.
  • Az Impala felismeri a Hadoop fájlformátumokat, a Hadoop biztonságot, az ODBC illesztőprogramot.
  • Az impala fő USP-je a párhuzamos feldolgozás brutális ereje. Tehát az Impala jobb alternatíva, ha valaki új projektet indít.

2. Presto DB

A Presto egy másik alternatíva a HIVE számára, amelyet a facebook fejlesztett ki. Az USP az, hogy akár egyetlen forrásból is lekérdezheti több forrásból származó adatokat. Az alábbiakban bemutatjuk a PrestoDB legfontosabb tulajdonságait, mint a HIVE alternatíváját.

  • A Presto egy memóriában elosztott SQL lekérdező motor, amely szintén nagyon gyors, mivel a Presto lekérdező motorja gyors és kiválóan alkalmas interaktív elemzésre.
  • A Presto USP-je mások számára a plug and play modellje, különféle adatforrásokkal. Ennek a plug and play modellnek köszönhetően a presto segítségével a különböző adatforrások közötti lekérdezések összekapcsolása nagyon egyszerű.
  • A Presto kis méretű csatlakozási táblázata gyorsabb lett. A Presto kiemelkedik a legtöbb más elosztott lekérdező motorral.
  • A Presto nem megfelelő nagy ténybeli csatlakozásokhoz, mivel nem használja ki a lemezt, és a memóriát nem használja fel a feldolgozáshoz.
  • A presto számára még egy fontos szempont az erőforrás-elosztás. Ennek prioritási soron alapuló erőforrás-elosztása van.
  • A Presto jó teljesítményének egyik kompromisszuma az, hogy az UDF támogatás Prestoban nem áll rendelkezésre, ezért meg kell írnia a saját funkcióját, amely növeli a többletet, mivel azt kizárólag a Presto számára kell felépíteni és akadályozza az interoperabilitást.

3. Spark SQL

Ez egy modul a strukturált adatfeldolgozáshoz és a nyílt forráskódú is. Elosztott SQL lekérdezőmotorként is működhet, és ennek egyedülálló része, hogy adatkeretekként ismert programozási absztrakciót biztosít. Először 2014-ben adták ki, amelyet az Apache Software Foundation fejlesztett ki. Az alábbiakban bemutatjuk a Spark SQL legfontosabb tulajdonságait, mint a HIVE alternatíváját.

  • A Spark SQL szempontjából jó, hogy Java, Scala, Python és R nyelven is megvalósítható, míg a HIVE Java nyelven.
  • A HIVE és a Spark között az elsődleges adatbázis-modell teljesen hasonlít, mivel mindkét elsődleges adatbázis-modell a Relációs DBMS.
  • Hasonló a HIVE-hez is, mivel mindkettő kiegészítő kulcsmodellként támogatja a Key-Value tárolót.
  • Előre meghatározott adattípusokat tartalmaz, például úszó és dátum.
  • Támogatja az SQL-t, mivel rendelkezik DML és DDL utasításokkal.
  • A HIVE-től, amely támogatja a JDBC-t, az ODBC-t és a Thrift-et, a Spark SQL csak a JDBC-t és az ODBC-t támogatja.
  • A Spark SQL a szikramagot használja az adatok különböző csomópontokba történő tárolására.
  • A szikra és a HIVE között egy másik jelentős különbség a replikációs módszerek: A HIVE szelektív replikációs tényezővel rendelkezik redundáns adatok több csomóponton történő tárolására, de a Spark SQL nem rendelkezik replikációs tényezővel.
  • A Spark SQL-ben nincsenek hozzáférési jogok a felhasználók számára, míg az Apache Hive-ben hozzáférési jogok vannak a felhasználók, csoportok számára.
  • Nem támogatja a tranzakciótáblát és a char típusú támogatást.

4. Cápa

Ez egy nyílt forráskódú SQL lekérdező motor, amelyet Scala-ban írtak. A Shark érdekes ténye az, hogy a Map-Reduce használata helyett a saját munkavállalói csomópontokkal végzett lekérdezéseinek végrehajtására szolgál. Az alábbiakban bemutatjuk a Shark néhány funkcióját:

  • Parancssori klienst használ.
  • Interoperabilitást kínál a Hive-vel a sémamegosztáshoz.
  • Támogatja a meglévő kaptárbővítményeket, például az UDF-eket.

Még nem túl híres, de alternatívát kínál a HIVE számára.

5. BigSQL az IBM által

Ezt a Big Blue (IBM) biztosítja. Az IBM rendelkezik saját Hadoop disztribúcióval, Big Insights néven. Tehát a Big SQL-t ennek részeként kínáljuk. Nem nyílt forráskódú, mivel az IBM biztosítja. Néhány dolog, amit nyújtanak, a következők:

  • Támogatják mind a JDBC, mind az OJDBC illesztőprogramokat.
  • SQL támogatást nyújtanak
  • Ezek felhasználhatók adatok lekérdezésére a HDFS-ből.

Ajánlott cikkek

Ez egy útmutató a kaptár alternatíváihoz. Itt tárgyaljuk a funkciókat, a korlátozásokat és az öt fontos kaptár-alternatívát. Megnézheti más kapcsolódó cikkeinket, hogy többet megtudjon-

  1. Hadoop alternatívák
  2. Tableau alternatívák
  3. Google Analytics alternatívák
  4. Hadoop streaming
  5. Kaptárrendelés
  6. Kaptár telepítése
  7. Adatkeretek R-ben

Kategória: