Különbség a Hadoop és a Hive között

Hadoop:

A Hadoop egy olyan keretrendszer vagy szoftver, amelyet hatalmas adatok vagy nagy adatok kezelésére fejlesztettek ki. A Hadoop tárolására és feldolgozására szolgál az árupszerverek csoportjai között elosztott nagy adatok tárolása és feldolgozása.

A Hadoop az adatokat a Hadoop elosztott fájlrendszerével tárolja, és feldolgozza / lekérdezi azokat a Map Reduce programozási modell segítségével.

1. ábra: a Hadoop összetevő alapvető architektúrája.

Hadoop fő alkotóelemei:

Hadoop Base / Common: A Hadoop common egy platformot biztosít az összes összetevő telepítéséhez.

HDFS (Hadoop elosztott fájlrendszer): A HDFS a Hadoop keretrendszerének jelentős része, és a Hadoop Cluster összes adatáért felelős. A Master / Slave architektúrán működik, és replikációval tárolja az adatokat.

Mester / szolga architektúra és replikáció:

  • Mester csomópont / név csomópont: A név csomópont a HDFS-ben tárolt minden egyes blokk / fájl metaadatait tárolja, a HDFS-nek csak egy fő csomópontja lehet (HA esetén egy másik fő csomópont másodlagos fő csomópontként fog működni).
  • Szolga csomópont / Adat csomópont: Az adatcsomópontok blokkokban tartalmaznak tényleges adatfájlokat. A HDFS-nek több adatcsomópontja lehet.
  • Replikáció: A HDFS az adatokat osztja blokkokra osztva. Az alapértelmezett blokkméret 64 MB. A replikáció miatt az adatok 3-ba kerülnek (alapértelmezett replikációs tényező, szükség szerint megnövelhető) különböző adatcsomópontokba, így bármilyen csomópont meghibásodása esetén az adatok elvesztésének lehetősége a legkevesebb.

Fonal (még egy erőforrás-tárgyaló): Alapvetően a Hadoop erőforrások kezelésére használják, és fontos szerepet játszik a felhasználói alkalmazások ütemezésében.

MR (Map Reduce): Ez a Hadoop alapvető programozási modellje. Az adatok feldolgozására / lekérdezésére szolgál a Hadoop keretén belül.

Kaptár:

A Hive egy olyan alkalmazás, amely a Hadoop keretén keresztül fut és SQL szerű felületet biztosít az adatok feldolgozásához / lekérdezéséhez. A Hive-t a Facebook tervezte és fejlesztette ki, mielőtt az Apache-Hadoop projekt részévé vált.

A Hive a lekérdezést a HQL (Hive query language) segítségével futtatja. A kaptár struktúrája megegyezik az RDBMS-szel, és szinte ugyanazok a parancsok használhatók a kaptárban.

A kaptár adatokat tárolhat külső táblázatokban, így nem kötelező a HDFS használata, valamint támogatja a fájlformátumokat, például ORC, Avro fájlok, szekvenciafájl és szöveges fájlok stb.

2. ábra: A kaptár felépítése és főbb elemei.

A kaptár fő alkotóeleme:

Hive Clients: A Hive nemcsak az SQL, hanem a Java, C, Python programozási nyelveket is támogatja, különféle illesztőprogramok, például ODBC, JDBC és Thrift használatával. Bármely kaptár kliens alkalmazás más nyelven is írható, és a kaptárban ezekkel az ügyfelekkel futtatható.

Kaptár szolgáltatások: A kaptár szolgáltatások alatt a parancsok és a lekérdezések végrehajtására kerül sor. A kaptár webes felületének öt alkomponense van.

  • CLI: A Hive által biztosított alapértelmezett parancssori felület a Hive lekérdezéseinek / parancsainak végrehajtására.
  • Hive webes felületek: Ez egy egyszerű grafikus felhasználói felület. Ez a Hive parancssor alternatívája, és a lekérdezések és parancsok futtatására szolgál a Hive alkalmazásban.
  • Hive Server: Apache Thrift néven is hívják. Felelősségteljes, hogy különféle parancssori interfészektől kapja meg a parancsokat, és minden parancsot / lekérdezést a Hive elé terjesszen, és a végső eredményt is lekérdezi.
  • Apache Hive Driver: Feladata a bemenetek átvétele a CLI, a webes felhasználói felület, az ODBC, JDBC vagy a Thrift interfészekből egy kliens által, és továbbítja az információkat a metastore-hoz, ahol az összes fájl információ tárolódik.
  • Metastore: A Metastore egy adattár, amely az összes kaptár metaadatát tárolja. A Hive metaadatai tárolják az információkat, például a táblázatok szerkezetét, a partíciókat és az oszlop típusát stb.

Kaptár tárolása: Ez a hely, ahol a tényleges feladat végrehajtásra kerül. A kaptárból származó összes lekérdezés a kaptár tárolásán belül végrehajtotta a műveletet.

Összehasonlítás a Hadoop és a Hive között (Infographics)

Az alábbiakban a 8. legfontosabb különbség a Hadoop és a Hive között

Főbb különbségek a Hadoop és a Hive között:

Az alábbiakban felsoroljuk a pontok listáját, amelyek leírják a Hadoop és a Hive közötti főbb különbségeket:

1) A Hadoop a nagy adatok feldolgozásának / lekérdezésének kerete, míg a Hive egy SQL alapú eszköz, amely a Hadoop fölé épít az adatok feldolgozására.

2) A kaptár feldolgozása / lekérdezése az összes adatból a HQL (Hive Query Language) használatával, ez SQL-szerű nyelv, míg a Hadoop csak a Map Reduce-t érti meg.

3) A Map Reduce a Hadoop szerves része, a Hive lekérdezése először Map Reduce-ba konvertálódik, mint amelyet a Hadoop feldolgozott az adatok lekérdezéséhez.

4) A kaptár az SQL-ben működik, mint a lekérdezés, míg a Hadoop csak Java alapú Map Reduce használatával érti meg.

5) A Hive alkalmazásában a korábban használt hagyományos „Relációs adatbázis” parancsai szintén felhasználhatók a nagy adatok lekérdezésére, míg a Hadoop-ban összetett Map Reduce programokat kell írni Java-val, amely nem hasonlít a Java hagyományához.

6) A kaptár csak a strukturált adatokat képes feldolgozni / lekérdezni, míg a Hadoop az összes típusú adatnak szól, akár strukturált, akár nem strukturált, vagy félig strukturált.

7) A Hive használatával az adatok feldolgozása / lekérdezése komplex programozás nélkül történhet, miközben az Simple Hadoop ökoszisztémában ugyanazon adatokhoz összetett Java programot kell írni.

8) A Hadoop egyik oldalának 100 s-ra van szüksége a Java-alapú MR program elkészítéséhez, másik oldalán a Hadoop Hive-vel ugyanazokat az adatokat lekérdezheti 8-10 HQL sor segítségével.

9) A Hive alkalmazásban nagyon nehéz az egyik lekérdezés kimenetét beilleszteni egy másik bemenetére, míg ugyanaz a lekérdezés könnyen elvégezhető a Hadoop és az MR segítségével.

10) Nem kötelező a Metastore a Hadoop-fürtön belül, míg a Hadoop az összes metaadatát a HDFS-ben (Hadoop Distributed File System) tárolja.

Hadoop vs kaptár összehasonlító táblázat

Összehasonlítási pontokKaptárHadoop

Tervezés és fejlesztés

FacebookGoogle
Adattárolási hely

Az adatokat a Külső tárolhatja

Táblázat, HBase vagy HDFS.

Szigorúan csak HDFS.
Nyelvi támogatásHQL (Hive Query Language)

Használhat több programozási nyelvet, például Java, Python, Scala és még sok más.

AdattípusokCsak strukturált adatokon működhet.

Feldolgozza a strukturált, nem strukturált és a félszerkezeti adatokat.

Adatfeldolgozási keretrendszer

HQL (Hive Query Language)

Csak a Java írásbeli Map Reduce program használatával.

Számítási keret

SQL-szerű nyelv.SQL és No-SQL.
adatbázis

Derby (alapértelmezett) a MYSQL, az Oracle támogatását is támogatja …

HBase, Cassandra stb.
Programozási keret

SQL alapú programozási keret.

Java alapú programozási keret.

Következtetés - Hadoop vs Hive

A Hadoop és a Hive egyaránt felhasználják a nagy adatok feldolgozását. A Hadoop olyan keret, amely más alkalmazások számára platformot biztosít a Big Data lekérdezéséhez / feldolgozásához, míg a Hive csak egy SQL alapú alkalmazás, amely az adatokat HQL (Hive Query Language) segítségével dolgozza fel.

A Hadoop Hive nélkül használható a nagy adatok feldolgozására, míg a Hive Hadoop nélkül nem egyszerű.

Következésképpen nem hasonlíthatjuk össze a Hadoop-ot és a Hive-t semmilyen szempontból. Mind a Hadoop, mind a Hive teljesen különböznek egymástól. Mindkét technológia együttes futtatása sokkal könnyebbé és kényelmesebbé teszi a Big Data lekérdezési folyamatot a Big Data felhasználók számára.

Ajánlott cikkek:

Ez egy útmutató a Hadoop vs Hive, azok jelentésének, a fej-fej összehasonlításnak, a legfontosabb különbségeknek, az összehasonlító táblázatnak és a következtetésnek. A következő cikkeket is megnézheti további információkért -

  1. Hadoop vs Apache Spark - Érdekes dolgok, amelyeket tudnod kell
  2. HADOOP vs RDBMS | Ismerje meg a 12 hasznos különbséget
  3. Mennyire nagy az adatok megváltoztatása az egészségügyi ellátás arcán
  4. Az Apache Hive és az Apache HBase 12 legfontosabb összehasonlítása (Infographics)
  5. Csodálatos útmutató a Hadoop vs Spark oldalról

Kategória: