Kaptárépítés - Munkafolyamat és a kaptár-építészet alkotóelemei

Tartalomjegyzék:

Anonim

Bevezetés a kaptár-építészetbe

A Hive Architecture a Hadoop ökoszisztéma tetején épül. A kaptár gyakran kölcsönhatásba lép a Hadoop-tal. Az Apache Hive együttműködik mind a domain SQL adatbázis rendszerrel, mind a Map-redukcióval. A kaptár alkalmazások különféle nyelveken írhatók, például Java, python. A kaptár architektúrája megmutatja, hogyan kell a kaptár nyelvet írni, és hogyan történik a programozó közötti interakció a parancssori felületen. A kaptár lekérdezési nyelve elvégzi az összes Hadoop-fürt feladat átalakítását a térkép-csökkentés segítségével. Mivel mindannyian tudtuk, hogy Hadoop a nagy adatok elosztott környezetben történő feldolgozására nyílt forráskódú keretet képez. A kaptár használatával rugalmas a lekérdezés kezelése és végrehajtása, valamint jó támogató olyan funkciók elvégzésére, mint például a beágyazás és az ad-hoc lekérdezések. Ez a cikk rövid bevezetést nyújt a kaptár architektúrájához, amely a Hadoop rétegen található, hogy nagy adatokon összegyűjtse.

Kaptár építészet annak alkatrészeivel

A kaptár nagy szerepet játszik az adatok elemzésében és az üzleti intelligencia integrációjában, és támogatja a fájl formátumokat, például a szöveges fájlt, az rc fájlt. A Hive elosztott rendszert használ a lekérdezések feldolgozására és végrehajtására, és a tárolást végül a lemezen végzik, és végül egy térkép-csökkentési keretrendszer segítségével dolgozzák fel. Megoldja a térkép-csökkentés és a kaptár alatt található optimalizálási problémát kötegelt munkák elvégzésében, amelyeket a munkafolyamat világosan ismertet. Itt a metatár tárolja a séma információkat. Az Apache Tez nevű keretet valós idejű lekérdezések teljesítményére tervezték.

A kaptár főbb elemei az alábbiakban találhatók:

  1. Kaptár ügyfelek
  2. Kaptári szolgáltatások
  3. Kaptár tárolása (Meta tárolás)

A fenti ábra a Kaptár és annak alkotóelemeinek architektúráját mutatja.

Kaptár ügyfelek:

Tartalmazzák a Thrift alkalmazást az egyszerű kaptárparancsok végrehajtására, amelyek python, ruby, C ++ és illesztőprogramok számára elérhetők. Ezek az ügyfélalkalmazások előnyei vannak a lekérdezések végrehajtásának a kaptárban. A Hive háromféle ügyfél-kategorizálást végez: takarékos ügyfelek, JDBC és ODBC kliensek.

Kaptár szolgáltatások:

Az összes lekérdezés feldolgozására a kaptár számos szolgáltatással rendelkezik. Az összes funkciót a felhasználó könnyen meghatározhatja a kaptárban. Lássuk röviden az összes ilyen szolgáltatást:

  • Parancssori felület (felhasználói felület): Lehetővé teszi a felhasználó és a kaptár közötti interakciót, ez egy alapértelmezett héj. Ez egy grafikus felhasználói felületet biztosít a kaptár parancssorának és a kaptár betekintésének végrehajtásához. Webes felületeket (HWI) is használhatunk a webböngészővel történő lekérdezések és interakciók benyújtására.
  • Kaptár-illesztőprogram: Különféle forrásokból és ügyfelekről kap lekérdezéseket, például a takarékosság-kiszolgálótól, és tárolja, és letölti az ODBC és JDBC illesztőprogramokon, amelyek automatikusan kapcsolódnak a kaptárhoz. Ez a komponens szemantikai elemzést végez, amikor a lekérdezést elemző metastore táblázatait látja. Az illesztőprogram a fordító segítségével segíti az elemzőt, a Tervezőt, a MapReduce jobok végrehajtását és az optimalizálót.
  • Kompilátor: A lekérdezés elemzését és szemantikai folyamatát a fordító hajtja végre. Konvertálja a lekérdezést egy absztrakt szintaxis fává, majd a kompatibilitást újra DAG-ként. Az optimalizáló viszont felosztja a rendelkezésre álló feladatokat. A végrehajtó feladata a feladatok futtatása és a feladatok folyamatos ütemezésének figyelemmel kísérése.
  • Végrehajtó motor: Az összes lekérdezést végrehajtó motor dolgozza fel. A DAG szakasz terveket a motor hajtja végre, amelyek segítenek a rendelkezésre álló szakaszok közötti függőségek kezelésében és a megfelelő összetevőn történő végrehajtásában.
  • Metastore: Központi lerakatként szolgál a metaadatok összes strukturált információjának tárolására, és ez szintén fontos szempont a kaptár számára, mivel olyan információkkal rendelkezik, mint például táblázatok és partíciós részletek, valamint a HDFS fájlok tárolása. Más szavakkal, azt kell mondanunk, hogy a metastore táblázatok névtereként működik. A Metastore külön adatbázisnak tekinthető, amelyet más összetevők is megosztanak. A Metastore két részből áll, úgynevezett service és backlog storage.

A kaptár adatmodellje partíciókra, vödrökre és táblázatokra van felépítve. Mindezek szűrhetők, partíciókulccsal rendelkeznek és a lekérdezés kiértékeléséhez. A kaptárkérdezés a Hadoop kereten működik, nem pedig a hagyományos adatbázison. A kaptárkiszolgáló egy felület egy távoli kliens között, amely a kaptárhoz kérdezi. A végrehajtó motor teljesen be van ágyazva a kaptárkiszolgálóba. Találhat kaptár alkalmazást a gépi tanulásban, az üzleti intelligencia az észlelési folyamatban.

A kaptár munkafolyamata:

A kaptár kétféle üzemmódban működik: interaktív módban és nem interaktív módban. A korábbi mód lehetővé teszi, hogy az összes kaptárparancs közvetlenül a kaptárhéjba kerüljön, míg a későbbi típus konzol módban hajtja végre a kódot. Az adatokat partíciókra osztják, amelyek tovább osztódnak vödrökre. A végrehajtási tervek az összesítésen és az adatok eltorzulásain alapulnak. A kaptár használatának további előnye, hogy egyszerűen feldolgozza a nagy mennyiségű információt, és több felhasználói felülettel rendelkezik.

A fenti ábra alapján bepillantást nyerhetünk a Hadoop rendszerrel történő adatáramlásba a kaptárban.

A lépések a következők:

  1. hajtsa végre a lekérdezést felhasználói felületről
  2. szerezzen egy tervet a vezető feladatok DAG szakaszaiból
  3. lekérheti a metaadat-kérelmet a metatárból
  4. küldjön metaadatokat a fordítóról
  5. visszaadja a tervet a sofőrnek
  6. Végrehajtási terv a végrehajtó motorban
  7. az eredmények lekérése a megfelelő felhasználói lekérdezéshez
  8. az eredmények kétirányú továbbítása
  9. végrehajtó motor feldolgozása HDFS-ben a térkép-csökkentés és letöltés eredményekkel a job tracker által létrehozott adatcsomópontokból. csatlakozóként működik a Hive és a Hadoop között.

A végrehajtó motor feladata a csomópontokkal való kommunikáció, hogy megkapja a táblázatban tárolt információkat. Itt olyan SQL műveleteket hajtanak végre, mint például a létrehozás, a csepp és a módosítás, hogy elérjék a táblázatot.

Következtetés:

Megvizsgáltuk a Hive Architecture-t és azok működési folyamatát, a kaptár alapvetően petabájt mennyiségű adatot hajt végre, és így ez egy adattárház csomag a Hadoop platformon. Mivel a kaptár jó választás a nagy adatmennyiség kezelésére, elősegíti az adatok előkészítését az SQL interfész útmutatóval a MapReduce problémák megoldásában. Az Apache kaptár egy ETL eszköz a strukturált adatok feldolgozásához. A kaptár-építészet működésének ismerete segít a vállalati embereknek megérteni a kaptár működésének alapelveit, és jó kezdetben van a kaptár programozásával.

Ajánlott cikkek:

Ez egy útmutató a kaptár építészetéhez. Itt a kaptár architektúráját, a különféle összetevőit és a kaptár munkafolyamatait tárgyaljuk. a következő cikkeket is megnézheti további információkért -

  1. Hadoop építészet
  2. Ruby felhasználás
  3. Mi az a C ++?
  4. Mi a MySQL adatbázis?
  5. Kaptárrendelés