Különbség a HDFS és a HBase között
HDFS (Hadoop elosztott fájlrendszer) A HDFS lehetővé teszi hatalmas mennyiségű adat tárolását elosztott és redundáns módon, amely az árucikkek hardverén fut. A HBase (Hadoop adatbázis) egy NoSQL adatbázis, amely a Hadoop fürt tetején fut
Vessen egy pillantást a HDFS és a HBase komponenseire és architektúrájára:
A HDFS komponensei
- NameNode
- DataNode
NameNode: A NameNode a rendszer mesterének tekinthető. Fenntartja a fájlrendszer faját és a rendszerben lévő összes fájl és könyvtár metaadatait. A metaadat-adatok tárolására két fájlnévtérkép és „szerkesztési napló” található. A Namenode ismeri az összes adatcsomópontot, amely egy adott fájlhoz tartozó adatblokkokat tartalmaz, azonban nem tárolja folyamatosan a blokkhelyeket. Ezt az információt minden alkalommal rekonstruálják az adatcsomópontok, amikor a rendszer elindul.
DataNode: A DataNodes olyan rabszolgák, akik egy fürtön vannak minden gépen és biztosítják a tényleges tárolást. Feladata az ügyfelek igényeinek kiszolgálása, olvasása és írása.
HDFS architektúra: -
A HBase alkotóelemei: -
- Hbase mester
- Region Server
- Vidék
- Állatgondozó
HMaster : Ez a Master Server a HBase architektúrában. A megfigyelő ügynök felügyeli az összes régiószervert, és a HMaster felelőssége, hogy az interfész legyen az összes metaadatváltozáshoz. A NameNode oldalon fut.
Régiók kiszolgálói: Amikor a Régiókiszolgáló írásokat ír és elolvassa az ügyféltől érkező kéréseket, akkor a kérést egy adott régióhoz rendeli, ahol a tényleges oszlopcsalád található. Az ügyfél azonban közvetlenül kapcsolatba léphet a regionális kiszolgálókkal, nincs szükség a HMaster kötelező engedélyére az ügyfél számára a regionális kiszolgálókkal való kommunikációhoz. Az ügyfél HMaster segítségre van szüksége, ha a metaadatokhoz és a sémaváltozásokhoz kapcsolódó műveletek szükségesek.
Régiók: A régiók a HBase klaszter alapvető építőelemei, amely a táblák eloszlásából áll és oszlopcsaládokból áll. Több tárolót tartalmaz, minden oszlopcsaládhoz egyet. Főleg két összetevőből áll, amelyek a Memstore és a Hfile.
ZooKeeper: Az Hbase-ben a Zookeeper egy központi megfigyelő szerver, amely karbantartja a konfigurációs információkat és elosztott szinkronizálást biztosít. Az elosztott szinkronizálás a fürtön futó elosztott alkalmazások elérése, a csomópontok közötti koordinációs szolgáltatások biztosításáért. Ha az ügyfél a régiókkal kíván kommunikálni, akkor a kiszolgáló ügyfélének először a ZooKeeperhez kell fordulnia.
HBase architektúra: - A HBase a Hadoop ökoszisztéma része.
Mélységbeli modell: -
Összehasonlítás a HDFS és a HBase között (Infographics)
Az alábbiakban a 14 legjobb összehasonlítás található a HDFS és a HBase között
Főbb különbségek a HDFS és a HBase között
Az alábbiakban a HDFS és a HBase közötti különbség a következő
- A HDFS egy elosztott fájlrendszer, amely nagy fájlok tárolására alkalmas. De a HBase viszont a HDFS tetejére épül és gyors rekordkereséseket (és frissítéseket) nyújt nagy táblákhoz.
- A HDFS a GFS fájlrendszeren alapul. De a HBase el van osztva - HDFS-t használ tároláshoz, oszlop - orientált, többdimenziós (verziók) és tárolórendszert
- A HDFS a HIVE egyik elemét képezi a quire nyelvhez, amely a HIVE Query Language (HQL), de a Hbase NEM egy SQL adatbázis, ami azt jelenti: - Nincs csatlakozás, nincs lekérdezőprogram, nincs adattípus, nincs (átkozott) SQL, nincs séma és nincs szükség DBA-ra.
- Mivel a HDFS elosztott tárolóegység, ezért a használt parancsokon kívül nincs más speciális nyelv, mint például a UNIX aroma, például: - Hadoop dfs -mkdir / foodir
- hadoop dfs -cat /foodir/myfile.txt
- hadoop dfs -rm /foodir/myfile.txt
De másrészt a Hbase-nek megvan a saját felülete Hbase Shell formájában, például:
- hbase (main): 003: 0> hozzon létre 'teszt', 'cf'
0 sor 1, 2200 másodperc alatt
- hbase (main): 004: 0> tegye a 'teszt', '1. sor', 'cf: a', 'érték1'
0 sor 0, 0560 másodperc alatt
- hbase (main): 005: 0> tegye a 'teszt', '2. sor', 'cf: b', 'érték2'
0 sor 0, 0370 másodperc alatt
- hbase (main): 006: 0> tegye a 'teszt', '3. sor', 'cf: c', 'érték3'
0 sor 0, 0450 másodperc alatt
- hbase (main): 007: 0> szkennelés 'teszt'
RON OSZLOP + CELL
1. sor oszlop = vö .: a, időbélyeg = 1288380727188, érték = érték1
2. sor oszlop = vö .: b, időbélyeg = 1288380738440, érték = érték2
3. sor oszlop = vö .: c, időbélyeg = 1288380747365, érték = érték3
3 sor 0, 0590 másodperc alatt
HDFS vs HBase összehasonlító táblázat
Az összehasonlítás alapja | HDFS | HBase |
Miért van szükségünk rájuk? | Hatalmas adatkészleteket kell feldolgozni a nagy számítógépes fürtökön | A HBase egy elosztott oszlop-orientált adattár, amely a HDFS tetejére épül |
A csomópontok minden nap meghibásodnak | a) A kudarc várható, nem pedig kivételes b) A klaszterben lévő csomópontok száma nem állandó | A HBase egy Apache nyílt forráskódú projekt, amelynek célja a Hadoop Distributed Computing tárolása |
Írj mintát | Csak függelék | Véletlenszerű írás, tömeges növekményes |
Olvassa el a mintát | Teljes tábla, partíciós tábla vizsgálata | Véletlenszerűen olvasható, kis hatótávolságú vagy asztali vizsgálat |
W / R minta | A HDFS ideálisan használható egyszeri és többszörös olvasási esetekben | A HBase ideális a HDFS-ben tárolt adatok véletlenszerű írására és olvasására. |
Hive (SQL) teljesítmény | Viszonylag nagyon jó | 4-5-szer lassabb |
Strukturált tárolás | Csináld magad, vagy TSV, vagy szekvenciafájlt | Ritka oszlopcsalád-adatmodell |
Maximális adatméret | Általában körülbelül 30 PB közelében lehet tárolni | Kb. 1 PB körül |
Dinamikus változások | A HDFS merev architektúrája nem engedélyezi a változtatásokat. Ez nem segíti elő a dinamikus tárolást. | A HBase lehetővé teszi a dinamikus változásokat, és önmagában is használható. |
Az adatok terjesztése | Az adatokat elosztott módon tárolják a fürt csomópontjai között. Az adatokat blokkokra osztják, majd a HDFS-fürtben lévő csomópontokon tárolják. | A táblázatokat a fürtön régiók útján osztják el, és az adatok növekedésével a régiók automatikusan fel vannak osztva és újra eloszlanak |
Adattárolás | Az összes adatot kisméretű fájlok formájában tárolják, és az összes fájl tipikus mérete 64 MB (ez az újabb verzió 128 MB). | Az összes adatot táblák, sorok és oszlopok formájában tárolják |
Adatmodellezés | A HDFS-ben a Map Reduce technikát használjuk, amely a fájlokat kulcs-érték párokba osztja | A HBase a Google Bigtable modelljén alapul, amely kulcs-érték párokat is használ |
Tevékenységek | Magas késleltetési mûveletekkel rendelkezik | Alacsony késleltetési mûveletekkel rendelkezik |
Megközelíthetőség | Elsősorban az MR (Map Reduce) munkákkal érhető el | Hozzáférhető shell parancsok, Java kliens API, REST, Avro vagy Thrift kliens API-k segítségével |
Következtetés - HDFS vs HBase
Összességében elmondható, hogy mind a HDFS, mind a HBase csodálatos technológiával rendelkezik. Mind a HDFS, mind a HBase azért jöttek létre, hogy a Big Data tárolását megkönnyítsék és elérjék őket. Mind a HDFS, mind a HBase egymás mellett haladnak, mivel az egyik HDFS tárolja az adatokat, a másik pedig a HBase sémát készít az adatokra vonatkozóan annak tárolására és későbbi lekérdezésére az ügyfél használatához.
A Hbase az Apache Alapítványban elérhető NoSql oszlop-orientált elosztott adatbázisok egyike. A HBase nagyobb teljesítményt nyújt, ha kevesebb rekordot szeretne lekérni, nem pedig a Hadoop vagy a Hive. Nagyon könnyű keresni az adott bemeneti értéket, mert támogatja az indexelést, a tranzakciókat és a frissítést.
Online valós idejű elemzéseket végezhetünk a Hadase ökoszisztémájához integrált Hbase segítségével. Automatikusan és konfigurálható adatkészletekhez vagy táblákhoz történő shardinggal rendelkezik, és nyugodt API-kat biztosít a MapReduce feladatok végrehajtásához.
Ajánlott cikk
Ez egy útmutató a HDFS vs HBase, azok jelentésének, a fej közötti összehasonlításnak, a legfontosabb különbségeknek, az összehasonlító táblázatnak és a következtetéseknek. ebben a cikkben minden hasznos különbség megtalálható a HDFS és a HBase között. További tudnivalókat a következő cikkekben találhat meg -
- HBase vs Cassandra - melyik a jobb (infographics)
- Tudja meg a 7 legjobb különbséget a Hadoop és a HBase között
- Az Apache Hive és az Apache HBase 12 legfontosabb összehasonlítása (Infographics)