Tudja meg a Hadoop és a MapReduce közötti legjobb 5 különbséget

Különbség a Hadoop és a MapReduce között

A Hadoop gyökerei a 2002-es évre nyúlnak vissza, amikor a Dough Cutting Nutch nevű nyílt forráskódú projekten dolgozott (amelyet a weboldalak indexelésére és az indexelt weboldalak felhasználására használtak a kereséshez, ugyanaz, mint a Google). A méretezhetőségi problémákkal szembesült a tárolás és a számítás szempontjából egyaránt. 2003-ban a google közzétette a GFS-t (google fájlrendszer), 2004-ben a Nutch létrehozta az NDFS-t (Nutch elosztott fájlrendszer). Miután a Google bejelentette, hogy a MapReduce számítási agyuk a rendezési algoritmusuk mögött, Dough képes volt a Nutch-ot NDFS-en futtatni, és a MapReduce-t 2005-ben, a Hadoop pedig 2006-ban született.

Hadoop és MapReduce! A Hadoop olyan nyílt forráskódú projektek, mint például a Hadoop Common, a Hadoop elosztott fájlrendszere (HDFS), a Hadoop YARN, a Hadoop MapReduce, ökoszisztéma. A Hadoop mint olyan nyílt forráskódú keret a hatalmas adatkészletek tárolására és feldolgozására. A tárolást a HDFS végzi, a feldolgozást a MapReduce végzi. A MapReduce viszont egy programozási modell, amely lehetővé teszi a Hadoop-ban tárolt hatalmas adatok feldolgozását. Ha megértjük a Hadoop és a MapReduce részleteit ebben a bejegyzésben.

Head-to-Head összehasonlítás a Hadoop Vs MapReduce (Infographics) között

Az alábbiakban a Hadoop és a MapReduce közötti öt legjobb összehasonlítás található

Főbb különbségek a Hadoop és a MapReduce között

Az alábbiakban látható a különbség a Hadoop és a MapReduce között

Ha azt akarjuk, hogy a Hadoop és a MapReduce megkülönböztesse a laikus ember fogalmát, akkor azt mondhatjuk, hogy a Hadoop olyan, mint az autó, ahol minden van, amire szükség van a távolságok megtételéhez, de a MapReduce olyan, mint az autó motorja, tehát az autó nélkül a motor képes ' t létezik, de az autó külseje megváltozhat (más DFS (elosztott fájlrendszerek)).
A Hadoop mögöttes gondolata az, hogy az adatoknak megbízhatóaknak és méretezhetőknek, megbízhatóaknak kell lenniük, mivel katasztrófa vagy hálózati hiba esetén az adatoknak állandóan rendelkezésre kell állniuk, és ezt a Hadoop keretrendszernek a névcsomópontok és az adatcsomópontok segítségével kell elérnie.
Az adatcsomópontok és a névcsomópontok néhány alapvető gondolata

Az adatcsomópont és a névcsomópont architektúrájának alapvető gondolata a master / slave architektúra, amelyben az egyik tárolja az adatok helyét (névcsomópont), a másik pedig maga az adatokat (adatcsomópont). Az adatokat 64 MB darabra osztják, és az adatblokkokba menti, és ezek nyilvántartását a Név csomópontban tartják fenn. A megbízhatóság érdekében az adatokat alapértelmezés szerint háromszor replikálják. A méretezhetőségről beszélve, a hardver útközben is növelhető, és ez hozzájárul a tárolás növeléséhez és a rendszer méretezhetőségéhez.
A MapReduce-hez most három szakasz van
1. Térkép fázis
2. Shuffle Phase
3. Csökkentse a fázist

Vegyünk egy példát, hogy jobban megértsük. A MapReduce, amely egy programozási keret, szintén tartalmaz egy hello world programot, de a MapReduce-ban szószám-programként ismert.

A Word Count program megadja a szó kulcs-érték pároit és gyakoriságát egy bekezdésben / cikkben vagy bármilyen adatforrásban. Ahhoz, hogy könnyen megértsük, vegyük az alábbiakat példaként.

Az adatkészletben láthatjuk, hogy három szó van busz, autó és vonat. Az Input elnevezésű oszlopnak olyan adatai vannak, mint ahogyan az adatkészletben van, az Output oszlopban azok az adatok vannak a közbenső szakaszban, ahol a megoszlás zajlik.

Itt vesszük az osztót vesszőként (, ) a szavak felosztására. Az osztó lehet vessző vagy szóköz, vagy új sor stb.

Bemenet

Adatok halmaza

caR, CAR, autó, busz, vonatok, busz, vonat, busz, vonatok, busz, buS, autó, busz, autó, vonat, autó, busz, autó

Kimenet

Konvertálás másik adatkészletre

(Kulcs érték)

(1. busz), (autó, 1), (busz, 1), (autó, 1), (vonat, 1),

(autó, 1), (busz, 1), (autó, 1), (vonat, 1), (busz, 1),

(Vonatok, 1), (BUS, 1), (buS, 1), (caR, 1), (CAR, 1),

(autó, 1), (BUS, 1), (vonat, 1)

És a fenti közbenső szakasz kimenete a reduktornak adódik, az alábbiakban pedig a program végső kimenete.

Bemenet

(Térkép funkció kimenete)

Tuples készlet

(1. busz), (autó, 1), (busz, 1), (autó, 1), (vonat, 1),

(autó, 1), (busz, 1), (autó, 1), (vonat, 1), (busz, 1),

(Vonatok, 1), (BUS, 1), (buS, 1), (caR, 1), (CAR, 1),

(autó, 1), (BUS, 1), (vonat, 1)

Kimenet

Átalakítja egy kisebb készletkészletgé

(BUS, 7),

(CAR, 7),

(Vonat, 4)

A Hadoop egyik legfontosabb különbsége a többi nagy adatfeldolgozási kerettel szemben az, hogy a Hadoop a kódot (MapReduce kód) elküldi a fürtöknek, ahol az adatokat tárolják, nem pedig az adatokat kódba küldi, mivel az adatkészletek TB-ben vagy néha PB-ben jelennek meg. unalmas feladat lesz.

Hadoop vs MapReduce összehasonlító táblázat

Az összehasonlítás alapja	Hadoop	MapReduce
Jelentés	A „Hadoop” név Doug Cutting fia játék elefántjának a neve. Ezt a projektet Hadoop-nak nevezte, mivel könnyű volt ezt kimondani.	A „MapReduce” név a maga a funkcionalitás alapján jött létre, amely leképezi és csökkenti a kulcs-érték párokat.
Koncepció	Az Apache Hadoop egy ökoszisztéma, amely megbízható, skálázható és elosztott számítástechnikára kész környezetet biztosít.	A MapReduce a projekt almodulja, amely programozási modell, és hatalmas adatkészletek feldolgozására szolgál, amely a HDFS-en (Hadoop elosztott fájlrendszere) található.
Előfeltétele	A Hadoop a HDFS (Hadoop Distributed File System) eszközön fut.	A MapReduce futtatható HDFS / GFS / NDFS vagy bármilyen más elosztott fájlrendszeren, például MapR-FS
Nyelv	A Hadoop az összes modul gyűjteménye, ezért tartalmazhat más programozási / szkriptnyelveket is	A MapReduce alapvetően Java programozási nyelven van írva
Keretrendszer	A Hadoop nemcsak olyan tárolási kerettel rendelkezik, amely az adatokat tárolja, hanem a névcsomópont és az adatcsomópont létrehozásához is rendelkezik más keretekkel, amelyek magukban foglalják a MapReduce-t.	A MapReduce egy programozási keret, amely kulcs, érték leképezést használ az adatok rendezéséhez / feldolgozásához

Az alábbi ábra segít megkülönböztetni a MapReduce-t a Hadoop-tól.

MapReduce keretrendszer

Amint a fenti képen látható, a MapReduce elosztott feldolgozási keret, míg a Hadoop az összes keret gyűjteménye.

Következtetés - Hadoop vs MapReduce

A Hadoop nyílt forráskódú programja népszerűvé vált, mivel ingyenesen használható volt, és a programozók igényeik szerint megváltoztathatják a kódot. A Hadoop ökoszisztémát az elmúlt években folyamatosan fejlesztették ki annak érdekében, hogy az ökoszisztéma a lehető legtöbb hibamentes legyen.

A világ folyamatosan változó igényei mellett a technológia gyorsan megváltozik, és nehéz lesz nyomon követni a változásokat. A hónap során generált adatok megduplázódnak / megháromszorozódnak, amikor elolvassa ezt a cikket, és az adatkészletek gyorsabb feldolgozásának szükségessége sok más programozási kerethez vezetett, például MapReduce 2, Spark stb.

Ajánlott cikkek

Ez egy útmutató a Hadoop vs MapReduce, azok jelentésének, a fej-fej összehasonlításnak, a legfontosabb különbségeknek, az összehasonlító táblázatnak és a következtetéseknek. A következő cikkeket is megnézheti további információkért -