Mi a MapReduce?
A MapReduce programozási keretrendszer elosztott és párhuzamos feldolgozás végrehajtására nagy adatkészletekkel elosztott környezetben. A Térkép és a Kicsinyítés a térképcsökkentő program két különálló feladata. A térképfázis elején az adatokat kiolvassák, és kulcs-érték párokat generálnak belőlük. Ezután ezeket a kulcs-érték párokat beépítjük a redukáló feladatba, amely a kulcs-érték pár adatait a végső kimenetet előállító kisebb értékhalmazba aggregálja. Így a redukciós feladatot mindig végrehajtják a térképfeladat elvégzése után. Nagyon könnyű az adatfeldolgozás méretezése több számítási csomópont között.
Nevezetesen három szakasz van a programban:
- Térkép színpad
- Shuffle Stage
- Csökkentse a színpadot
Példa :
WordCount probléma-
Tegyük fel, hogy alább vannak a bemeneti adatok:
- Mike Jon Jake
- Paul Paul Jake
- Mike Paul Jon
1. A fenti adatok három bemeneti részre oszlanak, az alábbiak szerint:
- Mike Jon Jake
- Paul Paul Jake
- Mike Paul Jon
2. Ezután ezeket az adatokat betápláljuk a következő fázisba, az úgynevezett leképezési fázisba.
Tehát az első sorhoz (Mike Jon Jake) 3 kulcs-értékpár van - Mike, 1; Jon, 1; Jake, 1.
Az alábbiakban látható a leképezési szakasz eredménye:
- Mike, 1
Jon, 1
Jake 1 - Paul, 1
Paul, 1
Jake 1 - Mike, 1
Paul, 1
Jon, 1
3. A fenti adatokat ezután betáplálják a következő fázisba, amelyet rendezési és véletlenszerű szakasznak hívnak.
Ebben a fázisban az adatokat egyedi kulcsokba csoportosítják és rendezik. Az alábbiakban látható a válogatás és a keverés fázisa:
- Jake, (1, 1)
- Jon, (1, 1)
- Mike, (1, 1)
- Paul, (1, 1, 1)
4. A fenti adatokat ezután továbbvisszük a következő fázisba, az úgynevezett redukciós fázisba.
Itt összesítik a kulcsfontosságú értékeket, és megszámolják az 1-ek számát. Az alábbiakban látható a redukciós szakasz eredménye:
- Jake 2
- Jon, 2
- Mike, 2
- Paul, 3
A MapReduce előnyei:
Itt megismerhetjük a MapReduce programozási keretrendszer néhány fontos előnyeit,
1. Skálázhatóság
A Hadoop, mint egy nagyon skálázható platform, nagyrészt annak a képessége miatt, hogy nagy adatsort tárol és terjeszt számos szerverre. Az itt használt szerverek meglehetősen olcsók és párhuzamosan működhetnek. További kiszolgálók hozzáadásával javítható a rendszer feldolgozási teljesítménye. A hagyományos relációs adatbázis-kezelő rendszerek vagy az RDBMS nem voltak képesek méretezni az óriási adatkészletek feldolgozását.
2. Rugalmasság
A Hadoop MapReduce programozási modell rugalmasságot kínál a struktúra vagy a nem strukturált adatok feldolgozására különféle üzleti szervezetek számára, akik felhasználhatják az adatokat és különféle típusú adatokra tudnak működni. Így üzleti értéket generálhatnak azokból az adatokból, amelyek értelmesek és hasznosak az üzleti szervezetek számára elemzés céljából. Függetlenül attól, hogy az adatforrás legyen-e közösségi média, kattintási adatfolyam, e-mail stb., A Hadoop támogatja az adatfeldolgozáshoz használt sok nyelv használatát. Mindezek mellett a Hadoop MapReduce programozás számos alkalmazást lehetővé tesz, például marketing elemzést, ajánlási rendszert, adattárházat és csalások észlelését.
3. Biztonság és hitelesítés
Ha valaki kívülálló személy hozzáférést kap a szervezet összes adatához, és több adat petatabátájával manipulálhat, akkor az súlyos károkat okozhat az üzleti szervezet számára működő üzlet szempontjából. Ezt a kockázatot a MapReduce programozási modell kezeli az HDD-kkel és a HBase-vel való együttműködés révén, amely lehetővé teszi a magas biztonságot, és csak a jóváhagyott felhasználó működhet a rendszerben tárolt adatokkal.
4. Költséghatékony megoldás
Egy ilyen rendszer nagyon skálázható, és nagyon költséghatékony megoldás egy olyan üzleti modell számára, amelyben olyan adatok tárolására van szükség, amelyek exponenciálisan növekednek a mai napi igényeknél. A régi, hagyományos relációs adatbázis-kezelő rendszerek esetében a skálázhatóság szempontjából nem volt olyan egyszerű az adatok feldolgozása, mint a Hadoop rendszernél. Ilyen esetekben a vállalkozást arra kényszerítették, hogy csökkentsék az adatokat, és tovább hajtsák végre az osztályozást azon feltevések alapján, amelyek szerint bizonyos adatok értékesek lehetnek a szervezet számára, és ezáltal eltávolítják a nyers adatokat. Itt jön a Hadoop méretezési architektúra a MapReduce programozással.
5. Gyors
A Hadoop elosztott fájlrendszere A HDFS egy kulcsfontosságú szolgáltatás, amelyet a Hadoop-ban használnak, amely alapvetően egy térképező rendszert valósít meg az adatok fürtben történő meghatározására. A MapReduce programozás az adatfeldolgozáshoz használt eszköz, ugyanabban a szerverben található, amely lehetővé teszi az adatok gyorsabb feldolgozását. A Hadoop MapReduce nagy mennyiségű adatot dolgoz fel, strukturálatlanul vagy félig strukturálva rövidebb idő alatt.
6. A programozás egyszerű modellje
A MapReduce programozása egy nagyon egyszerű programozási modelln alapul, amely alapvetően lehetővé teszi a programozók számára egy MapReduce program kidolgozását, amely még sok más feladatot képes kezelni könnyebben és hatékonyságban. A MapReduce programozási modell Java nyelven írva nagyon népszerű és nagyon könnyen megtanulható. Az emberek könnyen megtanulhatják az üzleti igényeiknek megfelelő Java programozási és adatfeldolgozási modellt.
7. Párhuzamos feldolgozás
A programozási modell a feladatokat oly módon osztja fel, hogy az lehetővé tegye a független feladat párhuzamos végrehajtását. Ezért ez a párhuzamos feldolgozás megkönnyíti a folyamatokat az egyes feladatok elvégzésében, ami sokkal rövidebb idő alatt segíti a program futtatását.
8. Rendelkezésre állás és rugalmasság
A Hadoop MapReduce programozási modell feldolgozza az adatokat úgy, hogy az adatokat elküldi az egyes csomópontoknak, majd továbbítja ugyanazt az adatkészletet a hálózat többi csomópontjára. Ennek eredményeként egy adott csomópont meghibásodása esetén ugyanaz az adatmásolat továbbra is rendelkezésre áll a többi csomóponton, amelyeket bármikor felhasználhatunk, az adatok elérhetőségének biztosítása érdekében.
Ilyen módon a Hadoop hibatűrő. Ez a Hadoop MapReduce által kínált egyedülálló funkcionalitás, amely képes gyorsan felismerni a hibát és gyors javítást alkalmazni az automatikus helyreállítási megoldáshoz.
A világon sok olyan társaság működik, amely a térkép-csökkentést használja, például a facebook, a Yahoo stb.
Következtetés - Mi a MapReduce
A Map redukciónak nagy a képessége, ha nagy adatfeldolgozásról van szó a hagyományos RDBMS rendszerekhez képest. Sok szervezet már felismerte annak potenciálját, és áttér az új technológiára. Nyilvánvaló, hogy a térkép-redukciónak nagyon hosszú ideje van egy nagy adatfeldolgozó platformon.
Ajánlott cikkek
Ez egy útmutató arra, ami a MapReduce. Itt megvitattuk a MapReduce alapfogalmát, példáit és előnyeit. A további javasolt cikkeken keresztül további információkat is megtudhat -
- Mi a JavaScript?
- A MapReduce interjúval kapcsolatos kérdései
- Mi a Python?
- Hogyan működik a MapReduce?
- Mi a nagy adat és Hadoop?