Mi a MapReduce a Hadoopban?

A MapReduce a Hadoop keretrendszere, amelyet hatalmas mennyiségű adat párhuzamos feldolgozására használnak az árucikk-hardver nagy klaszterein. A Hadoop egy nyílt forrású projekt, amelyet az Apache szoftver alapítvány biztosít. A Hadoop gyors és megbízható elemzést végzett mind a strukturált, mind a strukturálatlan adatokra vonatkozóan. A Hadoop nagyon nagy adatkészleteket képes kezelni, amelyek strukturált és strukturálatlan adatok is lehetnek, amelyek valójában társulnak a nagy adatokhoz. Hadoop keretrendszer, amely lehetővé teszi az alkalmazás számára az adatok elosztott formában történő tárolását és nagy adatkészletek feldolgozását a számítógépcsoportokon keresztül egy egyszerű programozási modell felhasználásával, azaz a Map Reduce funkciót, tehát más szóval a Map Reduce-t hívhatjuk meg a feldolgozáshoz használt programozási modellként. óriási mennyiségű adat oszlik meg a klaszterek száma szerint. A Hadoop az egyes kiszolgálóktól több ezer számítási csomópontig vagy gépen bővíthető, amelyeket mindegyik a számításhoz és tároláshoz használ.

Az Apache Hadoop projekt számos alprojektből áll:

  • Hadoop Common: A Hadoop Common, amelynek olyan segédprogramjai vannak, amelyek támogatják a többi Hadoop alprojektjét.
  • Hadoop elosztott fájlrendszer (HDFS): A Hadoop elosztott fájlrendszere biztosítja az elosztott fájl hozzáférését az alkalmazás adataihoz.
  • Hadoop MapReduce: A Hadoop MapReduce szoftverkeret nagy elosztott adatkészletek számítási fürtökön történő feldolgozására.
  • Hadoop YARN: A Hadoop YARN egy erőforrás-kezelési és -ütemezési keret.

Hogyan könnyíti meg a MapReduce a Hadoopban a munkát?

A MapReduce megkönnyíti az adatfeldolgozás méretezését száz vagy ezer fürtgép között. A MapReduce modell valójában két lépésben működik, az úgynevezett térkép és redukció, a feldolgozás pedig térképező és reduktor. Ha egyszer megírjuk egy MapReduce alkalmazást, akkor az alkalmazás méretezése többszörös vagy akár több ezer klaszter többszörös futtatásához csupán konfigurációs változás. A MapReduce modell ez a tulajdonsága sok programozót vonzott rá.

Hogyan működik a MapReduce a Hadoopban?

A MapReduce program elsősorban négy lépésből áll:

  1. A bemenet osztódik
  2. Térkép
  3. Keverés
  4. csökkentse

Most minden lépésben meglátjuk, hogyan működnek.

1. Térkép lépés-

Ez a lépés a bemeneti osztási lépés és a Térkép lépés kombinációja. A Térkép lépésben a forrásfájlt soronként továbbítják. Mielőtt a bevitel átjutna a Térkép funkció feladatba, a bemenetet felosztják a kicsi rögzített méretre, az úgynevezett Bemeneti osztásokra. A bemeneti felosztás egy bemeneti rész, amelyet egyetlen térkép felhasználhat. A Térkép lépésben minden megosztott adatot továbbít a térképező funkcióhoz, majd a térképező funkció feldolgozza az adatokat, majd kiadja az értékeket. Általában a térkép vagy a térképkészítő job bemeneti adatai fájl vagy könyvtár formájában vannak, amelyet a Hadoop fájlrendszerben (HDFS) tárolnak.

2. Csökkentse a lépést

Ez a lépés az Shuffle lépés és a Reduce kombinációja. A redukciós funkció vagy a reduktor feladata a térkép funkció eredményeként kapott adatokat veszi. A funkció csökkentésével végzett feldolgozás után új eredménykészlet jön létre, amely újra tárolódik a HDFS-be.

A Hadoop keretrendszerében nem biztos, hogy minden klaszter végrehajtja-e a feladatot a Térkép vagy a Kicsinyítés, illetve a Térkép és a Kicsinyítés funkcióval együtt. Ezért a Térkép és Kicsinyítés feladatokat a fürt megfelelő kiszolgálóira kell elküldeni. Maga a Hadoop keretrendszer kezeli az összes feladatot a kiadás, a munka befejezésének ellenőrzése, az adatok HDFS-ből történő letöltése, az adatok másolása a csomópontok fürtébe és így tovább. A Hadoopban a számítások főként csomópontokon zajlanak, és magában a csomópontban lévő adatokkal, ami csökkenti a hálózati forgalmat.

Tehát a MapReduce keret nagyon hasznos a Hadoop keretben.

A MapReduce előnyei

  1. Méretezhetőség - A MapReduce, ami a Hadoop-ot nagyon skálázhatóvá teszi, mivel lehetővé teszi nagy adatkészletek tárolását formában, több szerverre elosztva. Mivel ez többszörösre oszlik, így párhuzamosan is működhet.
  2. Költséghatékony megoldás - a MapReduce nagyon költséghatékony megoldást kínál azoknak a vállalkozásoknak, amelyeknek a növekvő adatokat tárolni és az adatokat nagyon költséghatékony módon kell feldolgozniuk, ami a mai üzleti igény.
  3. Rugalmasság - A MapReduce nagyon rugalmasvá teszi a Hadoop-ot a különféle adatforrások és még a különféle típusú adatok, például strukturált vagy strukturálatlan adatok esetén is. Ezért nagyon rugalmassá teszi a strukturált vagy nem strukturált adatok elérését és feldolgozását.
  4. Gyors - Mint a Hadoop adattárolási adatai az elosztott fájlrendszerben, amely által az adatok tárolása a klaszter helyi lemezén és a MapReduce programok általában ugyanabban a kiszolgálón helyezkednek el, ami lehetővé teszi az adatok gyorsabb feldolgozását, mivel nincs szükség hozzáférésre a többi szerver adatai.
  5. Párhuzamos feldolgozás - Mivel a Hadoop tárolási adatai az elosztott fájlrendszerben és a MapReduce program működése olyan, hogy megosztja a feladatok feladattérképet és csökkentést, és amelyek párhuzamosan végrehajthatók. És a párhuzamos végrehajtás miatt is csökkenti a teljes futási időt.

szakértelem

A MapReduce használatához a Hadoop alkalmazásban megkövetelt ismeretek a Java jó programozási ismereteivel (kötelező), a Linux operációs rendszerrel és az SQL lekérdezések ismeretével vannak.

A Hadoop MapReduce hatóköre

A Hadoopi MapReduce gyorsan növekvő mező, mivel a nagy adatmező növekszik, így a Hadoopban a MapReduce hatóköre nagyon ígéretes a jövőben, mivel a strukturált és nem strukturált adatok mennyisége napról napra exponenciálisan növekszik. A közösségi média platformjai sok strukturálatlan adatot generálnak, amelyek felhasználhatók az egyes területekről való valódi betekintés érdekében.

Következtetés

  • A MapReduce a Hadoop keretrendszere, amelyet hatalmas mennyiségű adat párhuzamos feldolgozására használnak az árucikk-hardver nagy klaszterein.
  • Az Apache Hadoop projekt számos alprojektből áll: Hadoop Common, Hadoop Distributed File System (HDFS), Hadoop MapReduce, Hadoop YARN.
  • A térképi lépésben minden megosztott adatot továbbítunk a térképező funkcióhoz, majd a térképező funkció feldolgozza az adatokat, majd kiadja az értékeket.
  • A redukciós funkció vagy a reduktor feladata a térkép funkció eredményeként kapott adatokat veszi.
  • A MapReduce előnyei a skálázhatóság, a költséghatékony megoldás, a rugalmasság, a gyors és a párhuzamos feldolgozás között vannak felsorolva.

Ajánlott cikkek

Ez egy útmutató a Hadoop Mi a MapReduce oldalához. Itt megvitattuk a Hadoopban a MapReduce alkotóelemeit, működését, készségeit, karrier-növekedését és előnyeit. További információkért áttekintheti a többi javasolt cikket is

  1. Mi az algoritmus?
  2. Különbségek a Hadoop és a MapReduce között
  3. Mi az Azure?
  4. Mi a Big Data Technology?
  5. Hogyan működik a MapReduce?

Kategória: