Bevezetés az AWS EMR-be

Az AWS EMR számos olyan funkciót kínál, amelyek megkönnyítik számunkra a dolgot, néhány technológia:

  1. Amazon EC2
  2. Amazon RDS
  3. Amazon S3
  4. Amazon CloudFront
  5. Amazon Auto Scaling
  6. Amazon Lambda
  7. Amazon vöröseltolódás
  8. Amazon Elastic MapReduce (EMR)

Az AWS EMR egyik fő szolgáltatása, amivel foglalkozni fogunk, az Amazon EMR.

Az EMR, az Elastic Map Reduce elnevezésű egyszerű és megközelíthető módszer a nagyobb adatdarabok feldolgozására. Képzeljünk el egy nagy adatforgatókönyvet, ahol hatalmas mennyiségű adat van, és egy sor műveletet hajtunk végre rajtuk, mondjuk, hogy egy Map-Reduce feladat fut, a Bigdata alkalmazás egyik fő problémája a program hangolása, mi gyakran nehézséget okoz a program finomhangolása oly módon, hogy a kiosztott erőforrásokat megfelelően felhasználják. A fenti hangolási tényező miatt a feldolgozáshoz szükséges idő fokozatosan növekszik. Elasztikus térkép Csökkentse az Amazon által nyújtott szolgáltatást, egy olyan webszolgáltatás, amely keretet biztosít, amely költséghatékony, gyors és biztonságos módon kezeli a nagy adatfeldolgozáshoz szükséges összes szolgáltatást. A fürt létrehozásától az adatok különböző példányok közötti terjesztéséig mindezek a dolgok egyszerűen kezelhetők az Amazon EMR segítségével. Az itt igénybe vett szolgáltatások azt jelentik, hogy a rendelkezésünkre álló adatok alapján ellenőrizhetjük a számokat, amelyek költséghatékonyak és méretezhetők.

Az AWS EMR használatának okai

Tehát miért használja az AMR, mi teszi jobbá a többitől? Gyakran szembesülünk egy nagyon alapvető problémával, amikor nem képesek allokálni a fürtön keresztül rendelkezésre álló összes erőforrást egyetlen alkalmazásra sem. Az AMAZON EMR gondoskodik ezekről a problémákról, és az adatok nagysága és az alkalmazás igénye alapján allokálja a szükséges erőforrásokat. Emellett, hogy rugalmas jellegű, ennek megfelelően megváltoztathatjuk. Az EMR hatalmas alkalmazás támogatást nyújt, legyen az Hadoop, Spark, HBase, amely megkönnyíti az adatfeldolgozást. Gyorsan és költséghatékonyan támogatja a különféle ETL műveleteket. Használható az MLIB-hez a Spark-ban is. Különböző gépi tanulási algoritmusokat tudunk végrehajtani benne. Legyen szó kötegelt adatokról vagy az adatok valós idejű adatfolyamáról, az EMR képes mindkét típusú adatot megszervezni és feldolgozni.

Az AWS EMR működése

Most nézzük meg az Amazon EMR-fürt ezen diagramját, és megpróbáljuk megérteni, hogy valójában hogyan működik:

Az alábbi ábra a belső EMR klaszter-eloszlását szemlélteti. Ellenőrizzük a részleteket:

1. A klaszterek képezik az Amazon EMR architektúrájának központi elemét. Ezek az EC2 példányok csomópontnak nevezett gyűjteménye. Minden csomópontnak megvan a sajátos szerepe a csomópont típusnak nevezett fürtön belül, és szerepük alapján 3 típusba sorolhatjuk őket:

  • Mester csomópont
  • Mag csomópont
  • Feladat csomópont

2. A mester csomópont, amint a neve is sugallja, a mester, amely felelős a fürt kezeléséért, az összetevők futtatásáért és az adatok terjesztéséért a csomópontokon. Csak nyomon követi, hogy minden megfelelően van-e kezelve, jól működik-e, és működik-e hiba esetén.

3. A központi csomópont felel a feladat futtatásáért és az adatok HDFS-ben a fürtön történő tárolásáért. Az összes feldolgozó alkatrészt a magcsomópont kezeli, és az adatok a feldolgozás után a kívánt HDFS helyre kerülnek.

4. Ha a feladatcsomópont opcionális, akkor csak a feladat futtatásához szükséges feladat, amely nem tárolja az adatokat a HDFS-ben.

5. A munka benyújtása után többféle módszerrel választhatjuk meg, hogyan kell a munkákat befejezni. Ha a fürt a feladat befejezése után befejeződik egy hosszú ideig működő fürtbe az EMR konzol és a CLI segítségével, lépéseket kell beterjesztenünk, mindannyian jogosult ezt megtenni.

6. Közvetlenül futtathatjuk a feladatot az EMR-n, ha összekapcsoljuk a mester csomóponttal a rendelkezésre álló felületek és eszközök segítségével, amelyek közvetlenül a fürtön futtatják a feladatokat.

7. Az adatokat az EMR segítségével különböző lépésekben is futtathatjuk, csupán annyit kell tennünk, hogy beküldünk egy vagy több megrendelt lépést az EMR klaszterben. Az adatokat fájlként tárolják és sorrendben dolgozzák fel. A „Függő állapotból a kész állapotba” kezdve nyomon követhetjük a feldolgozási lépéseket, és megtalálhatjuk a hibákat, amelyek a „Meghibásodás megszakítása” szakaszból származnak, és ezek a lépések könnyen visszavezethetők erre.

8. Az összes példány lezárása után a fürt teljes állapotát eléri.

Az AWS EMR architektúrája

Az EMR architektúrája bemutatja magát a tároló résztől az alkalmazás részig.

  • Az első réteg a tároló réteggel érkezik, amely magában foglalja a fürtünkhöz használt különféle fájlrendszereket. Legyen a HDFS-től az EMRFS-ig a helyi fájlrendszerbe, ezek mind az adatok tárolására szolgálnak a teljes alkalmazás során. A közbenső eredmények gyorsítótárazása a MapReduce feldolgozása során az EMR-hez tartozó technológiák segítségével érhető el.
  • A második réteghez tartozik a fürt erőforrás-kezelése, ez a réteg felelős az alkalmazás feletti fürtök és csomópontok erőforrás-kezeléséért. Ez alapvetően olyan felügyeleti eszközként segít, amely elősegíti az adatok egyenletes eloszlását a fürtön és a megfelelő kezelést. Az EMR által használt alapértelmezett erőforrás-kezelő eszköz a YARN, amelyet az Apache Hadoop 2.0-ban vezettek be. Központilag kezeli a több adatfeldolgozási keret erőforrásait. Az összes információt, amely a fürt jól működéséhez szükséges, a csomópont állapotától az erőforrás elosztásig terjedő memóriakezeléssel gondoskodik.
  • A harmadik réteg az adatfeldolgozási keretrendszerrel érkezik, ez a réteg felelős az adatok elemzéséért és feldolgozásáért. Az EMR által támogatott számos keretrendszer fontos szerepet játszik a párhuzamos és hatékony adatfeldolgozásban. Néhány támogatott keret, amelyről tudunk, az APACHE HADOOP, SPARK, SPARK STREAMING stb.
  • A negyedik réteg az alkalmazáshoz és olyan programokhoz tartozik, mint a HIVE, PIG, streaming könyvtár, ML algoritmusok, amelyek segítenek a nagy adatkészletek feldolgozásában és kezelésében.

Az AWS EMR előnyei

Most nézzük meg az EMR használatának néhány előnyeit:

  1. Nagy sebesség: Mivel az összes erőforrást helyesen használják fel, a lekérdezés feldolgozási ideje viszonylag gyorsabb, mint a többi adatfeldolgozó eszköz jóval világosabb képet mutat.
  2. Tömeges adatfeldolgozás: Legyen nagyobb az adatméret. Az EMR nagy mennyiségű adatot képes feldolgozni bőséges idő alatt.
  3. Minimális adatvesztés: Mivel az adatok eloszlanak a fürtön, és párhuzamosan kerülnek feldolgozásra a hálózaton keresztül, minimális esély van az adatvesztésre és a kicsire, annál jobb a feldolgozott adatok pontossága.
  4. Költséghatékony: Költséghatékonyabbá válik, és olcsóbb, mint bármely más rendelkezésre álló alternatíva, amely erőteljesvé teszi az iparági felhasználást. Mivel az árazás alacsonyabb, nagy mennyiségű adatot tudunk befogadni és a költségvetés keretein belül feldolgozni.
  5. Integrált AWS: Az AWS összes szolgáltatásával integrálva, amely tető alatti könnyű elérhetőséget biztosít, így a biztonság, a tárolás, a hálózatépítés minden egybe van építve.
  6. Biztonság: Csodálatos biztonsági csoporttal érkezik a bejövő és kimenő forgalom vezérlésére, az IAM szerepkörök használata pedig biztonságosabbá teszi, mivel számos olyan engedélyt tartalmaz, amelyek az adatok biztonságát teszik lehetővé.
  7. Megfigyelés és telepítés: Minden EMR-fürtön futó alkalmazás számára megfelelő megfigyelő eszközökkel rendelkezik, amelyek átláthatóvá és egyszerűvé teszik az elemzést, valamint automatikus telepítési funkcióval is rendelkezik, ahol az alkalmazás automatikusan konfigurálódik és települ.

Sokkal több előnye van annak, ha az EMR mint más klaszterszámítási módszer jobb választás.

AWS EMR árképzés

Az EMR elképesztő árlistával rendelkezik, amely vonzza a fejlesztőket vagy a piacot felé. Mivel egy igény szerinti árazási funkcióval rendelkezik, alig több, mint egy órás órát használhatunk, és a klaszterünkben lévő csomópontok számát. Minden másodpercért fizethetünk másodpercenként, legalább egy perccel. Kiválaszthatjuk például példányainkat, amelyeket fenntartott példányként vagy spot példányként használunk, a helyszín sok költségmegtakarítást eredményez.

Kiszámolhatjuk a teljes számlát egy egyszerű havi számológép segítségével az alábbi linkből: -

https://calculator.s3.amazonaws.com/index.html#s=EMR

A pontos árazási részletekért lásd az Amazon alábbi dokumentumát: -

https://aws.amazon.com/emr/pricing/

Következtetés

A fenti cikkből láthattuk, hogy az EMR miként használható a nagy adatok tisztességes feldolgozására, az összes erőforrást a szokásos módon felhasználva.

Az EMR megoldása megoldja az adatfeldolgozás alapvető problémáját, és jóval csökkenti a feldolgozási időt, mivel költséghatékony, egyszerűen és kényelmesen használható.

Ajánlott cikk

Ez egy útmutató az AWS EMR-hez. Itt tárgyaljuk az AWS EMR bevezetését annak működésével és architektúrájával, valamint az előnyeivel kapcsolatban. A további javasolt cikkeken keresztül további információkat is megtudhat -

  1. AWS alternatívák
  2. AWS parancsok
  3. AWS szolgáltatások
  4. AWS interjúkérdések
  5. AWS tárolási szolgáltatások
  6. Az AWS 7 legfontosabb versenyzője
  7. Az Amazon Web Services szolgáltatások listája

Kategória: