Mi a Hadoop?

Mielőtt megértené a Hadoop előnyeit, először meg kell értenie a Hadoop-ot. A Hadoop nagy adatfeldolgozási paradigma, amely megbízható, skálázható helyet kínál az adatok tárolására és feldolgozására. A Hadoopot Doug Cutting készítette, és „Hadoop atyjának” tekintik. Hadoop volt a fia játék elefántjának a neve. A Hadoop gyökerei a Nutch Search Engine Projectben rejlenek. A Hadoop egy olyan feldolgozási keret, amely óriási változásokat hozott az adatok feldolgozásának módjában, az adatok tárolásának módjában. A hagyományos feldolgozó eszközökhöz, például az RDBMS-hez képest a Hadoop bebizonyította, hogy hatékonyan tudunk leküzdeni a nagy adatok kihívásait, például,

Az adatok sokfélesége : A Hadoop képes tárolni és feldolgozni a strukturált, valamint a félig strukturált és nem strukturált formátumú adatokat.

Az adatmennyiség : a Hadoop kifejezetten a petatabátok tartományában található hatalmas adatmennyiség kezelésére lett kifejlesztve.

Az adatok sebessége : A Hadoop más adatfeldolgozó eszközökhöz, például az RDBMS-hez képest nagy sebességgel képes feldolgozni az adatok petatabátusát, azaz a Hadoopban a feldolgozási idő nagyon rövidebb.

A Hadoop legfontosabb jellemzői

  • A Hadoop nyílt forráskódú természetű.
  • Gépek klaszterén működik. A klaszter mérete a követelményektől függ.
  • Normál alapanyagokon is futhat.

A Hadoop előnyei

Ebben a szakaszban a Hadoop előnyei kerülnek ismertetésre. Most nézzük meg őket egyenként:

1. Nyílt forráskódú

A Hadoop nyílt forráskódú, azaz forráskódja szabadon elérhető. A forráskódot üzleti igényeinknek megfelelően módosíthatjuk. Még a Hadoop védett változatai, mint például a Cloudera és a Horton alkotások is rendelkezésre állnak.

2. Skálázható

A Hadoop a Machines klaszteren működik. A Hadoop nagyon skálázható. A klaszter méretét megnövelhetjük igények szerinti új csomópontok hozzáadása nélkül, állásidő nélkül. Az új gépeknek a klaszterhez történő hozzáadásának módját vízszintes méretezésnek nevezik, míg a növekvő összetevőket, például a merevlemez és a RAM megduplázását vertikális méretezésnek nevezik.

3. Hibatűrő

A hibatűrés a Hadoop legfontosabb jellemzője. Alapértelmezés szerint a HDFS minden egyes blokkjának replikációs tényezője 3. Minden adatblokkhoz a HDFS létrehoz két további másolatot, és a fürt más helyén tárolja őket. Ha bármely blokk hiányzik a gép meghibásodása miatt, akkor még ugyanazon blokk további két példánya van, és ezeket használjuk. Ily módon a Hadoop-ban megtörténik a hibatűrés.

4. Séma független

A Hadoop különféle típusú adatokkal tud dolgozni. Elég rugalmas ahhoz, hogy különféle formátumú adatokat tároljon, és mind az adatokkal működhet séma (strukturált), mind séma nélküli (strukturálatlan) adatokkal.

5. Nagy teljesítmény és alacsony késleltetés

Az átviteli sebesség azt jelenti, hogy az egységnyi idő alatt elvégzett munka nagy, és az alacsony késleltetési idő azt jelenti, hogy az adatokat feldolgozzuk késleltetés nélkül vagy kevesebb késéssel. Mivel a Hadoop-ot az elosztott tárolás és a párhuzamos feldolgozás elve hajtja végre, a feldolgozást minden adat blokkban egyszerre és egymástól függetlenül hajtják végre. Az adatok mozgatása helyett a kódot a fürtben lévő adatokra helyezik át. Ez a kettő hozzájárul a nagy teljesítményhez és az alacsony késleltetéshez.

6. Az adatok helyessége

A Hadoop a „Kód mozgatása, nem az adatok” elv alapján működik. A Hadoop alkalmazásban az adatok nem maradnak helyben, és az adatok feldolgozása érdekében a kód feladatok formájában kerül át az adatokra, ez az adat-helység. Mivel a petatabiták tartományában található adatokkal foglalkozunk, nehéz és költséges az adatátvitel a hálózaton keresztül, az adatok helyzete biztosítja, hogy az adatmozgás a fürtben minimális legyen.

7. Teljesítmény

Az olyan örökölt rendszerekben, mint például az RDBMS, az adatokat sorrendben dolgozzák fel, de a Hadoop-ban a feldolgozás az összes blokkon egyszerre elindul, ezzel párhuzamos feldolgozást biztosítva. A párhuzamos feldolgozási technikáknak köszönhetően a Hadoop teljesítménye sokkal magasabb, mint a Legacy rendszereknél, mint például az RDBMS. 2008-ban a Hadoop legyőzte a leggyorsabb szuperszámítógépet is.

8. Ossza meg a Semmi architektúrát

A Hadoop-fürt minden csomópontja független egymástól. Nem osztják meg az erőforrásokat vagy a tárolóhelyeket, ezt az architektúrát Share Nothing Architecture (SN) néven ismerik. Ha a fürt egyik csomópontja meghibásodik, akkor az nem fogja lebontani az egész fürtöt, mivel minden csomópont egymástól függetlenül jár, így kiküszöböli az egyetlen hibapontot.

9. Több nyelv támogatása

Bár a Hadoop-ot elsősorban Java-ban fejlesztették ki, kiterjeszti más nyelvek, például Python, Ruby, Perl és Groovy támogatását.

10. Költséghatékony

A Hadoop nagyon gazdaságos természetű. Építhetünk egy Hadoop klasztert normál alapanyagú hardver használatával, ezáltal csökkentve a hardver költségeit. A felhőkorszak szerint a Hadoop adatkezelési költségei, azaz a hardver és a szoftver, valamint az egyéb költségek nagyon alacsonyak, mint a hagyományos ETL rendszerekhez képest.

11. Absztrakció

A Hadoop absztrakciót nyújt különféle szinteken. Ez megkönnyíti a munkát a fejlesztők számára. A nagy fájlokat azonos méretű blokkokra bontják, és a fürt különböző helyein tárolják. A térkép-csökkentési feladat létrehozása közben aggódnunk kell a blokkok helyét illetően. A teljes fájlt bemeneti formában adjuk meg, és a Hadoop keretrendszer gondoskodik a különféle helyekben lévő adatblokkok feldolgozásáról. A kaptár a Hadoop ökoszisztéma része és absztrakció a Hadoop tetején. Mivel a Map-Reduce feladatokat a Java írja, az SQL Developers szerte a világon nem tudták kihasználni a Map Reduce előnyeit. Tehát a Hive-t bevezették ennek a kérdésnek a megoldásához. Így írhatunk SQL-lekérdezéseket a Hive-re, ami viszont a Map csökkenti a feladatokat. Tehát a Hive miatt az SQL közösség képes dolgozni a Térképcsökkentési feladatoknál is.

12. Kompatibilitás

A Hadoopban a HDFS a tároló réteg, a Map Reduce pedig a feldolgozó motor. Nincs szigorú szabály, hogy a Map Reduce legyen az alapértelmezett feldolgozó motor. Az új feldolgozási keretek, például az Apache Spark és az Apache Flink HDFS-t használnak tárolórendszerként. Még a Hive-ben is megváltoztathatjuk végrehajtási motorunkat Apache Tez-re vagy Apache Spark-ra, a követelményünk szerint. Az Apache HBase, amely NoSQL oszlopos adatbázis, a HDFS-t használja a Storage réteghez.

13. Különböző fájlrendszerek támogatása

A Hadoop nagyon rugalmas természetű. Befogadhat különféle formátumú adatokat, például képeket, videókat, fájlokat, stb. Feldolgozza a strukturált és a nem strukturált adatokat is. A Hadoop különféle fájlrendszereket támogat, mint például a JSON, XML, Avro, Parquet stb.

A Hadoop működése

Az alábbiakban bemutatjuk a Hadoop működését:

1. Elosztott tárolás és párhuzamos feldolgozás

Ez a Hadoop ökoszisztéma összes keretének vezérlő alapelve, beleértve az Apache Spark-ot is. Annak érdekében, hogy megértsük a Hadoop és a Spark működését, először meg kell értenünk, hogy mi az „elosztott tárolás és párhuzamos feldolgozás”.

2. Elosztott tárolás

A Hadoop nem tárol adatokat egyetlen gépen, ehelyett azt a hatalmas adatot egyenlő méretű blokkokra osztja, amelyek alapértelmezés szerint 256 MB, és ezeket a blokkokat egy klaszter különböző csomópontjaiba (munkavállalói csomópontok) tárolja. Az említett blokkok metaadatait a fő csomópontban tárolja. A fájl elosztott helyeken a fürtben való tárolásának ilyen módja Hadoop elosztott fájlrendszer - HDFS.

3. Párhuzamos feldolgozás

Ez egy feldolgozási paradigma, ahol a feldolgozás egyidejűleg történik a HDFS-ben tárolt adatblokkokon. A Párhuzamos Feldolgozás a „Kód mozgatása, nem az adatok” fogalmán működik. Az adatok helyben maradnak a HDFS-ben, de a kód átkerül az adatokba feldolgozás céljából. Egyszerűen fogalmazva: ha a fájl 100 blokkra van bontva, akkor a munka 100 példánya jön létre, és áthaladnak a fürtön azon a helyen, ahol a blokk található, és a 100 blokkon történő feldolgozás egyidejűleg megkezdődik (térképfázis). Az összes blokk kimeneti adatait összegyűjtjük és a végső kimenetre redukáljuk (fázis csökkentése). A Map Reduce-t „Hadoop szíve” -nek tekintik.

Következtetés - a Hadoop előnyei

Ebben az adatkorban Hadoop előkészítette az utat a nagy adatok által felvetett kihívások eltérő megközelítéséhez. Amikor azt mondjuk: Hadoop, nem csak a Hadoop-ra gondolunk, magában foglalja a Hadoop ökoszisztéma eszközöket, például az Apache Hive, amely SQL-hez hasonló műveleteket biztosít a Hadoop, Apache Pig, Apache HBase for Columnar tároló adatbázis, Apache Spark a memórián belüli feldolgozáshoz és sok más számára. több. Noha a Hadoopnak megvannak a maga hátrányai, rendkívül alkalmazkodóképes és folyamatosan fejlődik az egyes kiadásoknál.

Ajánlott cikkek

Ez egy útmutató a Hadoop előnyeiről. Itt megvitatjuk, mi a Hadoop és a Hadoop legfontosabb előnyei. Megnézheti más kapcsolódó cikkeinket, hogy többet megtudjon-

  1. HADOOP keretrendszer
  2. Mi a Hadoop Cluster?
  3. Mi a MapReduce a Hadoopban?
  4. Hadoop adatbázis
  5. Mi a Hadoop? | Alkalmazások és szolgáltatások

Kategória: