Spark DataFrame - Az DataFrame különböző műveletei példával

Bevezetés a Spark DataFrame-be

A szikra adatkeret elosztott adatgyűjtésnek tekinthető, amelyet elnevezett oszlopokba rendeznek, és olyan műveletek biztosítására használják, mint például a szűrés, az aggregációk kiszámítása, csoportosítása, és a Spark SQL-vel is használható. Az adatkeretek strukturált adatfájlok, a meglévő RDD-k, külső adatbázisok és a Hive táblák felhasználásával hozhatók létre. Alapvetõen absztrakciós rétegként nevezik és nevezik, amely az RDD tetejére épül, és amelyet a Spark (2.0 +) késõbbi verzióiban bevezetett adatkészlet API követ. Ezenkívül az adatkészleteket nem a Pyspark-ban vezettek be, hanem csak a Sparával ellátott Scala-ban, de az Dataframes esetében nem ez volt a helyzet. Az adatkeretek, közismert néven DF-ek, logikus oszlopformátumok, amelyek megkönnyítik és kényelmesebbé teszik az RDD-kkel való munkát, ugyanúgy használják az RDD-kkel azonos funkciókat. Ha inkább fogalmi szinten beszélünk, akkor ez egyenértékű a relációs táblákkal, valamint a jó optimalizálási szolgáltatásokkal és technikákkal.

Hogyan hozhatunk létre DataFrame-t?

Az Adatkeretet általában az említett módszerek bármelyikével hozza létre. Ez létrehozható Hive táblák, külső adatbázisok, strukturált adatfájlok vagy akár meglévő RDD-k felhasználásával. Mindezekkel az adatokkal létrehozhatók az Apache Spark feldolgozásához használt Dataframe néven ismert oszlopok. Az SQLContext vagy a SparkSession alkalmazás segítségével adatkeretek hozhatók létre.

Spark DataFrames műveletek

A Spark-ban az adatkeret az adatok szervezett formájának elosztása és gyűjtése megnevezett oszlopokba, amely egyenértékű egy relációs adatbázisgal vagy sémával vagy adatkerettel olyan nyelven, mint R vagy python, de gazdagabb szintű optimalizálással együtt használt. Ez egy olyan nyelv specifikus tartományának biztosítására szolgál, amelyet fel lehet használni a strukturált adatkezeléshez.

Az alábbiakban bemutatjuk a strukturált adatfeldolgozás néhány alapvető műveletét az adatkeretek felhasználásával.

1. Olvasson egy JSON típusú dokumentumot: Az sqlContext.read.json parancsot használjuk.

Példa: Tegyük fel, hogy a fájlnév a student.json, akkor a kódrészlet így néz ki:
val dfs= sqlContext.read.json(“student.json”)

Kimenet: Ebben az esetben a kimenet az lesz, hogy a mezőneveket automatikusan a student.json fájlból veszi.

2. Az adatok megjelenítése: Annak érdekében, hogy az adatokat a Spark adatkeretben láthassa, a következő parancsot kell használnia:
dfs.show ()

Példa: Tegyük fel, hogy a fájlnév a student.json, akkor a kódrészlet így néz ki:
val dfs= sqlContext.read.json(“student.json”) dfs.show()

Kimenet: A hallgatói adatok táblázatos formában jelennek meg Önnek.

3. A printSchema módszer használata: Ha érdekli a struktúra, azaz az adatkeret sémája, akkor használja a következő parancsot: dfs.printSchema ()

Példa: Tegyük fel, hogy a fájlnév a student.json, akkor a kódrészlet így néz ki:

val dfs= sqlContext.read.json(“student.json”) dfs. printSchema ()

Kimenet: a struktúra vagy a séma jelen lesz Önnek

4. Használja a kiválasztási módszert: A választási módszer használatához a következő parancsot kell használni a nevek és oszlopok lekérésére az adatkeretek listájából.
dfs.select ( „oszlop nevét”). show ()

Példa: Tegyük fel, hogy a fájlnév a student.json, akkor a kódrészlet így néz ki:
val dfs= sqlContext.read.json(“student.json”) dfs.select(“name”).show()

Kimenet: A név oszlop értékei láthatók.

5. Az Életkor szűrő használata: Az alábbi parancs felhasználható azon hallgatók körének megkeresésére, akiknek életkora több mint 23 év.
dfs.filter (dfs („oszlopnév”)> érték) .show ()

Példa: Tegyük fel, hogy a fájlnév a student.json, akkor a kódrészlet így néz ki:
val dfs= sqlContext.read.json(“student.json”) dfs.filter(dfs(“age”)>23).show()

Kimenet: A szűrt életkor 23-nál nagyobb lesz az eredményekben.

6. A groupBy módszer használata: Az alábbi módszer használható az azonos korú hallgatók számának megszámlálására.
dfs.groupBy ( „oszlop nevét”). A count (). show ()

Példa: Tegyük fel, hogy a fájlnév a student.json, akkor a kódrészlet így néz ki:
val dfs= sqlContext.read.json(“student.json”) dfs.groupBy(“age”).count().show()

7. SQL függvény használata egy SparkSession-on, amely lehetővé teszi az alkalmazás számára az SQL típusú lekérdezések programozási végrehajtását, és így az eredmény adatkeret formájában történik.
spark.sql (lekérdezés)

Példa: Tegyük fel, hogy az SQL adatkeretet ideiglenes nézetként kell regisztrálnunk, majd:
df.createOrReplaceTempView(“student”) sqlDF=spark.sql(“select * from student”) sqlDF.show()

Kimenet: Egy ideiglenes nézetet hozunk létre a hallgató nevével, és rávisszük a spark.sql fájlt, hogy adatkeretké konvertáljuk.

8. SQL függvény használata a Spark Session globális ideiglenes nézetnél: Ez lehetővé teszi az alkalmazás számára, hogy az SQL típusú lekérdezéseket programozottan végrehajtja, és így eredményt ad vissza adatkeret formájában.
spark.sql (lekérdezés)

Példa: Tegyük fel, hogy az SQL adatkeretet ideiglenes nézetként kell regisztrálnunk, majd:
df.createGlobalTempView(“student”) park.sql(“select * from global_temp.student”).show() spark.newSession().sql(“Select * from global_temp.student”).show()

Kimenet: Egy ideiglenes nézetet hozunk létre a hallgató nevével, és rávisszük a spark.sql fájlt, hogy adatkeretké konvertáljuk.

A Spark DataFrame előnyei

Az adatkeret az Adatok elosztott gyűjteménye, ezért az adatokat név szerint oszlop szerint rendezzük.
Többé-kevésbé hasonlítanak a táblázathoz relációs adatbázisok esetén, és gazdag optimalizálási sorozattal rendelkeznek.
Az adatkeretek lehetővé teszik az SQL-ben írt lekérdezések és az adatkeret API-jának felhatalmazását
Használható mind strukturált, mind strukturálatlan típusú adatok feldolgozására.
A katalizátor-optimalizáló használata megkönnyíti és hatékonyabbá teszi az optimalizálást.
A könyvtárak számos nyelven jelen vannak, például Python, Scala, Java és R.
Ezt arra használják, hogy erőteljes kompatibilitást biztosítsanak a Hive-vel, és módosítatlan Hive-lekérdezések futtatásához használják a már jelen lévő kaptárraktárban.
Nagyon jól skálázható a személyes rendszer néhány kilóméterétől a nagy klaszterek sok petabájtjáig.
Arra használják, hogy könnyen integrálható legyen más nagy adattechnológiákkal és keretekkel.
Az absztrakció, amelyet az RDD-knek nyújtanak, hatékony és gyorsabbá teszi a feldolgozást.

Következtetés - Spark DataFrame

Ebben a bejegyzésben megismerte az Apache Spark nagyon kritikus tulajdonságát, amely az adatkeretek és azok felhasználása a ma futó alkalmazásokban, valamint a műveletek és az előnyök. Remélem tetszett a cikkünk. Maradjon velünk hasonlóbb.

Ajánlott cikkek

Ez egy útmutató a Spark DataFrame-hez. Itt megvitatjuk, hogyan lehet létrehozni egy DataFrame-t? annak előnyei és az DataFrames különféle műveletei, a megfelelő minta kóddal együtt. A további javasolt cikkeken keresztül további információkat is megtudhat -