Mi a kaptár funkció?
Mint ma tudjuk, a Hadoop a nagy adatok sokoldalú technológiája. A Hadoop képes megbirkózni a nagy adatkészlettel, de mivel az adatok növekedése arányos, a térképcsökkentő programok írása nehézkessé válik. Az SQL lekérdezések végrehajtásához, amelyek jelen vannak a HDFS-ben, a Hadoop bevezette az egyik ilyen technológiát, azaz az apache Hive nevű Facebook által indult. Az adatelemző nagymértékben használja a kaptárt. Ezeket a három funkciót telepítik, nevezetesen: Adat összefoglalása, az elosztott fájl elemzése és az adatok lekérdezése. A Hive SQL-hez hasonló HQL elnevezésű lekérdezéseket nyújt - a magas lekérdezésű nyelv támogatja a DML, a felhasználó által definiált funkciókat. A Hive fordító belsőleg konvertálja ezt a lekérdezést térképcsökkentő feladatokká, ami egyszerűsíti a Hadoop munkáját az összetett programok írásakor. Találhatunk egy kaptárt olyan alkalmazásokban, mint az Adatraktározás, az adatok megjelenítése és az ad-hoc elemzés, a Google Analytics. A legfontosabb előnye, hogy felhasználják az SQL tudást, amely alapvető ismeretek az adattudósok és a szoftver szakemberek között.
Különböző kaptárfunkciók részletesen
A Hive különféle adattípusokat támogat, amelyek nem találhatók más adatbázis-rendszerekben. tartalmaz egy térképet, tömböt és struktúrát. A Hive rendelkezik néhány beépített funkcióval, amelyek számos matematikai és számtani funkciót hajthatnak végre speciális célokra. A kaptár funkcióit a következő típusokba lehet besorolni. Ezek beépített és felhasználó által definiált funkciók.
A) Beépített funkciók
Ezek a funkciók kinyerik az adatokat a kaptártáblákból és feldolgozzák a számításokat. A beépített funkciók némelyike a következő:
1. Matematikai / numerikus függvények
Ezeket a funkciókat elsősorban matematikai számításokhoz használják. Ezeket a funkciókat az SQL lekérdezések használják.
Funkció neve | Példa | Leírás |
ABS (dupla x) | Kaptár> válassza az ABS (-200) értéket a tmp közül; | Ez egy szám abszolút értékét adja vissza. |
CEIL (dupla x) | Kaptár> válassza ki a CEIL (8.5) értéket a tmp közül; | A legkisebb egész értéket fogja letölteni, amely nagyobb vagy egyenlő az x értékkel. |
Rand (), rand (int mag) | Kaptár> válassza ki a Rand () tmp közül;
Rand (0-9) | Egy véletlenszerű számot ad vissza, attól a vetőmag-értéktől függően, amely a generált véletlen számok determinisztikus lenne. |
Pow (dupla x, dupla y) | Kaptár> válassza ki a Pow (5, 2) értéket a tmp közül; | Visszaadja az y értékre emelt x értéket. |
Emelet (dupla y) | Kaptár> válassza ki a padlót (11.8) a tmp közül; | Legfeljebb egész számot ad vissza, amely egyenlő vagy egyenlő, y értékkel. |
EXP (dupla a) | Kaptár> válassza az Exp (30) értéket a tmp közül; | Visszaadja a természetes algoritmus 30. értékének exponens értékét. |
PMOD (int a, int b) | Kaptár> válassza ki a PMOD (2, 4) értéket a tmp közül; | Ez a szám pozitív modulusát adja. |
2. Gyűjtési funkciók
Az összes elem együttes lerakása és az egyes elemek visszatérése az adott adattípustól függ.
Funkció neve | Példa | Leírás |
Térkép_értékek (Térkép) | Kaptár> válassza ki a térképértékeket ('hi', 45) | Rendezetlen tömb elemeket tölt le. |
Méret (térkép) | Kaptár> válasszon méretet (térkép) | Visszaadja az elemek számát az adattípus-térképen. |
Array_contains (b tömb) | Kaptár> válasszon tömb_tartalmakat (a (10)) | TRUE értéket ad vissza, ha a tömb tartalmazza az értéket. |
Sort_array (a tömb) | Kaptár> válassza a sort_array ((10, 3, 6, 1, 7)) | A bemeneti tömbet növekvő sorrendben rendezi a tömb elemek természetes sorrendje szerint, és visszatér az érték. |
3. Karakterlánc-funkciók
A karakterláncfüggvények felhasználásával az adatok elemzése kiválóan zajlik.
Osztott (karakterlánc, karakterlánc) | Kaptár> válassza a split ('Educba ~ kaptár ~ Hadoop, ' ~ ') kimenetet: („eduba”, „kaptár”, „Hadoop”) | Osztja fel a karakterláncot a pat kifejezések köré, és tömböt ad vissza. |
terhelés (húr, int Len, húr pad) | Kaptár> válasszon rakományt ('EDUCBA', 6, 'H') | Visszaadja a húrok jobb párnázatával a húr hosszát. (pad karakter). |
Hossz (húr karakterlánc) | Kaptár> válasszon hosszúságot ('Educba') | Ez a funkció visszaadja a karakterlánc hosszát. |
Rtrim (a karakterlánc) | Kaptár> válassza az rtrim ('TÉMA');
Kimenet: 'Téma' | Az eredményt azáltal adja meg, hogy a jobb oldali szórást elvágja. |
Concat (m karakterlánc, n karakterlánc) | Kaptár> Select concat ('data', 'ware') Eredmény: Dataware | Két karakterlánc összefűzésével a karakterláncot eredményez, ez tetszőleges számú bemenetet igényelhet. |
Hátra (húr) | Kaptár> válassza a hátramenetet ('Mobil') | Visszaadja a fordított karakterlánc eredményét. |
4. Dátum funkció
Az NEM hiba elkerülése érdekében a kaptárban adatformátumot kell alkalmazni. A kaptár által bevezetett dátumfunkciókhoz elengedhetetlen a dátum kompatibilitása.
Unix_timestamp (Karakterlánc dátuma, karakterlánc mintázat) | Kaptár> válassza az Unix_ időbélyegzőjét ('2019-06-08', 'éééé-hh-nn'); Eredmény: 124576 400 idő: 0, 146 másodperc | Ez a funkció visszaállítja a dátumot a megadott formátumra, és másodperceket ad vissza a dátum és az Unix idő között. |
Unix_timestamp (String date) | Kaptár> válassza az Unix_ időbélyegzőjét ('2019-06-08 09:20:10', 'éééé-hh-nn'); | A dátumot éééé-hh-nn órás: hh: ss formátumban adja vissza az Unix időbélyegzőbe. |
Óra (karakterlánc dátuma) | Kaptár> válasszon órát ('2019-06-08 09:20:10'); Eredmény: 09 óra | Visszaadja az időbélyeg órát |
5. Feltételes funkciók
If (logikai teszt, T érték igaz, t hamis) | Kaptár> válassza az IF lehetőséget (1 = 1, 'TRUE', 'FALSE') mint IF_CONDITION_TEST; | Ellenőrzi a feltételt, hogy az érték igaz-e, és hamis visszatér-e. |
Nem semmis (b) | Hive> Select nem null (null); | Ez nem null utasításokat hoz le. ha a null hamis értéket ad vissza. |
Coalesce (1. érték, 2. érték) | Példa: kaptár> válasszon egységet (Null, null, 4, null, 6). visszatér 4. | Először nem az értékeket vonja le az értékek listájából. |
B) Felhasználó által definiált funkció (UDF)
A Hive a felhasználó-specifikus funkciókat használja az ügyfél igényei szerint, a Java programozásban. Ezt két felület, nevezetesen az egyszerű API és az összetett API valósítja meg. Felhívják őket a kaptár lekérdezéséből. Három típusú UDF:
1. Rendszeres UDF
Egy soros asztalon működik. A program úgy jön létre, hogy létrehoz egy java osztályt, majd csomagolja őket egy .jar fájlba, majd a következő lépés a hive classpath igazolása. majd végül végrehajtja őket kaptárkérdezésben.
2. Felhasználó által definiált összesített funkció
Összesített függvényeket használnak, mint például az avg / középérték, öt módszer (init (), iterate (), részleges (), merge (), végződés () végrehajtásával.
3. A felhasználó által definiált táblázat generáló függvények
A táblázat egyetlen sorával működik, és több sort eredményez.
Következtetés
Összegezve: e cikk segítségével részletesen megtanultuk, hogyan kell működni a kaptárplatformon beépített funkciókkal és a felhasználó által definiált funkciókkal. A legtöbb szervezet rendelkezik programozóval és SQL fejlesztővel a szerver oldali folyamatok elvégzésére, de az apache kaptár egy hatékony eszköz, amely elősegíti a Hadoop keretrendszer használatát a programok előzetes ismerete nélkül és a térképcsökkentés területén. A Hive elősegíti az új felhasználók számára az adatok elemzésének akadályok nélküli elindítását és feltárását.
Ajánlott cikkek
Ez egy útmutató a kaptár funkcióhoz. Itt a Koncepciót, a függvény két különféle típusát és alfunkcióját tárgyaljuk. A további javasolt cikkeken keresztül további információkat is megtudhat -
- Legfontosabb karakterlánc-funkciók a kaptárban
- Kaptárinterjúval kapcsolatos kérdések
- Mi az RMAN Oracle?
- Mi az a vízesés modell?
- Bevezetés a kaptár-építészetbe
- Kaptárrendelés