Bevezetés a Talend adatintegrációba
A Talend Dataintegráció azt jelenti, hogy a különböző forrásokból származó adatokat egyesítik, és egyetlen nézetbe egyesítik, és így értelmes adatokhoz jutnak, amelyek elősegítik a vállalat vagy szervezet üzleti tevékenységének javítását az adatok elemzése révén. Az integráció elősegíti az adatok beszerzését, az adatok megtisztítását és a szükséges átalakításokat stb., Majd az adattárba történő betöltését.
Mi az a Talend Data Integration?
- A Talend egy ETL eszköz, amelyet az adatok integrálására használnak. A Talend megoldást kínál az adatok előkészítésére, az adatok minőségére, az adatok integrálására és a nagy adatokra.
- A Talend Open Studio-t kínál, amely nyílt forráskódú az adatok integrációjához és a nagy adatokhoz.
- A Talend nyílt stúdiója segíti a hatalmas adatok nagy adatkomponensekkel történő kezelését. Több mint 800 komponenst tartalmaz különféle integrációs célokra. Itt néhány elemet tárgyalunk. Az egyszerűség kedvéért olvassa el az alábbi példát
- A sim operátor hatalmas adatokkal rendelkezik a tervekről, az ügyfelekről, a sim részletekről stb. Ezek az adatok hatalmasak, így a nagy adatokat is felhasználják az integrációban.
Vevő Sim vásárlása kormányzati azonosító segítségével.
A nevét adta: AB C
Címe: Chennai, Chennai
Telefonszám: 1234567890
Az adatok integrálása után
Keresztnév: AB
Vezetéknév: C
Cím: Chennai, India
Telefonszám: +911234567890
Az adatok megtisztulnak és valami értelmesebbé alakulnak.
Az adatintegráció előnyei
Itt az adatintegráció előnyeit fogjuk megvitatni.
- Üzleti trendek elemzése az adatintegráció segítségével
- Az adatok egyesítése egyetlen rendszerbe
- Időmegtakarítás, hatékonyabb és kevesebb átdolgozás
- Egyszerű jelentés generálás - a BI eszközök használják
- Adatok karbantartása és beillesztése az adattárházba és az adatkártyákba
A Talend adatintegráció alkalmazása
Itt tárgyaljuk a Talend Data Integration alkalmazását.
1. Együttműködés a Talenddel
- Győződjön meg arról, hogy a Java telepítve van és a környezeti változók be vannak-e állítva.
- Töltse le a nyílt forráskódú szoftvert a Talend webhelyről és telepítse a szoftvert.
- Hozzon létre egy új projektet, és fejezze be a telepítést
- A Talend megnyílik a designer fülön.
- A Talend egy eclipse alapú eszköz, és az összetevőket el lehet húzni a palettáról, vagy rákattinthat, és beírhatja az összetevők nevét.
2. A fájl első olvasása
- Keresse meg a tFileinputdelimited összetevőt. Ezt az összetevőt az elválasztott fájlok olvasására használják.
- Helyezze a tFileinputdelimited komponenst. Keresse meg a tLogRow alkalmazást, és helyezze el a munkatervezőbe.
- Kattintson a jobb gombbal a tFileinputdelimited elemre, válassza a sor-> main elemet, és húzzon egy sort a tLogRow-hoz.
- A komponensben a fül kiválasztja az olvasni kívánt fájl elérési útját, és a sor elválasztót jelöli \ n néven. Ha a fájlban elválasztó van, említheti a határolót.
- Kattintson a sémára, és adja meg az oszloptípus részleteit, vagy elolvashatja az egész sort karakterlánccal, egyetlen oszloppal, és a határoló értékének üresnek kell lennie.
- A fejléc és a lábléc is kihagyható.
- A tLogRow összetevőben válassza ki az adatok megtekintésének módját. Táblázat vagy egysoros formátum.
- A tLogRow megjeleníti a kimenetet a futókonzolon.
- A tFileinputdelimited és a tLogRow összekapcsolása után futtassa a feladatot a Futtatás lapon.
- A nyomtatott konzolban láthatja a fájl tartalmát.
3. Második feladat a Tmap segítségével
- Olvassa el a fájlt és szűrje le különféle kimeneti fájlokba.
- Olvassa el a tFileinputdelimited összetevőben lévő fájlt, rekordként egy oszlop sémával.
- Tmap-összetevő - Ez az elem segít az adatok átalakításában olyan beépített funkciókkal, mint a keresés, csatlakozások stb.
- A tmap-ben hozzon létre két output1 és out2 kimenetet.
- Az out1 szűrőben adjunk hozzá record.contains-t (“talend”), és húzzuk a rekordot out1-re.
- Húzza a rekordvonalat más out2-re.
- A tmap-ből vegye ki a fő sorokat, és csatlakozzon két tFileoutputdelimited-hez.
- out1 link az egyik tfileoutputdelimited1 fájlhoz1.txt, és out2 a másik tfileoutputdelimited2 fájlhoz2.txt.
- A txt rekordok tartalmazzák a talend-et.
- A txt más névvel rendelkező rekordokkal rendelkezik.
4. Beépített és tároló
- A beépített eszköz azt jelenti, hogy minden alkalommal meg kell állítania az adatbázishoz való kapcsolódás sémáját vagy részleteit.
- A tároló hasznos lehet a részletek mentésében a metaadatokba, így ugyanazokat az adatokat minden alkalommal újra felhasználhatja, anélkül, hogy minden alkalommal manuálisan beírná az adatokat. A metaadatokban fájlsémákat, adatbázis-kapcsolatokat, Hadoop-kapcsolatot, kaptárkapcsolatot, s3-kapcsolatot és még sok másot menthet.
A Talend adatintegráció összetevői
Itt a Talend Data Integration összetevőit tárgyaljuk.
1. tFileList: Ez az összetevő felsorolja a megadott fájlmaszk mintázatú mappában vagy mappában lévő fájlokat.
2. tMysqlConnection: Ezt az összetevőt a MySQL adatbázishoz való csatlakozáshoz használják. A Mysql-összetevők ezt a kapcsolatot használhatják az adatbázishoz történő kapcsolódás egyszerű beállításához.
3. tMysqlInput: Ez az összetevő segít a mysql adatbázis lekérdezés futtatásában és a táblázat vagy oszlopok beolvasásában . Ez az összetevő a lekérdezések kiválasztására és a részletek beolvasására szolgál.
4. tMysqlOutput: Ezt az összetevőt az adatok beszúrására vagy frissítésére használják a Mysql adatbázisban.
5. tPrejob: Ez az összetevő az első, amely végrehajtja a feladatot, és összekapcsolható más komponensekkel a Subjob ok funkcióval.
6. tPostjob: Ez az összetevő utoljára hajtja végre a feladatot. Ezt összekapcsolhatja a kapcsolatra szoros összetevőkkel.
7. tLogcatcher: Ez az összetevő észreveszi a figyelmeztetést és a hibákat a munkában. Ez a hibakezelési technika legfontosabb alkotóeleme. A hibanaplókat ezen összetevő segítségével lehet írni, a tfileoutputdelimited mellett. Több mint 800 alkatrész van.
8. Kontextusváltozó: A kontextusváltozók olyan változók, amelyek bárhol felhasználhatók a feladatban. Értékeket tárol, és átadható egy másik feladatra a tRun összetevők használatával is. A kontextusváltozók felhasználása az, hogy az értéket különböző célokra megváltoztathatjuk. Például rendelkezhetünk értékkészlettel a fejlesztési kontextuscsoporthoz és különféle környezeti értékekkel a termeléshez. Ilyen módon nem kell megváltoztatnunk a feladatot, elegendő a környezeti paraméterek megváltoztatása.
9. Munka felépítése : Munka felépítéséhez kattintson a jobb gombbal a feladatra, és válassza ki az építési feladatot. Az összeállítási feladatot a TAC-ban importálhatja. A Talend Felügyeleti konzolban ütemeznie kell egy feladatot a feladatkészlet-függőség kiváltására is. A feladatot a Nexus tárházból is el lehet importálni egy műtárgy segítségével.
10. Hozzon létre egy feladatot a TAC-ban: Nyissa meg a feladatvezetőt a TAC- ban. Kattintson az új feladatokra, és válassza ki a normál vagy tárgyi feladatokat. Importálja az összeállítási munkát, vagy válasszon a nexusból. Válassza ki a job szervert, amelyben a talend futni fog. Mentse el a feladatot. Most telepítheti és futtathatja a munkát.
Következtetés
- „Egyszerűsítse az ETL-t és az ELT-t a vezető ingyenes, nyílt forráskódú ETL-eszközzel a nagy adatok számára.” - a nyitott stúdió címkéje.
- A Talend Bigdata számos összetevővel rendelkezik a hatalmas adatok kezelésére.
- Normál, Bigdata, Bigdata streaming jobok a Talendben elérhető különféle típusú munkák.
- A Bigdata jobok létrehozhatók egy szikra vagy MapReduce keretrendszerben.
Ajánlott cikk
Ez egy útmutató a Talend adatintegrációhoz. Itt tárgyaljuk a Talend Data Integration bevezetését, valamint az alkalmazásokkal és komponensekkel kapcsolatos előnyöket. További információkért áttekintheti a többi javasolt cikket is
- Adatintegrációs eszköz | A legjobb 12 eszköz
- Talend interjúkérdések és válaszok
- A legjobb adatmegjelenítő eszközök annak típusaival
- Talend vs Mulesoft - különbségek
- Mi az Data Mart?