Az ETL folyamat bevezetése

Az ETL az üzleti intelligencia által megkövetelt egyik fontos folyamat. Az üzleti intelligencia az adattárházakban tárolt adatokra támaszkodik, amelyekből számos elemzés és jelentés készül, amely elősegíti a hatékonyabb stratégiák felépítését, valamint taktikai és operatív betekintést és döntéshozatalt eredményez.

Az ETL a kibontási, átalakítási és betöltési folyamatra utal. Ez egyfajta adatintegrációs lépés, ahol a különféle forrásokból származó adatokat kinyerik és továbbítják az adattárházakba. Az adatokat különféle forrásokból nyerik ki, amelyeket először átalakítják, hogy az üzleti igényeknek megfelelő formátumra alakítsák őket. Különféle eszközök, amelyek segítenek ezen feladatok végrehajtásában:

  • IBM DataStage
  • Abinitio
  • Informatika
  • Csoportkép
  • Talend

ETL folyamat

Hogyan működik?

Az ETL folyamat egy háromlépcsős folyamat, amely az adatok kinyerésével kezdődik a különféle adatforrásokból, majd a nyers adatok különböző átalakításokon mennek keresztül, hogy alkalmassá váljanak az adattárházban történő tárolásra, és az adatraktárakba a szükséges formátumban történő betöltésre, és készen álljanak arra, hogy elemzés.

1. lépés: Kivonat

Ez a lépés a szükséges adatok letöltésére különféle forrásokból származik, amelyek különböző formátumokban léteznek, például XML, Hadoop fájlok, Flat Files, JSON stb. Az extrahált adatokat az átmeneti területen tárolják, ahol további átalakításokat hajtanak végre. Így az adatokat alaposan ellenőrizni kell, mielőtt az adatraktárakba helyeznék, különben kihívás lesz az adattárházakban bekövetkező változások visszaállítása.

Az adatkitermelés megkezdése előtt megfelelő adattérképre van szükség a forrás és a cél között, mivel az ETL-folyamatoknak kölcsönhatásba kell lépniük különféle rendszerekkel, például Oracle, Hardware, Mainframe, valósidejű rendszerekkel, például ATM, Hadoop stb., Miközben az adatok ezekből a rendszerekből származnak. .

Megjegyzés - De ügyelni kell arra, hogy ezeket a rendszereket a kitermelés közben érintetlenül hagyja.

Adatkivonási stratégiák
  • Teljes kivonás: Ezt követi, amikor a forrásokból származó teljes adatok bekerülnek az adatraktárakba, amelyek azt mutatják, hogy vagy az adattárházat először töltik meg, vagy nincs stratégia az adatok kinyerésére.
  • Részleges kivonás (frissítési értesítéssel): Ez a stratégia ismert delta, ahol csak a megváltoztatott adatok kerülnek kibontásra és az adattárházak frissítésére
  • Részleges kivonás (frissítési értesítés nélkül): Ez a stratégia arra vonatkozik, hogy a teljes adatok kinyerése helyett a specifikus megkövetelt adatokat a forrásokból az adatraktárakban betöltött terhelésnek megfelelően vonják ki.

2. lépés: Átalakítás

Ez a lépés az ETL legfontosabb lépése. Ebben a lépésben sok átalakítást hajtanak végre, hogy az adatok betöltésre készek legyenek az adattárházakban az alábbi átalakítások alkalmazásával: -

A. Alapvető átalakítások: Ezeket az átalakításokat minden esetben alkalmazzák, mivel alapvető szükségletük van a különböző forrásokból kinyert adatok betöltése az adattárházakba.

  • Adatok tisztítása vagy gazdagítása: Ez a nemkívánatos adatok megtisztítását jelenti az átmeneti területről, hogy a helytelen adatok ne kerüljenek betöltésre az adatraktárakból.
  • Szűrés: Itt kiszűrjük a szükséges adatokat az üzleti igényeknek megfelelő nagy mennyiségű adatból. Például az értékesítési jelentések elkészítéséhez csak az adott év értékesítési nyilvántartására van szükség.
  • Konszolidáció: A kinyert adatokat a kívánt formátumban konszolidálják, mielőtt betöltenék az adatraktárakba.4.
  • Szabványosítás: Az adatmezőket átalakítják, hogy ugyanazon a szükséges formátumban legyenek, például az adatmezőt MM / ND / ÉÉÉÉ-n kell megadni.

B. Speciális átalakulások: Az ilyen típusú átalakítások az üzleti igényekre vonatkoznak.

  • Csatlakozás: Ebben a műveletben két vagy több forrásból származó adatok kombinálva készülnek t, csak az egymással kapcsolatban álló sorokkal rendelkező kívánt oszlopokból állítanak elő adatokat.
  • Adatküszöb érvényesítésének ellenőrzése: A különféle mezőkben lévő értékeket ellenőrizzük, ha helyesek-e vagy sem, például ha banki adatok esetén nulla bankszámlaszám van-e.
  • Használja a keresést az adatok egyesítéséhez: Különböző egyszerű fájlok vagy más fájlok használják az adott információ kinyerését azáltal, hogy rajta keresési műveletet végeznek.
  • Bármely komplex adatérvényesítés használata: Sok összetett validálást alkalmaznak az érvényes adatok csak a forrásrendszerekből történő kinyerésére.
  • Számított és származtatott értékek: Különböző számításokat alkalmaznak az adatok átalakítására valamilyen szükséges információvá
  • Másolás: A forrásrendszerekből származó másolatot elemezzük és eltávolítjuk, mielőtt betöltenénk az adatraktárakba.
  • Kulcs-átszervezés: Ha lassan változik az adatok rögzítése, külön helyettesítő kulcsokat kell generálni az adatok megfelelő formátumú felépítéséhez.

Megjegyzés : Az MPP-Massive Párhuzamos Feldolgozást néha használják néhány alapvető művelet végrehajtására, például az átmeneti területen lévő adatok szűrésére vagy tisztítására, hogy nagy mennyiségű adatot dolgozzanak fel gyorsabban.

3. lépés: Töltse be

Ez a lépés arra utal, hogy a transzformált adatokat az adattárházba tölti be, ahonnan felhasználható számos elemzési döntés generálására, valamint a jelentések készítésére.

1. Kezdeti betöltése: Az ilyen típusú betöltése akkor történik, amikor először töltik be az adatokat az adattárházakba.

2. Növekményes terhelés: Ez az a terhelés, amelyet az adattárház időszakos frissítésére hajtanak végre a forrásrendszer-adatokban bekövetkező változásokkal.

3. Teljes frissítés: Ez a típusú betöltés arra a helyzetre utal, amikor a táblázat teljes adatait törlik és friss adatokkal töltik be.

Az adattárház ezután lehetővé teszi az OLAP vagy az OLTP szolgáltatásokat.

Az ETL-folyamat hátrányai

  1. Növekvő adat - Korlátozott az adatkód, amelyet az ETL eszköz különféle forrásokból von ki és továbbít adattárházakba. Így az adatok növekedésével az ETL eszközzel és az adattárházakkal történő munka nehézkessé válik.
  2. Testreszabás - Ez a forrásrendszerek által generált adatok gyors és hatékony megoldására vagy válaszaira vonatkozik. De az ETL eszköz használata itt lelassítja ezt a folyamatot.
  3. Drága - Az adattárház egyre növekvő mennyiségű adat generálásának periodikus előállítása nagy költségeket jelent, amelyeket egy szervezetnek meg kell fizetnie.

Következtetés - ETL folyamat

Az ETL eszköz olyan kivonási, átalakítási és betöltési folyamatokat foglal magában, ahol elősegíti az információk előállítását a különféle forrásrendszerekből összegyűjtött adatokból. A forrásrendszerből származó adatok bármilyen formátumban előfordulhatnak, és bármilyen kívánt formátumban betölthetők az adattárházakba, így az ETL eszköznek támogatnia kell az összeköttetést az összes ilyen formátummal.

Ajánlott cikkek

Ez egy útmutató az ETL-folyamathoz. Itt tárgyaljuk a Bevezetés, Hogyan működik ?, Az ETL Tools és annak hátrányai című részt. A további javasolt cikkeken keresztül további információkat is megtudhat -

  1. Informatica ETL Tools
  2. ETL tesztelő eszközök
  3. Mi az ETL?
  4. Mi az ETL tesztelés?

Kategória: