Bevezetés az AWS Data Pipeline-ba

Az adatok napról napra exponenciálisan növekednek, és a múlthoz képest nehezen kezelhetők. Eszközökre és szolgáltatásokra van szükségünk az adatok hatékony és olcsóbb kezeléséhez, ahol az AWS Data Pipeline szem előtt tartja magát. Nem csupán az adatok tárolásáról szól, hanem elemezni, feldolgozni és átalakítani az adatokat a kívánt formába kell ugyanabban a helyen, mindez az AWS Data Pipeline segítségével elérhető.

Az adatvezeték szükségessége

Próbáljuk meg megérteni az adatvezeték szükségességét egy példával:

1. példa

Van egy weboldalunk, amely képeket és gifeket jelenít meg felhasználói keresések vagy szűrők alapján. Elsődleges hangsúlyunk a tartalom kiszolgálása. Vannak bizonyos célok, amelyek elérése a következő:

  • A tartalomszolgáltatás javítása: A felhasználók igényes kiszolgálása hatékonyan és elég gyorsan.
  • Az alkalmazás hatékony kezelése: A felhasználói adatok, valamint a webnaplók tárolása későbbi elemzési célokra.
  • Javítsa az üzletet: A tárolt adatok és elemzések felhasználásával dönthet úgy, hogy olcsóbb költséggel javítja az üzletet.

2. példa

Vannak bizonyos szűk keresztmetszetek, amelyeket a célok elérése érdekében kell vigyázni:

  • A hatalmas mennyiségű adat, különböző formátumokban és különböző helyeken, ami az adatok feldolgozását, tárolását és áttelepítését összetett feladattá teszi.

Különböző adattárolási összetevők a különféle típusú adatokhoz:

  • Lehetséges valósidejű adatok a regisztrált felhasználók számára: Dynamo DB .
  • Web-szerver naplók a lehetséges felhasználók számára: Amazon S3 .
  • Demográfiai adatok és bejelentkezési adatok: Amazon RDS.
  • Érzékelő adatok és harmadik fél adatállománya: Amazon S3.

megoldások

  • Megvalósítható megoldás: Láthatjuk, hogy különféle típusú eszközökkel kell foglalkoznunk, hogy az adatokat strukturálatlanról strukturált elemzésre konvertáljuk. Itt különféle eszközöket kell használnunk az adatok tárolására, valamint a feldolgozott adatok konvertálására, elemzésére és tárolására. Nem költséghatékony megoldás.
  • Optimális megoldás: Használjon olyan adatvezetéket, amely kezeli a feldolgozást, a megjelenítést és az áttelepítést. Az adatcsatorna hasznos lehet az adatok áttelepítésekor a különböző helyekről, az adatok elemzése és az azonos nevű hely feldolgozása érdekében is.

Mi az AWS Data Pipeline?

Az AWS Data Pipeline alapvetően az Amazon által nyújtott webszolgáltatás, amely segít az adatok átalakításában, feldolgozásában és elemzésében méretezhető és megbízható módon, valamint a feldolgozott adatok tárolásához az S3, a DynamoDb vagy a helyszíni adatbázisban.

  • Az AWS Data Pipeline segítségével könnyedén hozzáférhet különféle forrásokból származó adatokhoz.
  • Alakítsa át és dolgozza fel az adatokat méretarányosan.
  • Eredményesen továbbítsa az eredményeket más szolgáltatásokra, például az S3, a DynamoDb táblára vagy a helyszíni adattárolóra.

Az adatcsővezeték alapvető használati példája

  • Lehet, hogy egy webhelyet telepítünk az EC2-en, amely minden nap naplókat generál.
  • Egy egyszerű napi feladatot az E2 naplófájljai másolhatók, és elérhetik azokat az S3 vödörbe.
  • Heti feladat lehet az adatok feldolgozása és az elemzés elindítása az Amazon EMR-en keresztül, hogy minden összegyűjtött adat alapján heti jelentéseket lehessen készíteni.

Adatelemzés indítása az AWS Data Pipeline segítségével

  • Az adatok gyűjtése különböző adatforrásokból, például - S3, Dynamodb, helyszíni, érzékelőadatok stb.
  • Átalakítás, feldolgozás és elemzés végrehajtása az AWS EMR-en heti jelentések készítéséhez.
  • A heti jelentés mentése a Redshift, S3 vagy helyszíni adatbázisba.

Az AWS Data Pipeline előnyei

A pontok alatt magyarázza az AWS Data Pipeline előnyeit:

  • Drag and Drop konzol, amely könnyen érthető és használható.
  • Elosztott és megbízható infrastruktúra: Az adatvezetékek méretezhető szolgáltatásokon futnak, és megbízhatóak, ha bármilyen hiba vagy feladat sikertelen, akkor újra beállíthatók.
  • Támogatja az ütemezést és a hibakövetést: Ütemezheti a feladatokat, és nyomon tudja követni azokat, amelyek sikertelenek és sikeresek voltak.
  • Elosztva: Párhuzamosan futtatható több gépen vagy lineáris módon.
  • Teljes ellenőrzés a számítási erőforrások felett, például EC2, EMR klaszterek.

AWS Data Pipeline alkatrészek

Az alábbiakban bemutatjuk az AWS Data Pipeline összetevőit:

1. Csővezeték meghatározása

Konvertálja az üzleti logikát az AWS Data Pipeline-ba.

  • Adatcsomópontok : tartalmazza az esetleges adatforrás nevét, helyét, formátumát (S3, dinamodb, helyszíni)
  • Tevékenységek : Adatok mozgatása, átalakítása vagy lekérdezések végrehajtása.
  • Ütemezés : Ütemezze a napi vagy heti tevékenységeit.
  • Előfeltétel : Az ütemező indításához szükséges feltételek ellenőrzik az adatok rendelkezésre állását a forrásnál.
  • Források : Számítsa ki az EC2, EMR forrásokat.
  • Műveletek : Frissítés az Data Pipeline-ról, értesítések küldése, riasztás indítása.

2. Csővezetékek

Itt ütemezheti és futtathatja a feladatokat meghatározott tevékenységek elvégzéséhez.

  • Csővezeték C alkatrészei : A csővezeték alkatrészei megegyeznek a csővezeték meghatározásának alkotóelemeivel.
  • Példányok: A feladatok futtatása közben az AWS összeállítja az összes komponenst, hogy létrehozzon bizonyos végrehajtható példányokat. Az ilyen esetekben minden információ megtalálható a konkrét feladatokról.
  • Kísérletek: Már beszéltünk arról, hogy az Data Pipeline mennyire megbízható az újból megismételt mechanizmusaival. Itt állíthatja be, hogy hányszor próbálkozzon újra a feladattal, ha az nem sikerül.

3. Feladat Runner

Az AWS Data Pipeline feladatait kérdezi vagy kérdezi, majd végrehajtja ezeket a feladatokat.

AWS Data Pipeline árképzés

A pontok alatt magyarázza az AWS Data csővezeték árazását:

1. Ingyenes szint

Az AWS ingyenes felhasználási szintjének részeként ingyenesen elkezdheti az AWS Data Pipeline használatát. Az új feliratkozó ügyfelek havonta ingyenes kedvezményeket kapnak egy évre:

  • 3 Az AWS alacsony frekvenciájú futtatásának előfeltételei díjmentesen.
  • 5 AWS-en futó alacsony frekvenciájú tevékenységek díjmentesen.

2. Alacsony frekvencia

Az alacsony frekvencia azt jelenti, hogy egy nap alatt csak egyszer fut. Az Data Pipeline ugyanazt a számlázási stratégiát követi, mint a többi AWS webszolgáltatás, azaz számolja fel a felhasználását. Számlázza, hogy a feladatok, tevékenységek és előfeltételek milyen gyakran futnak minden nap, és hol futnak (AWS vagy helyszíni). A nagyfrekvenciás tevékenységeknek a tervek szerint naponta többször is futnak.

Példa: Ütemezhetünk egy tevékenységet óránként futtatásra és a webnaplók feldolgozására, vagy akár 12 óránként is. Míg az alacsony frekvenciájú tevékenységek azok, amelyek naponta egyszer vagy kevésbé futnak, ha az előfeltételek nem teljesülnek. Az inaktív csővezetékeknek van joko OFF, PENDING és FINISHED állapota.

3. Az AWS Data Pipeline árainak feltüntetése a régiók szerint bölcs

1. régió: Az Egyesült Államok keleti része (N.Virginia), az Egyesült Államok nyugata (Oregon), Ázsia-csendes-óceán (Sydney), EU (Írország)

Magas frekvenciaAlacsony frekvenciaju
Az AWS felett futó tevékenységek vagy előfeltételek Havonta 1, 00 USD Havonta 0, 06 USD
Helyszíni tevékenységek vagy előfeltételek Havonta 2, 50 USD Havonta 1, 50 USD
Inaktív csővezetékek: 1, 00 USD havonta

2. régió: Ázsia-csendes-óceán (Tokió)

Magas frekvenciaAlacsony frekvenciaju
Az AWS felett futó tevékenységek vagy előfeltételek Havonta 0, 9524 USD 0, 5715 USD havonta
Helyszíni tevékenységek vagy előfeltételek Havonta 2.381 USD 1, 4286 USD havonta
Inaktív csővezetékek: 0, 9524 USD havonta

Az a napi munka, azaz az AWS alacsony frekvenciájú tevékenysége, amely az adatokat a DynamoDB táblából az Amazon S3-ra továbbítja, havonta 0, 60 dollárba kerül. Ha hozzáadjuk az EC2-t az Amazon S3 adatain alapuló jelentés elkészítéséhez, akkor a teljes vezetékköltség havonta 1, 20 dollár lenne. Ha ezt a tevékenységet 6 óránként hajtjuk végre, akkor havonta 2, 00 dollárba kerülne, mert akkor ez nagyfrekvenciás tevékenység lenne.

Következtetés

Az AWS Data Pipeline nagyon praktikus megoldás az exponenciálisan növekvő adatok olcsóbb kezelésére. Nagyon megbízható és méretezhető az Ön igényei szerint. Bármely üzleti igényre, ahol nagy mennyiségű adat foglalkozik, az AWS Data Pipeline nagyon jó választás az összes üzleti célunk eléréséhez.

Ajánlott cikkek

Ez egy útmutató az AWS Data Pipeline-hoz. Itt tárgyaljuk az adatvezeték igényeit, mi az AWS adatvezeték, annak komponense és árazási részletei. Megnézheti más kapcsolódó cikkeket is, ha többet szeretne megtudni -

  1. AWS EBS
  2. AWS adatbázisok
  3. Mi az AWS EC2?
  4. Az adatok megjelenítésének előnyei
  5. Az AWS 7 legkiválóbb versenytársa
  6. Ismerje meg az Amazon Web Services szolgáltatások listáját

Kategória: