Mi az az adatelemzés - Különböző típusú adatelemzés

Tartalomjegyzék:

Anonim

Mi az adatelemzés?

Az adatanalitika egy olyan folyamat, amellyel a legfontosabb észrevételeket és értékes következtetéseket fedezhetik fel a rengeteg adatból, amelyeket különféle forrásokból gyűjtöttek vagy gyűjtöttek a döntéshozatal támogatására. Nagyobb számítási teljesítmény, nagy feldolgozási sebesség. Az interaktív végfelhasználói interfészek megjelenése és az elosztott számítástechnikai paradigma bizonyított hatékonysága az adatok nagy részének kezelésére készítette az adatok elemzését minden területen, kiemelkedően a kiskereskedelem, a banki szolgáltatások, az egészségügy, a logisztika, a védelem, a közigazgatás stb. Területén.

Az adatelemzés típusai

Az adatelemzési folyamat szubjektív módon három típusba sorolható az adatok elemzésének célja alapján

  • Leíró elemzés
  • Prediktív elemzés
  • Vényköteles elemzés

Az elemzés fent felsorolt ​​típusainak jellemzőit az alábbiakban ismertetjük:

1. Leíró elemzés

A leíró elemzés a múltbeli adatok összegzésére összpontosít, hogy következtetéseket vonjon le. A történeti adatok eloszlásának mennyiségi jellemzésére leggyakrabban használt intézkedések a következőket tartalmazzák

  • A központi tendencia mérései - középérték, medián, kvartilis, mód.
  • A variabilitás vagy az eloszlás mérése - Tartomány, Kvarcközi tartomány, Százalékok.

Az utóbbi időben a statisztikai következtetési folyamat segítségével legyőződnek a hatalmas adathalmok gyűjtésével, tárolásával és megértésével kapcsolatos nehézségek és korlátok. A populációs adatkészlet statisztikáinak általánosított következtetéseit mintavételi módszerekkel és a központi korlátozó elmélet alkalmazásával vonják le.

Egy vezető hírközlő műsor a véletlenszerűen kiválasztott szavazók szavazati adatait gyűjti a választási napon a szavazóhelyiség kijáratánál, hogy statisztikai következtetéseket vonjon le az egész lakosság preferenciáiról.

A populációs adatállomány ismételt mintavételezésekor a minta elég nagy méretű darabokat eredményez. A csoportos mintavétel általában előnyösebb a jól rétegzett, elfogulatlan lakosság-adatállomány képviselőinek előállításához. Az érdeklődésre számot tartó statisztikai mérést a mintavételes adattömegeken kell kiszámítani, hogy megkapjuk a mintavételi statisztikai értékek eloszlásnak nevezett eloszlását. A mintavételi eloszlás jellemzői a populációs adatkészlethez kapcsolódnak, a központi korlátozó elmélet felhasználásával.

2. Prediktív elemzés

A prediktív elemzés a történeti vagy a múltbeli adatok mintáit használja fel a jövőbeli eredmények becslésére, a trendek azonosítására, a lehetséges kockázatok és lehetőségek feltárására vagy a folyamat viselkedésének előrejelzésére. Mivel az előrejelzés felhasználási esetei valószínűsíthetőek, ezek a megközelítések valószínűségi modelleket alkalmaznak az összes lehetséges eredmény valószínűségének mérésére.

A pénzügyi vállalkozás ügyfélszolgálati portáljában lévő chatBot proaktív módon megtanulja az ügyfelek szándékát vagy szükségességét a webtartományban múltbeli tevékenységein alapulni. Az előrejelzett környezetben a chatBot interaktív módon beszélget az ügyféllel, hogy gyors szolgáltatásokat nyújtson és jobb vevői elégedettséget érjen el.

Az extrapolációs forgatókönyvek mellett, amelyek a rendelkezésre álló múltbéli adatok alapján megjósolják a jövőbeni eseményeket, kevés alkalmazás van arra, hogy a rendelkezésre álló adatminták segítségével kitalálja a kihagyott adatbevitelt. A kihagyott értékeknek az adott adatminta tartományán belüli közelítését technikailag Interpolációnak nevezik.

A nagy teljesítményű képszerkesztő alkalmazás támogatja a textúra kihagyott részeinek rekonstruálását a szuper-kényszerített szöveg miatt, a funkció funkció interpolálásával a kihagyott blokkban. A funkciófüggvény értelmezhető úgy, mint a torzított kép textúrájának mintázatainak matematikai jelölése.

A prediktív modellek / stratégiák megválasztását befolyásoló jelentős tényezők a következők:

  • Előrejelzési pontosság: Ez közvetíti a várható érték és a tényleges érték közti közelségi fokot. A becsült érték és a tényleges érték közötti különbség alacsonyabb varianciája magasabb prediktív modell pontosságot jelent.
  • Jóslatok sebessége: A valós idejű nyomkövető alkalmazásokban ez magas prioritást élvez
  • Modell tanulási aránya: Ez a modell összetettségétől és a modell paramétereinek kiszámításához szükséges számításoktól függ.

3. Prescriptive Analytics

A prescriptive Analytics a felfedezett ismereteket mind a leíró, mind a prediktív elemzés részeként felhasználja egy kontextustudatos cselekvési terv ajánlására. Fejlett statisztikai technikákat és számításigényes optimalizálási módszereket alkalmaznak a becsült előrejelzések eloszlásának megértésére.

Pontosan megfogalmazva, az egyes eredmények prediktív elemzés során becsült eredményeit és hasznait - heurisztikus és időérzékeny döntések meghozatala érdekében - meghatározzák az adott körülmények között.

Egy tőzsdei tanácsadó cég SWOT (erősség, gyengeség, lehetőségek és fenyegetés) elemzést végez a befektetők portfóliójában szereplő részvények előrejelzett árain, és ügyfelei számára a legjobb vétel-eladási lehetőséget ajánlja.

Folyamatáramlás az adatelemzésben

Az adatelemzés folyamata az adatfeldolgozás különböző szakaszaival rendelkezik, az alábbiak szerint:

1. Adatkivonás

A különféle típusú adatforrásokból - például weblapokból, adatbázisokból, régebbi alkalmazásokból - származó adatok beolvasása különböző formátumú bemeneti adatkészleteket eredményez. Az adatelemzési folyamatba bevitt adatformátumok nagyjából osztályozhatók

  • A strukturált adatok egyértelműen meghatározzák az adattípusokat, a hozzájuk tartozó mezőhosszokkal vagy mezőhatárolókkal együtt. Az ilyen típusú adatok könnyen lekérdezhetők, mint például a relációs adatbázisban (RDBMS) tárolt tartalom.
  • A félig strukturált adatokban nincs pontos elrendezés-meghatározás, de az adatelemek azonosíthatók, elválaszthatók és csoportosíthatók egy szabványos séma vagy más metaadat-szabályok alapján. Az XML fájl címkézést alkalmaz az adatok tárolására, míg a Javascript object Notation file (JSON) név-érték párokban tárolja az adatokat. A NoSQL (nem csak SQL) adatbázisok, mint például a MongoDB, de a kanapé alapját is félig strukturált adatok tárolására használják.
  • A nem strukturált adatok magukban foglalják a közösségi média beszélgetéseket, képeket, audio klipeket stb. A hagyományos adatelemzési módszerek nem értik ezeket az adatokat. A nem strukturált adatokat az adat tavak tárolják.

A strukturált és félig strukturált adatok elemzésének végrehajtása beépül a különféle ETL eszközökbe, például az Ab Initio, az Informatica, a Datastage és a nyílt forrású alternatívákba, például a Talend.

2. Az adatok tisztítása és átalakítása

Az elemzett adatok tisztítása az adatok konzisztenciájának és a releváns adatok rendelkezésre állásának biztosítása érdekében a folyamatfolyamat későbbi szakaszaiban történik. Az adatelemzés főbb tisztítási műveletei a következők:

  • Az idegen mennyiségek kimutatása és kiküszöbölése az adatmennyiségekben
  • Másolatok eltávolítása az adatkészletből
  • Az adatrekordokban hiányzó bejegyzések kezelése a funkcionalitás vagy a felhasználási esetek megértésével
  • Az olyan adatrekordok megengedett mezőértékeinek érvényesítése, mint például a „február 31”, a dátummezők egyikében sem lehet érvényes érték.

A megtisztított adatokat az adatok elemzéséhez megfelelő formátummá alakítják. Az adatátalakítások magukban foglalják

  • A nem kívánt adatrekordok szűrője.
  • Csatlakozás a különböző forrásokból behozott adatokhoz.
  • Adatok összesítése vagy csoportosítása
  • Adatok gépelése

3. KPI / Insight származtatása

Az Adatbányászat, a mélyreható tanulási módszereket használják a kulcsfontosságú teljesítménymutatók (KPI) kiértékelésére, vagy értékes információk bevezetésére a tisztított és átalakított adatokból. Az elemzés célja alapján az adatok elemzését különféle mintafelismerési technikákkal hajtják végre, mint például a k-eszköz klaszterezés, SVM osztályozás, Bayes-osztályozók stb., Valamint a gépi tanulási modellek, például Markov modellek, Gaussian keverékmodellek (GMM) stb.

A valószínűségi modellek az edzési szakaszban megtanulják az optimális modellparamétereket, és az érvényesítési szakaszban a modellt k-szoros kereszt-validációs teszteléssel tesztelik, hogy elkerüljék a túl illeszkedő és az alulillesztési hibákat.

Az adatok elemzéséhez a leggyakrabban használt programozási nyelv az R és a Python. Mindkettőnek gazdag könyvtárak (SciPy, NumPy, Pandas) vannak, amelyek nyílt forrásúak, hogy összetett adatelemzést végezzenek.

4. Az adatok megjelenítése

Az adatmegjelenítés a lefedetlen minták, az adatokból levont következtetések grafikonok, diagramok, műszerfalak és grafikák felhasználásával történő világos és hatékony bemutatásának folyamata.

  • Az olyan adatszolgáltatási eszközök, mint a QlikView, Tableau stb., A KPI-t és más származtatott mutatókat jelenítik meg a granularitás különböző szintjein.
  • A jelentési eszközök lehetővé teszik a végfelhasználók számára, hogy testreszabott jelentéseket készítsenek pivot, lebontható lehetőségekkel, felhasználóbarát drag and drop interfészek segítségével
  • Az elemzett adatok felfedezésének fokozására olyan interaktív adatmegjelenítő könyvtárakat használnak, mint a D3.js (adatvezérelt dokumentumok), HTML5-Anycharts stb.

Ajánlott cikkek

Ez egy útmutató a Mi az az adatelemzés elemhez. Itt tárgyaltuk a különféle típusú adatelemzéseket a folyamatárammal. Megnézheti más javasolt cikkeket is, ha többet szeretne megtudni -

  1. Adatanalitikus interjúkérdések és válaszok
  2. Mi az adatmegjelenítés?
  3. Mi a nagy adatanalitika?
  4. Mi a Minitab?