Bevezetés az adatbányászat típusaiba
Az „adatbányászat” kifejezés azt jelenti, hogy egy nagy adatkészletet és az enyém adatokat be kell vizsgálnunk, hogy ábrázoljuk az adatok lényegét. Nagyon hasonló ahhoz, ahogyan a szénbányászatot végzik, ahol a szén mélyén a föld alatti bányászat különféle eszközökkel történik, az adatbányászathoz kapcsolódó eszközök is vannak, amelyek segítségével az adatokból a lehető legtöbbet lehet kihozni. Az adatbányászat egyik nagyon gyakori téves értelmezése az, hogy erre gondolnak, amikor megpróbálunk új adatokat kinyerni, de nem mindig igaz. Utal arra is, hogy megpróbáljuk értelmezni a már meglévő adatok értelmét. Az adatbányászat önmagában tehát hatalmas terület, ahol a következő néhány bekezdésben mélyebben belemerülünk az Adatbányászat eszközeibe. Ebben a cikkben az adatbányászat típusait tárgyaljuk.
Mi az adatbányászat?
Ahogyan az adatbányászatról korábban beszéltünk, az adatbányászat egy olyan folyamat, amelynek során megpróbáljuk a lehető legjobban kihozni az adatokat. Az adatbányászat eszközök hídként szolgálnak az adatok és az adatokból származó információk között. Néhány blogban az adatbányászatot tudásfedezésnek is nevezik. Itt röviden áttekintjük az adatbányászat végrehajtásának folyamatát, hogy az adatbányászat mögött meghúzódó intuíció világos és az olvasók számára könnyen megérthető legyen. A folyamatábra alatt a folyamatot ábrázolja:
A fent tárgyalt folyamatban minden szinten vannak eszközök, és megpróbálunk mélyebben belemerülni a legfontosabbba.
Az adatbányászat típusai
Az adatbányászat a következő típusú adatokon végezhető el:
1. Simítás (az adatok előkészítése)
Az adatbányászati technika ezen speciális módszere az adatok előkészítésének műfaja alá tartozik. Ennek a technikának a fő célja a zaj eltávolítása az adatokból. Itt az algoritmusok, mint például az egyszerű exponenciális érték, a mozgó átlagot használják a zaj eltávolítására. A feltáró elemzés során ez a módszer nagyon hasznos a trendek / érzelmek megjelenítésében.
2. Összesítés (az adatok előkészítése)
Mivel a kifejezés azt sugallja, hogy az adatok egy csoportját összesítik, hogy több információt szerezzenek. Ezt a technikát alkalmazzák az üzleti célok áttekintésére, és manuálisan vagy speciális szoftverekkel is végrehajthatók. Ezt a technikát általában nagy adatokon alkalmazzák, mivel a nagy adatok nem nyújtják a szükséges információt egészében.
3. Általánosítás (az adatok elkészítése)
Ismét, ahogy a neve is sugallja, ezt a technikát alkalmazzák az adatok egészének általánosítására. Ez különbözik az aggregálástól abban az értelemben, hogy az általánosítás során az adatokat nem csoportosítják össze több információ elérése érdekében, hanem viszont a teljes adatkészlet általánosításra kerül. Ez lehetővé teszi az adattudományi modell alkalmazkodását az újabb adatpontokhoz.
4. Normalizálás (az adatok előkészítése)
Ebben a technikában az adatpontokra különös figyelmet fordítanak, hogy azokat ugyanabba a skálába helyezzék az elemzéshez. Például egy személy életkora és fizetése különböző mérési skálákban esik, így grafikonon történő ábrázolásuk nem segít abban, hogy hasznos információkat szerezzünk a közös jellemzőként megjelenő tendenciákról. A normalizálás alkalmazásával egyenlő skálába állíthatjuk őket, így elvégezhető az alma és az alma összehasonlítása.
5. Attribútum / szolgáltatás kiválasztása (az adatok előkészítése)
Ebben a technikában olyan módszereket alkalmazunk, amelyek kiválasztják a funkciókat, hogy az adatkészletek kiképzéséhez használt modell jelezze azt az értéket, hogy megjósolja azokat az adatokat, amelyeket még nem látott. Ez nagyon hasonló ahhoz, hogy megfelelő ruhát válasszon a ruhákkal teli ruhásszekrényből, hogy megfeleljen az eseménynek. A nem releváns szolgáltatások negatívan befolyásolhatják a modell teljesítményét, nem is beszélve a teljesítmény javításáról.
6. Besorolás (az adatok modellezése)
Az adatbányászat ezen technikájában a csoportokat „osztályoknak” nevezzük. Ebben a technikában a kiválasztott funkciókat (a fenti pontban tárgyalt módon) együttesen alkalmazzuk csoportokra / kategóriákra. Például egy üzletben, ha ki kell értékelnünk, hogy valaki megvásárol-e egy terméket, vannak „n” számú szolgáltatás, amelyeket együttesen használhatunk az Igaz / Hamis eredmény elérésére.
7. Mintakövetés
Ez az adatbányászatban alkalmazott egyik alapvető módszer a trendekkel / mintákkal kapcsolatos információk megszerzéséhez, amelyeket az adatpontok mutathatnak. Például meghatározhatjuk azt a tendenciát, hogy a hétköznapok vagy munkaszünetek helyett inkább hétvégén vagy ünnepnapokon növekszik az értékesítés.
8. Külső elemzés vagy rendellenesség-észlelés
Itt és a név is sugallja, hogy ezt a technikát használják az eltérések vagy rendellenességek megállapítására vagy elemzésére. A kiugró értékek vagy rendellenességek nem negatív adatpontok, csak valami, amely kiemelkedik a teljes adatkészlet általános tendenciáján. A külsõ értékek azonosításakor ezeket teljesen eltávolíthatjuk az adatkészletbõl, ami az adatok elõkészítésekor történik. Vagy ezt a technikát széles körben használják a modell adatkészletekben a túlmutatók előrejelzésére is.
9. Fürtözés
Ez a technika nagyjából hasonlít a besoroláshoz, de az egyetlen különbség az, hogy nem tudjuk azt a csoportot, amelybe az adatpontok csoportosítást követően a funkciók gyűjtése után esnek. Ezt a módszert általában arra használják, hogy az emberek csoportosuljanak hasonló termékjavaslatok célzására.
10. Regresszió
Ezt a technikát használják egy szolgáltatás valószínűségének előrejelzésére más jellemzők jelenlétével. Például megfogalmazhatjuk egy tétel árának valószínűségét a kereslet, a verseny és néhány további jellemző szempontjából.
11. Neurális hálózat
Ez a technika a biológiai idegsejtek működésének elvén alapul. Hasonlóan ahhoz, amit az emberi test neuronjai tesznek, az adatbányászat során egy idegi hálózatban lévő neuronok szintén feldolgozó egységként működnek és egy másik neuront összekötnek, hogy továbbítsák az információt a lánc mentén.
12. Egyesület
Az adatbányászat ezen módszerében meghatározzák a különféle jellemzők közötti viszonyt, amelyet viszont rejtett minták megtalálására használnak, vagy pedig a kapcsolódó elemzést üzleti követelmények szerint hajtják végre. Például az asszociáció segítségével megtalálhatjuk az egymással összefüggő funkciókat, és így hangsúlyozni lehet bárki eltávolítását, hogy eltávolítsunk néhány redundáns funkciót és javítsuk a feldolgozási teljesítményt / időt.
Következtetés
Összegezve: különféle követelmények vannak, amelyeket szem előtt kell tartani az adatbányászat során. Nagyon óvatosnak kell lennie arról, hogy milyen eredményt vár el, hogy a megfelelő technikák felhasználhatók legyenek a cél elérésére. Noha az adatbányászat fejlődő tér, megpróbáltunk kimerítő listát készíteni az Adatbányászat fenti összes eszközének olvasói számára.
Ajánlott cikkek
Ez egy útmutató az adatbányászat típusához. Itt tárgyaljuk a Bevezetést és az adatbányászat 12 legfontosabb típusát. Megnézheti más javasolt cikkeinket -
- Az adatbányászat előnyei
- Adatbányászati architektúra
- Adatbányászati módszerek
- Adatbányászati eszköz
- A modellek típusai az adatbányászatban