Bevezetés az adatbányászatba

Itt, ebben a cikkben megismerjük az adatbányászat bevezetését, mivel az emberek évszázadok óta bányásznak a földről, hogy mindenféle értékes anyagot beszerezzenek. Bányászat közben néha a földről fedezhetők fel olyan dolgok, amelyeket senki sem várhatott volna el. Például 1898-ban, egy síremlék feltárásakor, hogy múmiákat találjanak Saqqarában (Egyiptom), egy olyan fa tárgyat találtak, amely pontosan hasonlított egy repülőgépre. Kr. E. 200-ban született, körülbelül 2200 évvel ezelőtt! De milyen információkat szerezhetünk meg nagy mennyiségű adatból? És még ha bányászni is kezdjük, van-e esély arra, hogy váratlan eredményeket szerezzen az adatkészletből? Előtte nézzük meg, hogy mi az az Adatbányászat.

Mi az adatbányászat?

  • Alapvetően ez a létfontosságú információk / ismeretek kinyerése nagy adatsorból.
  • Gondolj az adatokra nagy talaj / sziklás felületként. Nem tudjuk, mi van benne, nem tudjuk, van-e valami hasznos a sziklák alatt.
  • Az Adatbányászat bevezetésében rejtett információkat keresünk, de fogalmunk sincs arról, hogy milyen típusú információt szeretnénk megtalálni, és mi azt tervezzük, hogy egyszer felhasználjuk.
  • Csakúgy, mint a hagyományos bányászatban, az adatbányászatban is vannak különféle technikák és eszközök, amelyek a bányászott adatok típusától függően változnak, tehát tisztáztuk, hogy mi az adatbányászat az adatbányászat bevezetésének ebben a témájában.

Példa az adatbányászatra

Az adatbányászat bevezetéséről a fenti szakaszban megismerkedtünk, és most folytatjuk az adatbányászat példáit, amelyek az alábbiakban vannak felsorolva:

  • Tehát van egy mobilhálózat-üzemeltető. Konzultálnak egy adatbányásztal, hogy bekerüljenek az üzemeltető hívás-nyilvántartásába. A Data Minernek nem adnak konkrét célokat.
  • Annak kvantitatív célja, hogy havonta legalább 2 új mintát keressen.
  • Amint az adatbányász elkezdi mélyedni az adatokba, azt találja, hogy szerdán kevesebb a nemzetközi hívás, mint más napokban.
  • Ezeket az információkat megosztják a vezetőséggel, és kidolgozzák azt a tervet, hogy a szerdánként csökkentik a nemzetközi hívások díját, és elindítanak egy kampányt.
  • Hívások növekedése, az ügyfelek elégedettek az alacsony hívásárral, több ügyfél regisztrál és a cég több pénzt keres! Win-Win helyzet!

A fenti példát szem előtt tartva vizsgáljuk meg az adatbányászat különféle lépéseit.

Az adatbányászatban részt vevő lépések

A fenti szakaszban megismertük az adatbányászat bevezetését, és tovább haladunk az adatbányászattal kapcsolatos, az alábbiakban felsorolt ​​lépésekkel:

  • Üzleti megértés

Az adatbányászat bevezetésében megértjük az üzleti célok és igények minden szempontját. A jelenlegi helyzetet az erőforrások, a feltételezések és más fontos tényezők megkeresésével kell értékelni. Ennek megfelelően egy jó bevezetés létrehozása az adatbányászati ​​tervben mind az üzleti, mind az adatbányászati ​​célok elérése érdekében.

  • Az adatok megértése

Az adatokat kezdetben az összes rendelkezésre álló forrásból összegyűjtik. Ezután kiválasztjuk a legjobb adatkészletet, ahonnan kinyerhetjük az adatokat, ami előnyösebb lehet.

  • Adatok előkészítése

Miután az adatkészlet azonosításra került, azt kiválasztják, megtisztítják, összeállítják és formálják a kívánt formátumban.

  • Adatmodellezés

Ez egy adott adat átalakításának folyamata a felhasználó igényei szerint. egy vagy több modell létrehozható az elkészített adatkészletben, és végül a modelleket körültekintően kell értékelni, bevonva az érdekelt feleket, hogy megbizonyosodjon arról, hogy a létrehozott modellek megfelelnek-e az üzleti kezdeményezéseknek.

  • Értékelés

Ez az adatkitermelés egyik legszükségesebb folyamata. Ez magában foglalja a folyamat minden aspektusának áttekintését annak érdekében, hogy ellenőrizze a folyamat esetleges hibáit vagy adatszivárgását. A felfedezett új mintáknak köszönhetően új üzleti követelmények is felmerülhetnek.

  • bevetés

Ez azt jelenti, hogy egyszerűen bemutatjuk a tudást oly módon, hogy az érdekelt felek felhasználhassák azt, amikor akarják. A fenti példánkban azt találtuk, hogy a nemzetközi hívások kevesebb voltak szerdánként, tehát ezt az információt az érdekelt feleknek adták át, akik ezt az információt előnyükhöz használják és növelik profitját.

Az adatbányászatban alkalmazott technikák

A fenti szakaszban megismerkedtünk az adatbányászat bevezetésével, most az adatbányászatban alkalmazott technikákkal folytatjuk az alább felsorolást:

  • Klaszteranalízis

A klaszterelemzés lehetővé teszi az adott felhasználói csoport azonosítását az adatbázis közös jellemzői szerint. Ezek a jellemzők között szerepelhet a kor, a földrajzi helyzet, az iskolai végzettség stb.

  • Anomália észlelése

Annak meghatározására szolgál, mikor valami észrevehetően különbözik a szokásos mintától. Az adatbázis következetlenségeinek vagy rendellenességeinek kiküszöbölésére szolgál a forrásnál.

  • Regresszió analízis

Ezt a technikát az adathalmazon belüli kapcsolatok alapján előrejelzések készítésére használják. Például meg lehet becsülni egy adott termék részvényrátáját a múltbeli ráta elemzésével, valamint a különféle tényezők figyelembevételével, amelyek meghatározzák a részvényrátát. Vagy amint az alább látható, ha rendelkezünk különféle személyek magasságának és súlyának adataival, akkor a magasság vagy a súly bármelyikére megadva meg tudjuk határozni a másik értéket.

  • Osztályozás

Ez azokkal a dolgokkal foglalkozik, amelyek címkéjén van. Megjegyzés: a klaszterek észlelésében a dolgoknak nem volt címkéje, és az adatbányászat segítségével címkézést és klaszterekké alakítását kellett elvégezni, de az osztályozásban létezik olyan információ, amely algoritmus segítségével könnyen besorolható. Példa erre az e-mail spam szűrők. A spamszűrő releváns és spam üzenetekkel (Training Data) is rendelkezik. Megkülönböztetik mindkettő közti különbségeket, ezáltal lehetővé téve a jövőbeli e-mailek helyes besorolását.

  • Asszociatív tanulás

Annak elemzésére szolgál, hogy mely dolgok hajlamosak együtt fordulni elő akár párban, akár nagyobb csoportokban. Például az emberek, akik hajlamosak citromot vásárolni, narancsot is vásárolnak, az emberek hajlamosak kenyeret vásárolni, tejet is vásárolnak stb. Így elemezzük az összes vásárló vásárlásait, és az együttmûködõ dolgokat egymáshoz közel helyezzük, hogy növeljük az eladásokat. Tehát a tejet kenyér közelébe helyezik, a citromot a narancs mellé és így tovább.

Etikus az adatbányászat?

Tehát egy hétvégi kirándulást tervezek egy barátjával Goa-ba, jó internetes helyeket keresek Goa-ban. Amikor legközelebb megnyitom az internetet, hirdetéseket találok Goa különféle szállodáiról.

  • Jó dolog?

Igen, az internet segített nekem egyszerűsíteni az utamat. Végül is, ha úgy döntök, hogy meglátogatom Goát, le kellene aludnom valahol, és egy szállodát mutató hirdetés sokkal hasznosabb, mint egy véletlenszerű ruhákat mutató hirdetés.

  • Rossz dolog?

Igen! Miért tudna egy olyan adatbányászati ​​vállalat, amelyről még soha nem hallottam, hogy tudja, merre megyek nyaralni? Mi van, ha még senkinek sem mondtam el erről az utazásról, de itt az internet hirtelen tudja, hogy megyek oda. Az igazság az, hogy az adatbányászati ​​vállalat üzleti modellje ettől függ. Ezeket az adatokat cookie-k és szkriptek útján gyűjtik, majd eladják a hirdetőknek, akik viszont megpróbálnak eladni nekem valamit (ebben az esetben egy szállodai szobát).

Tehát lehet jó vagy rossz is, attól függően, hogyan nézünk rá. Emellett a cookie-kat is kikapcsolhatjuk, vagy inkognitómódba válthatunk. Bármi legyen is az, egy dolog biztos. Az adatbányászat itt marad.

Ajánlott cikkek

Ez egy útmutató az adatbányászat bevezetéséhez. Itt a jobb értelmezés érdekében példával tárgyaljuk annak jelentését, technikáit és az adatbányászat bevezetésének lépéseit. A következő cikkeket is megnézheti további információkért -

  1. Adatbányászati ​​interjú kérdései
  2. Prediktív elemzés vs. adatbányászat
  3. Bevezetés az adattudományba
  4. Mi a regressziós elemzés?

Kategória: