Adatbányászati algoritmusok Az 5 legfontosabb adatbányászati algoritmus, amelyet tudnia kell

Mi az adatbányászati algoritmus?

Az adatbányászati algoritmus vizsgálati és analitikai algoritmusok halmaza, amelyek segítenek az adatok modelljének létrehozásában. Egy konkrét modell elõállításához az algoritmusnak elõször meg kell elemeznie a megadott adatokat, amelyek a minták vagy trendek meghatározott típusait találhatják meg. Ennek az algoritmusnak az eredménye a különféle iterációk elemzése, amelyek segítenek megtalálni az optimális paramétereket a megfelelő adatbányászati modellhez. Ezek a paraméterkészletek az egész adatkészletre alkalmazhatók, és elősegítik a kivitelezhető minták kibontását és az adatok részletes statisztikájának megszerzését.

A legnépszerűbb adatbányászati algoritmusok

Vessen egy pillantást a legfontosabb adatbányászati algoritmusokra:

1. C4.5 algoritmus

Vannak olyan konstrukciók, amelyeket az osztályozók használnak, amelyek eszközök az adatbányászatban. Ezek a rendszerek olyan esetek gyűjteményéből vesznek bemeneteket, ahol minden eset a kis számú osztály egyikéhez tartozik, és rögzített attribútumkészletének értékei írják le. A kimeneti osztályozó pontosan meg tudja jósolni azt az osztályt, amelyhez tartozik. Olyan döntési fákat használ, ahol az első kezdeti fa egy osztó és hódító algoritmus segítségével szerezhető meg.

Tegyük fel, hogy S egy osztály, és a fa leveleit az S leggyakoribb osztálya jelöli. Használhat egy tesztet egyetlen attribútum alapján, kettő vagy több kimenetelgel, mint ez a teszt, ha a teszt minden egyes eredményére gyökér egyágúvá tesszük. A partíciók az S1, S2 stb. Alkészleteknek felelnek meg, amelyek mindegyik eset kimenetele. A C4.5 többféle eredményt tesz lehetővé. Összetett döntési fák esetén a C4.5 alternatív képletet vezetett be, amely a szabályok listájából áll, ahol ezeket a szabályokat minden osztályra csoportosítják. Az eset besorolására az első olyan osztály tartozik, amelynek a feltételei teljesülnek. Ha egy eset sem teljesíti az esetet, akkor egy alapértelmezett osztályt kell hozzárendelni. A C4.5 szabálykészleteket a kezdeti döntési fáról hozzák létre. A C4.5 javítja a skálázhatóságot a többszálú menettel.

2. A k-átlag algoritmus

Ez az algoritmus egy egyszerű módszer egy adott adatkészlet particionálására a felhasználó által megadott fürtökbe. Ez az algoritmus D-dimenziós vektorokon működik, D = (xi | i = 1, … N), ahol i az adatpont. Ezeknek a kezdeti adatoknak a begyűjtéséhez az adatokat véletlenszerűen kell mintában venni. Ez megteremti a megoldást az adatok egy kis részhalmazának csoportosítására, az adatok globális átlaga k-szorosa. Ez az algoritmus összekapcsolható egy másik algoritmussal a nem konvex klaszterek leírására. K csoportot hoz létre az adott objektumkészletből. A fürtanalízissel feltárja a teljes adatkészletet. Egyszerű és gyorsabb, mint más algoritmusok, ha más algoritmusokkal használják. Ez az algoritmus többnyire félig felügyelt. A klaszterek számának meghatározása mellett információ nélkül is folytatja a tanulást. Megfigyeli a klasztert és megtanulja.

3. Naiv Bayes algoritmus

Ez az algoritmus a Bayes-tételre épül. Ezt az algoritmust elsősorban akkor használják, ha a bemenetek dimenziója magas. Ez az osztályozó könnyen kiszámítja a következő lehetséges kimenetet. Új nyers adatok adhatók hozzá a futási idő alatt, és ez jobb valószínűségű osztályozót biztosít. Minden osztálynak van ismert vektorkészlete, amelynek célja egy olyan szabály létrehozása, amely lehetővé teszi az objektumok hozzárendelését az osztályokhoz a jövőben. A változók vektorai leírják a jövőbeli objektumokat. Ez az egyik legegyszerűbb algoritmus, mivel könnyen felépíthető, és nincs bonyolult paraméterbecslési sémája. Könnyen alkalmazható hatalmas adatkészletekre is. Nincs szükség bonyolult, iteratív paraméterbecslési sémákra, így képzetlen felhasználók megérthetik, miért készülnek a besorolások.

4. Támogassa a vektorgép algoritmust

Ha a felhasználó robusztus és pontos módszereket akar, akkor a Support Vector gépek algoritmusát ki kell próbálni. Az SVM-eket főként a tanulási osztályozáshoz, regresszióhoz vagy rangsoroláshoz használják. A strukturális kockázat minimalizálása és a statisztikai tanulási elmélet alapján alakul ki. Meg kell határozni a döntési határokat, amelyeket hiper síknak hívnak. Segít az osztályok optimális elkülönítésében. Az SVM fő feladata a két osztály közötti különbség maximalizálása. A margó a két osztály közötti tér nagysága. A hipersík függvény egy olyan egyenlet, mint a vonal, y = MX + b. Az SVM kiterjeszthető numerikus számítások elvégzésére is. Az SVM a kernelt használja, hogy magasabb méretekben is jól működjön. Ez egy felügyelt algoritmus, és az adatkészletet arra használják, hogy az SVM előbb megismerje az összes osztályt. Ha ez megtörtént, az SVM képes lesz osztályozni ezt az új adatot.

5. Az Apriori algoritmus

Az Apriori algoritmust széles körben használják a tranzakciós adatkészletből a gyakori elemkészletek megtalálására és az asszociációs szabályok származtatására. A kombinatorikus robbanás miatt nem nehéz megtalálni a gyakori cikkkészleteket. Ha egyszer megkapjuk a gyakori elemkészleteket, akkor egyértelmű, hogy társítási szabályokat állítunk elő nagyobb vagy egyenlő megadott minimális megbízhatóság érdekében. Az Apriori egy algoritmus, amely elősegíti a gyakori adathalmazok megtalálását a jelölt generáció felhasználásával. Feltételezi, hogy az elemkészlet vagy a jelen lévő elemek lexikográfiai sorrendbe vannak rendezve. Az Apriori bevezetése után az adatbányászat kutatása kifejezetten fellendült. Ez egyszerű és könnyen megvalósítható. Ennek az algoritmusnak az alapvető megközelítése a következő:

Csatlakozás : Az egész adatbázist a kapa gyakran 1 tételkészletéhez használják.
Szilva : Ennek az elemkészletnek meg kell felelnie a támogatásnak és a magabiztosságnak, hogy a következő ciklusra lépjen a 2 elemkészlet esetében.
Ismétlés : Mindaddig, amíg az előre megadott méretet nem éri el, addig ezt meg kell ismételni minden elemkészlet szintjén.

Következtetés

Az öt algoritmus kiemelkedő felhasználása mellett vannak mások is, amelyek segítenek az adatok bányászásában és megtanulják. Integrálja a különböző technikákat, beleértve gépi tanulást, statisztikákat, mintázatfelismerést, mesterséges intelligenciát és adatbázis-rendszereket. Mindez elősegíti a nagy adatsorok elemzését és a különböző adatelemzési feladatok elvégzését. Ezért ezek a leghasznosabb és legmegbízhatóbb elemző algoritmusok.

Ajánlott cikkek

Ez egy útmutató az Adatbányászati algoritmusokhoz. Itt megvitattuk az alapelveket és a top adatbányász algoritmusokat. Megnézheti a többi javasolt cikket is, hogy többet megtudjon-

Mi a szoftver tesztelése?
Döntési fa algoritmus
Mi a Generics a Java-ban?
Az adatbányászat architektúrája
Az adatbányászat alkalmazásai
Példák és hogyan működnek a generikus gyógyszerek a C # -ben
Az adatbányászat modelljei előnyeivel

Adatbányászati algoritmusok Az 5 legfontosabb adatbányászati algoritmus, amelyet tudnia kell

Tartalomjegyzék:

Mi az adatbányászati algoritmus?