Bevezetés a klaszterezési módszerekbe
Ez a cikk áttekintést nyújt az adatbányászati technikákban alkalmazott különböző klaszterezési módszerekről, különböző elvekkel. A fürtözés az adatobjektumok halmaza, amely egy másik logikai csoportba van rendezve. Hasonló adatelemek csoportosítása és hasonló adatelemek hozzárendelése egyes klaszterekbe. A csoportosítást nagy adathalmazokban hajtják végre, felügyelet nélkül. Ennek során az adatkészletet csoportokra osztjuk. A klaszterezés szerkezetét az alcsoportok a következők szerint ábrázolják. C = c1, c2 … c n . Mivel a klasztercsoportok hasonló objektumokkal rendelkeznek, néhány intézkedést meg kell tenni a klaszterezési módszerekben a távolság és a hasonlóság mérésének meghatározására. A klaszterezési módszerek valószínűségi modelleken alapulnak. Az adatbányászathoz a méretezhetőség érdekében a nagy adatbázisok kezeléséhez, a többdimenziós tér kezeléséhez, a hibás adatokkal és zajok kezeléséhez szükséges a méretezés.
Magyarázza a klaszterezési módszereket?
Ez a klaszterezési módszer elősegíti az értékes adatok fürtökbe történő csoportosítását, és ebből a különböző eredmények alapján megfelelő eredményeket választ. Példa: az információk lekérdezésében a lekérdezés eredményeit kis fürtökre csoportosítják, és minden klaszternek nincs releváns eredménye. A klaszterezési technikákkal hasonló kategóriákba vannak csoportosítva, és minden kategóriát alkategóriákra osztanak, hogy segítsék a lekérdezések eredményének feltárását. Különböző típusú klaszterezési módszerek léteznek
- Hierarchikus módszerek
- Osztási módszerek
- Sűrűség alapú
- Modell alapú klaszterezés
- Rács alapú modell
Az alábbiakban áttekintjük az adatbányászatban és a mesterséges intelligenciában alkalmazott technikákat.
1. Hierarchikus módszer
Ez a módszer létrehoz egy fürtöt felosztásos módon felülről lefelé és alulról felfelé. Mindkét megközelítés dendrogramot hoz létre, és összeköttetést hoz létre közöttük. A dendrogram egy faszerű formátum, amely megtartja az egyesített klaszterek sorrendjét. A hierarchikus módszerek több partíciót hoznak létre a hasonlósági szintek szempontjából. Osztva vannak agglomerációs hierarchikus csoportosulásokra és megosztó hierarchikus klaszterekre. Itt egy fürtfa jön létre egyesítési technikákkal. A folyamat felosztásához megosztást alkalmaznak, az összeolvadást agglomerációval használják. Az agglomerációs csoportosulás a következőket foglalja magában:
- A kezdetben az összes adatpontot és az egyes klasztereknek tekintve felülről lefelé kezdik. Ezeket a klasztereket egyesítjük, amíg meg nem kapjuk a kívánt eredményeket.
- A következő két hasonló klaszter össze van csoportosítva, hogy egy hatalmas egyetlen klaszter legyen.
- Újra kiszámoljuk a közelséget a hatalmas klaszterben, és egyesítsük a hasonló klasztereket.
- Az utolsó lépés az összes megkapott klaszter egyesítése minden egyes lépésben, hogy egy végleges klaszter jöjjön létre.
2. Osztási módszer:
A partíció fő célja az áthelyezés. A partíciókat az egyik fürtről a másikra történő áthelyezésével helyezik el, amely kezdeti partíciót eredményez. Az „n” adatobjektumokat „k” klaszterekre osztja. Ez a partitív módszer inkább, mint a hierarchikus modell a mintafelismerésben. A technikák teljesítéséhez a következő kritériumokat kell meghatározni:
- Minden fürtnek legyen egy objektuma.
- Minden adatobjektum egyetlen fürthez tartozik.
A leggyakrabban használt particionálási technikák a K-átlag algoritmus. Osztódnak „K” klaszterekre, amelyeket centridok képviselnek. Az egyes klaszterek középpontját a klaszter átlagaként számolják, és az R függvény megjeleníti az eredményt. Ennek az algoritmusnak a következő lépései vannak:
- K objektum véletlenszerű kiválasztása az adatkészletből és a kezdeti központok (centridok) kialakítása
- Ezután az euklideszi távolságot rendeljük az objektumok és az átlag középpontja között.
- Az egyes fürtökhöz átlagérték hozzárendelése.
- Centroid frissítési lépések az egyes 'k' klaszterekhez.
3. Sűrűségmodell:
Ebben a modellben a klasztereket a nagyobb sűrűségű régiók lokalizálásával határozzák meg. Mögöttük álló fő elv két paraméterre koncentrál: a szomszédság maximális sugara és a pontok min. Száma. A sűrűség-alapú modell különböző alakú és zajú klasztereket azonosít. Úgy működik, hogy a minták felismerésével megbecsüli a térbeli helyzetet, és a szomszéd módszeréhez alkalmazott távolságot a DBSCAN (sűrűség-alapú térbeli klaszterezés) módszerrel kezeli, amely nagy térbeli adatbázisokat biztosít. Három adatpont használata a klaszteroláshoz, nevezetesen a Magas pontok, a Határpontok és a Kiugró pontok. Az elsődleges cél a klaszterek és eloszlási paramétereik azonosítása. A klaszterezési folyamat leáll a sűrűségparaméterek szükségességével. A klaszterek megtalálásához fontos a paraméter minimális tulajdonságai klaszterenként a magtávolság kiszámításához. A modell által kínált három különféle eszköz a DBSCAN, HDBSCAN, Multi-scale.
4. Modell alapú klaszterezés
Ez a modell két vagy három klasztert kombinál az adatterjesztésből. Ennek a modellnek az a fő gondolata, hogy az adatokat két csoportra kell osztani a valószínűségi modell alapján (többváltozós normál eloszlások). Itt minden csoportot fogalmaknak vagy osztályoknak jelölnek. Minden komponenst egy sűrűségfüggvény határoz meg. A paraméter megtalálásához ebben a modellben a maximális valószínűség becslését használják a keverék eloszlásának illesztésére. Az egyes „K” klasztereket Gauss-eloszlás szerint modellezzük, kétparaméteres µ k átlagvektorral és £ k kovarianciavektorral.
5. Rács alapú modell
Ebben a megközelítésben az objektumokat térvezéreltnek tekintik, mivel a teret véges számú cellába osztják, hogy rácsot képezzenek. A rács segítségével a klaszterezési technikát alkalmazzák a gyorsabb feldolgozásra, amely általában a sejtektől, nem pedig az objektumoktól függ. Az érintett lépések a következők:
- Rácsszerkezet létrehozása
- A sejtsűrűséget minden sejtre kiszámítják
- Válogató mechanizmus alkalmazása sűrűségükre.
- A fürtközpontok keresése és a szomszédos cellákon való áthaladás a folyamat megismétléséhez.
A klaszterezési módszerek fontossága
- A fürtözési módszerekkel elősegíthető a helyi keresési eljárás újraindítása és a hatékonyság megszüntetése. A klaszterezés segít meghatározni az adatok belső szerkezetét.
- Ezt a klaszteranalízist modellezéshez használták, a vonzerő vektor régióját.
- A klaszterezés segít megérteni a természetes csoportosulást egy adatkészletben. Céljuk, hogy értelmezzük az adatok logikai csoportosításokba sorolását.
- A klaszterminőség a módszerektől és a rejtett minták azonosításától függ.
- Széles szerepet játszanak olyan alkalmazásokban, mint a gazdasági kutatás, a weblogok a hasonlósági mutatók mintáinak azonosítására, a képfeldolgozás, a térbeli kutatás.
- Külső felderítésekben használják fel a hitelkártya-csalások felderítésére.
Következtetés
A klaszterezést az optimálási problémát megfogalmazó probléma megoldásának általános feladatának tekintik. Kulcsszerepet játszik az adatbányászat és az elemzés területén. Különböző klaszterezési módszereket láttunk, amelyek az adatkészletet elválasztják a követelményektől. A kutatás nagy része hagyományos technikákon, például K-átlagon és hierarchikus modelleken alapszik. A klaszter területeket nagy dimenziós állapotokban alkalmazzák, ami a kutatók jövőbeli körét képezi.
Ajánlott cikk
Ez egy útmutató a klaszterezési módszerekhez. Itt megbeszéljük a klaszterezési módszerek fogalmát, fontosságát és technikáit. A további javasolt cikkeken keresztül további információkat is megtudhat -
- Mi az ETL?
- Mi az adattudomány?
- Mi a Teradata?
- A 6 legjobb AWS alternatíva
- Fürtözés a gépi tanulásban
- Többváltozós regresszió
- Hierarchikus csoportosítás | Agglomerációs és megosztó csoportosulás