Klaszterezési módszerek - A klaszterezési módszerek fontossága és technikája

Tartalomjegyzék:

Anonim

Bevezetés a klaszterezési módszerekbe

Ez a cikk áttekintést nyújt az adatbányászati ​​technikákban alkalmazott különböző klaszterezési módszerekről, különböző elvekkel. A fürtözés az adatobjektumok halmaza, amely egy másik logikai csoportba van rendezve. Hasonló adatelemek csoportosítása és hasonló adatelemek hozzárendelése egyes klaszterekbe. A csoportosítást nagy adathalmazokban hajtják végre, felügyelet nélkül. Ennek során az adatkészletet csoportokra osztjuk. A klaszterezés szerkezetét az alcsoportok a következők szerint ábrázolják. C = c1, c2 … c n . Mivel a klasztercsoportok hasonló objektumokkal rendelkeznek, néhány intézkedést meg kell tenni a klaszterezési módszerekben a távolság és a hasonlóság mérésének meghatározására. A klaszterezési módszerek valószínűségi modelleken alapulnak. Az adatbányászathoz a méretezhetőség érdekében a nagy adatbázisok kezeléséhez, a többdimenziós tér kezeléséhez, a hibás adatokkal és zajok kezeléséhez szükséges a méretezés.

Magyarázza a klaszterezési módszereket?

Ez a klaszterezési módszer elősegíti az értékes adatok fürtökbe történő csoportosítását, és ebből a különböző eredmények alapján megfelelő eredményeket választ. Példa: az információk lekérdezésében a lekérdezés eredményeit kis fürtökre csoportosítják, és minden klaszternek nincs releváns eredménye. A klaszterezési technikákkal hasonló kategóriákba vannak csoportosítva, és minden kategóriát alkategóriákra osztanak, hogy segítsék a lekérdezések eredményének feltárását. Különböző típusú klaszterezési módszerek léteznek

  • Hierarchikus módszerek
  • Osztási módszerek
  • Sűrűség alapú
  • Modell alapú klaszterezés
  • Rács alapú modell

Az alábbiakban áttekintjük az adatbányászatban és a mesterséges intelligenciában alkalmazott technikákat.

1. Hierarchikus módszer

Ez a módszer létrehoz egy fürtöt felosztásos módon felülről lefelé és alulról felfelé. Mindkét megközelítés dendrogramot hoz létre, és összeköttetést hoz létre közöttük. A dendrogram egy faszerű formátum, amely megtartja az egyesített klaszterek sorrendjét. A hierarchikus módszerek több partíciót hoznak létre a hasonlósági szintek szempontjából. Osztva vannak agglomerációs hierarchikus csoportosulásokra és megosztó hierarchikus klaszterekre. Itt egy fürtfa jön létre egyesítési technikákkal. A folyamat felosztásához megosztást alkalmaznak, az összeolvadást agglomerációval használják. Az agglomerációs csoportosulás a következőket foglalja magában:

  1. A kezdetben az összes adatpontot és az egyes klasztereknek tekintve felülről lefelé kezdik. Ezeket a klasztereket egyesítjük, amíg meg nem kapjuk a kívánt eredményeket.
  2. A következő két hasonló klaszter össze van csoportosítva, hogy egy hatalmas egyetlen klaszter legyen.
  3. Újra kiszámoljuk a közelséget a hatalmas klaszterben, és egyesítsük a hasonló klasztereket.
  4. Az utolsó lépés az összes megkapott klaszter egyesítése minden egyes lépésben, hogy egy végleges klaszter jöjjön létre.

2. Osztási módszer:

A partíció fő célja az áthelyezés. A partíciókat az egyik fürtről a másikra történő áthelyezésével helyezik el, amely kezdeti partíciót eredményez. Az „n” adatobjektumokat „k” klaszterekre osztja. Ez a partitív módszer inkább, mint a hierarchikus modell a mintafelismerésben. A technikák teljesítéséhez a következő kritériumokat kell meghatározni:

  • Minden fürtnek legyen egy objektuma.
  • Minden adatobjektum egyetlen fürthez tartozik.

A leggyakrabban használt particionálási technikák a K-átlag algoritmus. Osztódnak „K” klaszterekre, amelyeket centridok képviselnek. Az egyes klaszterek középpontját a klaszter átlagaként számolják, és az R függvény megjeleníti az eredményt. Ennek az algoritmusnak a következő lépései vannak:

  1. K objektum véletlenszerű kiválasztása az adatkészletből és a kezdeti központok (centridok) kialakítása
  2. Ezután az euklideszi távolságot rendeljük az objektumok és az átlag középpontja között.
  3. Az egyes fürtökhöz átlagérték hozzárendelése.
  4. Centroid frissítési lépések az egyes 'k' klaszterekhez.

3. Sűrűségmodell:

Ebben a modellben a klasztereket a nagyobb sűrűségű régiók lokalizálásával határozzák meg. Mögöttük álló fő elv két paraméterre koncentrál: a szomszédság maximális sugara és a pontok min. Száma. A sűrűség-alapú modell különböző alakú és zajú klasztereket azonosít. Úgy működik, hogy a minták felismerésével megbecsüli a térbeli helyzetet, és a szomszéd módszeréhez alkalmazott távolságot a DBSCAN (sűrűség-alapú térbeli klaszterezés) módszerrel kezeli, amely nagy térbeli adatbázisokat biztosít. Három adatpont használata a klaszteroláshoz, nevezetesen a Magas pontok, a Határpontok és a Kiugró pontok. Az elsődleges cél a klaszterek és eloszlási paramétereik azonosítása. A klaszterezési folyamat leáll a sűrűségparaméterek szükségességével. A klaszterek megtalálásához fontos a paraméter minimális tulajdonságai klaszterenként a magtávolság kiszámításához. A modell által kínált három különféle eszköz a DBSCAN, HDBSCAN, Multi-scale.

4. Modell alapú klaszterezés

Ez a modell két vagy három klasztert kombinál az adatterjesztésből. Ennek a modellnek az a fő gondolata, hogy az adatokat két csoportra kell osztani a valószínűségi modell alapján (többváltozós normál eloszlások). Itt minden csoportot fogalmaknak vagy osztályoknak jelölnek. Minden komponenst egy sűrűségfüggvény határoz meg. A paraméter megtalálásához ebben a modellben a maximális valószínűség becslését használják a keverék eloszlásának illesztésére. Az egyes „K” klasztereket Gauss-eloszlás szerint modellezzük, kétparaméteres µ k átlagvektorral és £ k kovarianciavektorral.

5. Rács alapú modell

Ebben a megközelítésben az objektumokat térvezéreltnek tekintik, mivel a teret véges számú cellába osztják, hogy rácsot képezzenek. A rács segítségével a klaszterezési technikát alkalmazzák a gyorsabb feldolgozásra, amely általában a sejtektől, nem pedig az objektumoktól függ. Az érintett lépések a következők:

  • Rácsszerkezet létrehozása
  • A sejtsűrűséget minden sejtre kiszámítják
  • Válogató mechanizmus alkalmazása sűrűségükre.
  • A fürtközpontok keresése és a szomszédos cellákon való áthaladás a folyamat megismétléséhez.

A klaszterezési módszerek fontossága

  1. A fürtözési módszerekkel elősegíthető a helyi keresési eljárás újraindítása és a hatékonyság megszüntetése. A klaszterezés segít meghatározni az adatok belső szerkezetét.
  2. Ezt a klaszteranalízist modellezéshez használták, a vonzerő vektor régióját.
  3. A klaszterezés segít megérteni a természetes csoportosulást egy adatkészletben. Céljuk, hogy értelmezzük az adatok logikai csoportosításokba sorolását.
  4. A klaszterminőség a módszerektől és a rejtett minták azonosításától függ.
  5. Széles szerepet játszanak olyan alkalmazásokban, mint a gazdasági kutatás, a weblogok a hasonlósági mutatók mintáinak azonosítására, a képfeldolgozás, a térbeli kutatás.
  6. Külső felderítésekben használják fel a hitelkártya-csalások felderítésére.

Következtetés

A klaszterezést az optimálási problémát megfogalmazó probléma megoldásának általános feladatának tekintik. Kulcsszerepet játszik az adatbányászat és az elemzés területén. Különböző klaszterezési módszereket láttunk, amelyek az adatkészletet elválasztják a követelményektől. A kutatás nagy része hagyományos technikákon, például K-átlagon és hierarchikus modelleken alapszik. A klaszter területeket nagy dimenziós állapotokban alkalmazzák, ami a kutatók jövőbeli körét képezi.

Ajánlott cikk

Ez egy útmutató a klaszterezési módszerekhez. Itt megbeszéljük a klaszterezési módszerek fogalmát, fontosságát és technikáit. A további javasolt cikkeken keresztül további információkat is megtudhat -

  1. Mi az ETL?
  2. Mi az adattudomány?
  3. Mi a Teradata?
  4. A 6 legjobb AWS alternatíva
  5. Fürtözés a gépi tanulásban
  6. Többváltozós regresszió
  7. Hierarchikus csoportosítás | Agglomerációs és megosztó csoportosulás