A klaszterezés típusainak áttekintése

A klaszterezés típusának megtanulása előtt megértsük, mi az a klaszterezés, és miért olyan fontos ez a gépi tanulás iparában jelenleg.

Mi a klaszterezés? A klaszterezés egy olyan folyamat, amelyben az algoritmus az adatpontokat meghatározott számú csoportra osztja az elv alapján, hogy a hasonló adatpontok közel álljanak egymáshoz és ugyanabba a csoportba esjenek.

Miért olyan fontos most? Megértjük, hogy például egy példa megtekintésével létezik egy online ruházat-üzlet, és jobban meg akarják érteni ügyfeleiket, hogy hatékonyságuk javítsák hirdetési stratégiájukat. Nem lehetséges, hogy az ügyfelek számára egyedi stratégiát alakítsanak ki, ehelyett az lehet, hogy megosztják az ügyfeleket bizonyos számú csoportra (korábbi vásárlásaik alapján), és külön stratégiát alkalmaznak külön csoportokra. Ez hatékonyabbá teszi az üzletet, ezért fontos a klaszterezés az iparban.

A klaszterezés típusai

A klaszterezési technikák nagyjából kétféle kategóriába sorolhatók: kemény módszerek és lágy módszerek. A kemény klaszterezési módszernél minden adatpont vagy megfigyelés csak egy klaszterhez tartozik. A lágy klaszterezési módszernél az egyes adatpontok nem tartoznak teljesen egy klaszterhez, ehelyett egynél több klaszter tagja lehet, és tagsági együtthatókkal rendelkeznek, amelyek megfelelnek egy adott klaszterben való valószínűségnek.

Jelenleg különféle típusú fürtözési módszerek vannak használatban, ebben a cikkben nézzük meg néhány fontosat, például a hierarchikus csoportosítást, a partíciós csoportosítást, a fuzzy-csoportosítást, a sűrűség-alapú csoportosítást és az elosztási modell-alapú csoportosítást. Most tárgyaljuk ezek mindegyikét egy példával:

1. Partíciós klaszterezés

A particionálás A klaszterezés egy olyan klaszterezési technika, amely az adatkészletet meghatározott számú csoportra osztja. (Például a K értékét a KNN-ben, és a modell kiképzése előtt döntenek). Centrid alapú módszernek is nevezhetjük. Ebben a megközelítésben a klaszterközpont (centrid) úgy van kialakítva, hogy az adatpontok távolsága abban a klaszterben minimális legyen, ha más klasztercentridokkal számoljuk. Ennek az algoritmusnak a legnépszerűbb példája a KNN algoritmus. Így néz ki a particionáló klaszterezési algoritmus

2. Hierarchikus klaszterezés

A hierarchikus klaszterezés egy olyan klaszterezési technika, amely az adatkészletet több klaszterre osztja, ahol a felhasználó nem határozza meg a létrehozandó klaszterek számát a modell képzése előtt. Az ilyen típusú klaszterezési technikákat kapcsolaton alapuló módszerekként is ismertek. Ebben a módszerben az adatkészlet egyszerű particionálása nem történik meg, miközben biztosítja a klaszterek hierarchiáját, amelyek egy bizonyos távolság után egymással összeolvadnak. Miután a hierarchikus fürtözés megtörtént az adatkészletben, az eredmény az adatpontok fa alapú ábrázolása lesz (Dendogram), amelyeket fürtökre osztanak. Így néz ki a hierarchikus csoportosulás az edzés után

Forrás link: Hierarchikus klaszterezés

A particionáló klaszterezés és a hierarchikus klaszterezés során az egyik fő különbség, amelyet észrevehetünk a osztásos klaszterezésben, előre megadjuk azt az értéket, hogy hány klaszterre szeretnénk felosztani az adatkészletet, és ezt az értéket nem adjuk meg előre a hierarchikus klaszterezésnél .

3. Sűrűség-alapú klaszterezés

Ebben a klaszterezésben a technikai klaszterek különféle sűrűségű régiók szétválasztásával alakulnak ki az adatábrán szereplő különböző sűrűség alapján. A sűrűség alapú térbeli klaszterezés és az alkalmazás zajjal (DBSCAN) a legelterjedtebb algoritmus az ilyen típusú technikákban. Ennek az algoritmusnak az a fő gondolata, hogy legyen egy minimális számú pont, amely egy adott sugár közelében található a fürt egyes pontjai számára. A fentiekben tárgyalt klaszterezési technikákban eddig, ha alaposan megfigyeltük, észrevehetünk egy általános dolgot az összes technikában, amelyek a kialakult klaszterek alakjában gömb alakú vagy ovális alakúak, vagy konkáv alakúak. A DBSCAN különböző formájú klasztereket képezhet, ez az algoritmus akkor a legmegfelelőbb, ha az adatkészlet zajt vagy kiugró értékeket tartalmaz. Így néz ki a sűrűség alapú térbeli klaszterezési algoritmus az edzés után.

Forrás link: Sűrűség-alapú klaszterezés

4. Eloszlási modell alapú klaszterezés

Az ilyen típusú klaszterezéskor a technikai klaszterek úgy alakulnak ki, hogy valószínűség szerint azonosítják a fürtben lévő összes adatpontot ugyanazon eloszlásból (normál, gaussiai). Az ilyen típusú technikák legnépszerűbb algoritmusa az Expectation-Maximization (EM) klaszterezés Gaussian keverékmodellekkel (GMM).

A normál klaszterezési technikák, például a hierarchikus klaszterezés és a partíciós klaszterezés nem hivatalos modelleken alapulnak, a klaszterezés KNN-jének a partíciózásakor eltérő eredményeket ad különböző K-értékekkel. Mivel a KNN és ​​a KMN a klaszterközép átlagát veszi figyelembe, egyes esetekben nem a legmegfelelőbb a Gauss-féle keverékmodellek esetén, feltételezzük, hogy az adatpontok Gauss-eloszlással vannak elosztva, így két paraméterrel rendelkezhetünk a klaszterek átlagának és a szórásnak a leírására. Ilyen módon minden klaszterhez egy Gauss-eloszlást rendelnek, hogy ezeknek a paramétereknek az optimális értékeit (átlagot és szórást) megkapják, a Expectation Maximization elnevezésű optimalizálási algoritmust használják. Így néz ki az EM-GMM edzés után.

Forráshivatkozás: Terjesztési modell-alapú klaszterezés

5. Homályos klaszterezés

A lágy módszer-klaszterezési technikák egyik ágához tartozik, míg az összes fent említett klaszterezési technika a kemény módszer-klaszterezési technikákhoz tartozik. Az ilyen típusú klaszterezési technikában a középponthoz közeli pontok, talán a másik klaszter egy része nagyobb mértékben, mint az ugyanazon klaszter szélén lévő pontok. Egy adott klaszterhez tartozó pont valószínűsége 0 és 1 közötti érték. A legnépszerűbb algoritmus az ilyen típusú technikában az FCM (Fuzzy C-algoritmus). Itt egy klaszter középpontját számoljuk az összes pont, a klaszterhez való tartozásuk valószínűségével súlyozva.

Következtetés - A klaszterezés típusai

Ez a jelenleg használatos különböző fürtözési technikák közül néhány, és ebben a cikkben minden egyes fürtözési technikában lefedtünk egy népszerű algoritmust. Ki kell választanunk az általunk használt technológia típusát az adatkészletünk és a teljesítendő követelmények alapján.

Ajánlott cikkek

Ez egy útmutató a Klaszterezés típusaihoz. Itt a klaszterezés különféle típusait példáinkkal tárgyaljuk. Lehet, hogy megnézi a következő cikkeket is, ha többet szeretne megtudni -

  1. Hierarchikus klaszterezési algoritmus
  2. Fürtözés a gépi tanulásban
  3. Gépi tanulási algoritmusok típusai
  4. Az adatelemzési technikák típusai
  5. Hogyan lehet használni és eltávolítani a hierarchiát a Tableau-ban?
  6. Teljes útmutató az adatelemzés típusaihoz

Kategória: