A hierarchikus klaszterelemzés áttekintése

Mielőtt továbblépnénk és megértnénk a hierarchikus klaszterelemzést, először próbáljuk megérteni, mi az a klaszter? És mi a klaszterelemzés? A fürt adatobjektumok gyűjteménye; a fürtön lévő adatpontok jobban hasonlítanak egymásra és különböznek a másik fürt adatpontjain. A klaszteranalízis alapvetően ezen adatpontok csoportosítása a klaszterbe. A klaszterezés egy olyan felügyelet nélküli gépi tanulási algoritmus, amelyben nincsenek képzéssel ellátott adatkészletek. Különböző típusú klaszterelemzés létezik, az egyik a hierarchikus klaszterezés.

A hierarchikus klaszterezés elősegíti a klaszterek megfelelő sorrendben / hierarchiában történő létrehozását. Példa: A leggyakoribb mindennapi példa az, hogy hogyan rendezzük a fájlokat és mappáinkat a számítógépünkbe a megfelelő hierarchia szerint.

A hierarchikus csoportosítás típusai

A hierarchikus csoportosítást tovább osztják két típusba, azaz az agglomerációs klaszterezéshez és a osztó klaszterezéshez (DIANA).

Agglomerációs csoportosulás

Ebben az esetben a klaszterezés során a hierarchikus bontást alulról felfelé építkező stratégia segítségével hajtják végre, ahol az atomi (kicsi) klaszterek létrehozásával kezdődik, egyszerre egy adatobjektum hozzáadásával, majd egyesíti őket, hogy a végén nagy klaszter legyen., ahol ez a klaszter teljesíti a lezárási feltételeket. Ez az eljárás iteratív, amíg az összes adatpont egyetlen nagy fürtbe nem kerül.

Az AGNES (AGglomerative NESting) egy olyan agglomerációs klaszterezés, amely az adatobjektumokat a hasonlóság alapján egyesíti klaszterré. Ennek az algoritmusnak az eredménye egy fa alapú, Dendrogramnak nevezett felépítés. Itt a távolságmérőket használja annak eldöntésére, hogy melyik adatpontot melyik klaszterrel kell kombinálni. Alapvetően egy távolságmátrixot állít fel, ellenőrzi a legkisebb távolsággal rendelkező klasztereket, és egyesíti azokat.

A fenti ábra az agglomerációs és a megosztó csoportosulást mutatja

Az egyes klaszterek közötti távolság mérésének alapján 3 különböző módszerrel rendelkezhetünk

  • Egyetlen kapcsolódás : ahol az egyes klaszterek két pontja közötti legrövidebb távolságot a klaszterek közötti távolságnak tekintik.
  • Teljes kapcsolat : Ebben az esetben a klaszterek közötti távolságnak vesszük a leghosszabb távolságot az egyes klaszterek pontjai között.
  • Átlagos kapcsolat: Itt vesszük az átlagot az egyik klaszter minden pontja és a másik klaszter többi pontja között.

Most beszéljünk az AGNES erősségeiről és gyengeségeiről; ennek az algoritmusnak legalább O (n 2 ) időbeli bonyolultsága van, tehát a skálázásban nem jár jól, és egy másik jelentős hátrány az, hogy az elvégzett tevékenységeket soha nem lehet visszavonni, azaz ha hibásan csoportosítunk valamelyik klasztert a az algoritmus akkor nem lesz képes megváltoztatni az eredményt / módosítani. De ennek az algoritmusnak is van egy világos oldala, mivel sok kisebb klaszter képződik, ez hasznos lehet a felfedezés folyamatában, és objektumok rendezését eredményezi, amely nagyon hasznos a megjelenítésben.

Osztó klaszter (DIANA)

Diana alapvetően a megosztó elemzést jelenti; ez egy másik típusú hierarchikus klaszterezés, ahol alapvetően a fentről lefelé történő megközelítés elvén működik (az AGNES inverzével), ahol az algoritmus egy nagy klaszter létrehozásával kezdődik, és rekurzívan osztja a legkülönfélébb klasztert két részre, és addig folytatódik, amíg ' Az összes hasonló adatpont az adott klaszterbe tartozik. Ezek a megosztó algoritmusok nagyon pontos hierarchiákat eredményeznek, mint az agglomerációs megközelítés, de számítási szempontból drágák.

A fenti ábra a megosztó csoportosítást mutatja lépésről lépésre

Többfázisú hierarchikus csoportosítás

A fent említett hierarchikus klaszterezési technikák által generált klaszterek minőségének javítása érdekében a hierarchikus klaszterezési technikákat integráljuk más klaszterezési technikákkal; ezt többfázisú klaszterezésnek hívják. A többfázisú csoportosulás különféle típusai a következők:

  • BIRCH (kiegyensúlyozott, idézőjelek csökkentése és csoportosítása hierarchiák segítségével)
  • ROCK (RObust klaszterezés linkekkel)
  • KAMÉLEON

1. Kiegyensúlyozott, iratív redukció és csoportosítás a hierarchiák segítségével

Ezt a módszert elsősorban hatalmas mennyiségű numerikus adat klaszterolására használják, a hierarchikus / mikro-klaszterolás beillesztésével a kezdeti fázisban és a makro klaszterezés / iteratív particionálás integrálásával a későbbi szakaszban. Ez a módszer segít legyőzni a skálázhatóság problémáját, amellyel szembekerültünk az AGNES-ben, és a képtelenségnek arra, hogy visszavonjuk azt, amit az előző lépésben tettünk. A BIRCH két fontos fogalmat használ az algoritmusában

a. Fürtözési funkció (segít a fürt összesítésében)

CF a következő: (n - az adatpontok száma a klaszterben, n pont lineáris összege, n pont négyzetes összege). A klaszter jellemzőinek ilyen módon történő tárolása segít elkerülni a rájuk vonatkozó részletes információk tárolását, és a CF a különböző klaszterek számára additív jellegű.

CF1 + CF2 = 1+ n 2, LS 1 + LS 2, SS 1 + SS 2 >

b. Klaszterezési fa (segít a klaszter hierarchiának ábrázolásában)

A CF fa egy kiegyensúlyozott fa, amelynek B elágazási tényezője (a gyermekek maximális száma) és a T küszöbérték (a levélcsomópontokban tárolható alcsoportok maximális száma).

Az algoritmus alapvetően 2 fázisban működik; az 1. fázisban letapogatja az adatbázist, és felépít egy memóriában lévő CF-fát, a 2. fázisban pedig a klaszterezési algoritmust használja, amely elősegíti a levélcsomók csoportosítását azáltal, hogy eltávolítja a szélsőségeket (ritka klaszterek), és a klasztert maximális sűrűséggel csoportosítja. Ennek az algoritmusnak az egyetlen hátránya, hogy csak a numerikus adattípust kezeli.

2. Robusztus csoportosulás a linkek segítségével

A kapcsolatot úgy definiáljuk, mint a két objektum közti szomszédok számát. A ROCK algoritmus egy olyan klaszterezési algoritmus, amely ezt a kategorikus adatkészlettel való kapcsolat fogalmát használja. Mint tudjuk, hogy a távolsággal mért klaszterezési algoritmusok nem biztosítanak kiváló minőségű klasztereket a kategorikus adatkészlethez, de ROCK esetén az adatpontok szomszédságát is figyelembe veszik, azaz ha két adatpont azonos szomszédsággal rendelkezik, akkor ezek valószínűleg ugyanabba a klaszterbe tartoznak. Az algoritmus egy ritka gráfot állít fel az első lépésben, figyelembe véve a hasonlósági mátrixot a szomszédság és a hasonlósági küszöb fogalmával. A második lépésben az agglomerációs hierarchikus klaszterezési technikát használja a ritka gráfon.

3. Kaméleon

Az ilyen típusú hierarchikus klaszterezési algoritmus a dinamikus modellezés fogalmát használja. Vajon miért nevezik ezt dinamikusnak? Dinamikusnak hívják, mert képes automatikusan alkalmazkodni a belső klaszter jellemzőihez a klaszter hasonlóságának kiértékelésével, azaz hogy az adatpontok mennyire jól kapcsolódnak egy fürtön belül és a klaszterek közvetlen közelében. A kaméleon egyik hátránya, hogy a feldolgozási költségek túl magasak (az N objektumra az O (n 2 ) a legrosszabb időbeli összetettség).

Képforrás - Google

Következtetés

Ebben a cikkben megtudtuk, mi a klaszter és mi a klaszterelemzés, a hierarchikus klaszterezési technikák különféle típusai, előnyei és hátrányai. Mindegyik megbeszélt módszerünknek megvan a maga plusz és mínusa, ezért mielőtt egy algoritmust folytatnánk, meg kell értenünk az adatainkat a megfelelő feltáró adatok elemzésével és óvatosan kell választanunk az algoritmust.

Ajánlott cikkek

Ez egy útmutató a Hierarchikus klaszterelemzéshez. Itt tárgyaljuk az áttekintést, az agglomerációs klasztereket, az osztó klasztereket (DIANA) és a többfázisú hierarchikus klasztereket. A következő cikkeket is megnézheti további információkért

  1. Hierarchikus csoportosítás R-ben
  2. Klaszterezési algoritmus
  3. klaszterek
  4. Klaszterezési módszerek
  5. Fürtözés a gépi tanulásban
  6. Hierarchikus csoportosítás | Agglomerációs és megosztó csoportosulás

Kategória: