Mi az a klaszterelemzés?
A klaszteranalízis az adatokat a meglévő tulajdonságok alapján csoportosítja. A klaszteranalízis az objektumokat azon tényezők alapján csoportosítja, amelyek hasonlóak. A klaszterelemzést más néven szegmentációs elemzésnek vagy taxonómia elemzésnek hívják. A klaszterelemzés nem tesz különbséget a függő és független változók között. A klaszterelemzést számos olyan területen alkalmazzák, mint a pszichológia, a biológia, a statisztika, az adatbányászat, a mintafelismerés és más társadalomtudományok.
A klaszteranalízis célja
A klaszteranalízis fő célja az egyes adatsorok heterogenitásának kezelése. A klaszteranalízis többi célja:
- Rendszertani leírás - Az adatcsoportok azonosítása
- Adatok egyszerűsítése - A hasonló megfigyelések csoportjainak elemzési képessége minden egyes megfigyelés helyett
- Hipotézis előállítása vagy tesztelése - Az adatok jellegén alapuló hipotézis kidolgozása vagy a korábban megállapított hipotézis tesztelése
- Kapcsolatok azonosítása - A kapcsolatokat leíró klaszteranalízisből származó egyszerűsített struktúra
A klaszterelemzésnek két fő célja van - a megértés és a hasznosság.
A megértés körülményei között a klaszteranalízis olyan objektumokat csoportosít, amelyek néhány közös jellemzővel rendelkeznek
A hasznosság szempontjából a klaszteranalízis az egyes adatobjektumok jellemzőit megadja azoknak a klasztereknek, amelyekhez tartoznak.
A klaszteranalízis együtt jár a faktorelemzéssel és a diszkriminanciaelemzéssel.
Mielőtt hozzákezdenél, fel kell tennie magának néhány klaszterelemzési kérdést
- Milyen változók relevánsak?
- Elegendő a minta mérete?
- Felismerhetők-e a túlmutatók, és azokat el kell távolítani?
- Hogyan kell mérni a hasonlóságot?
- Az adatokat szabványosítani kell?
A klaszterek típusai
A csoportosítás három fő típusa létezik
- Hierarchikus klaszterezés - amely agglomerációs és megosztó módszert tartalmaz
- Particionális klaszterezés - K-eszközöket, fuzzy K-eszközöket, isodatot tartalmaz
- Sűrűség alapú csoportosítás - Denclust, CLUPOT, Mean Shift, SVC, Parzen-vízpart közelében
A klaszteranalízis feltételezései
A klaszteranalízisnél mindig két feltételezés van
- Feltételezzük, hogy a minta a populáció képviselője
- Feltételezzük, hogy a változók nem állnak összefüggésben. Még ha a változók korrelálnak is, távolítsa el a korrelált változókat, vagy használjon távolságot, amely kompenzálja a korrelációt.
A klaszteranalízis lépései
-
- 1. lépés: határozza meg a problémát
- 2. lépés: Döntse el a megfelelő hasonlóságot
- 3. lépés: Döntse el, hogyan csoportosíthatja az objektumokat
- 4. lépés: Döntse el a klaszterek számát
- 5. lépés: Értelmezze, írja le és érvényesítse a fürtöt
Klaszterelemzés az SPSS-ben
Az SPSS-ben megtalálhatja a klaszterelemzést az Elemzés / osztályozás elemnél. Az SPSS-ben három módszer létezik a klaszteranalízisre - a K-eszközök klasztere, a hierarchikus klaszter és a kétlépcsős klaszter.
A K-Means klaszter módszer egy meghatározott adatkészletet osztályoz egy rögzített számú fürtön keresztül. Ez a módszer könnyen érthető, és akkor ad a legjobb eredményt, ha az adatok jól el vannak választva egymástól.
A kétlépcsős klaszteranalízis olyan eszköz, amelyet nagy adathalmazok kezelésére terveztek. Klasztereket hoz létre mind a kategorikus, mind a folyamatos változókon.
A hierarchikus klaszter a klaszterelemzés leggyakrabban alkalmazott módszere. Egyesíti az eseteket homogén klaszterekké, egymás utáni lépések sorozatával.
A hierarchikus klaszteranalízis három lépést tartalmaz
- Számolja ki a távolságot
- Csatlakoztassa a klasztereket
- Megoldás kiválasztása a megfelelő számú klaszter kiválasztásával
Az alábbiakban bemutatjuk a hierarchikus klaszteranalízis SPSS-ben történő végrehajtásának lépéseit.
- Az első lépés a csoportosítandó változók kiválasztása. Az alábbi párbeszédpanel elmagyarázza neked
- A fenti párbeszédpanelen található statisztikai lehetőségre kattintva megjelenik egy párbeszédpanel, ahol meg szeretné adni a kimenetet
- A párbeszédpanel táblázatain adja hozzá a dendrogramot. A dendrogram a hierarchikus klaszteranalízis módszerének grafikus ábrázolása. Megmutatja, hogyan kombinálják a klasztereket minden lépésben, amíg egyetlen fürtöt nem képeznek.
- A párbeszédpanel módszer kulcsfontosságú. Itt említheti a távolságot és a csoportosítási módszert. Az SPSS-ben három mérési módszer van az intervallumra, a számlálásra és a bináris adatokra.
- A négyzetbeli euklidészi távolság a négyzetkülönbségek összege a négyzetgyök megvétele nélkül.
- A számok között választhat a Chi Square és a Phi Square mérték között
- A Bináris részben rengeteg lehetőséget választhat. A négyzetes euklideszi távolság a legjobb módszer.
- A következő lépés a klaszter módszer kiválasztása. Mindig ajánlott egyszeres összeköttetést vagy a legközelebbi szomszédot használni, mivel ez egyszerűen segíti a távoli oldalak azonosítását. Miután azonosítottuk a külsõ értékeket, használhatjuk Ward módszerét.
- Az utolsó lépés a szabványosítás
A klaszteranalízis kritikája
Az alábbiakban felsoroljuk a leggyakoribb kritikákat
- Ez leíró, elméleti és nem következtetõ jellegû.
- Fürtöket hoz létre, függetlenül attól, hogy létezik-e bármilyen struktúra
- Nem alkalmazható széles körben, mivel teljesen függ a hasonlóság mérésének alapjául szolgáló változóktól
Mi az a tényező elemzés?
A faktoranalízis egy feltáró elemzés, amely segít a hasonló változók dimenziókba csoportosításában. Használható az adatok egyszerűsítésére, a megfigyelések méretének csökkentésével. A faktoranalízisnek számos különféle forgási módja van.
A faktoranalízist elsősorban az adatok csökkentésére használják.
A faktor-elemzésnek kétféle típusa van: feltáró és megerősítő
- A felfedező módszert akkor használják, ha nincs előre meghatározott elképzelésed a változók halmazának szerkezetéről vagy dimenzióiról.
- A megerősítő módszert akkor alkalmazzák, amikor a változók halmazán szereplő struktúrákra vagy méretekre vonatkozó hipotézist tesztelni kívánja.
A faktorelemzés célja
A tényelemzésnek két fő célja van, amelyeket alább említünk
- A mögöttes tényezők azonosítása - Ez magában foglalja a változók homogén halmazokba történő csoportosítását, új változók létrehozását és a kategóriákkal kapcsolatos ismeretek elősegítését.
- A változók átvizsgálása - Hasznos a regresszióban és azonosítja a csoportokat, lehetővé téve egy olyan változó kiválasztását, amely sokot képvisel.
Faktor-elemzés feltételezései
A tényelemzés négy fő feltételezését alább említjük
- A modellek általában lineáris kapcsolatokon alapulnak
- Feltételezi, hogy az összegyűjtött adatok intervallum skálán vannak
- Kívánatos az adatok multiklinearitása, mivel a cél a változók összekapcsolása
- Az adatoknak nyitottaknak és reagálóaknak kell lenniük a faktoranalízishez. Nem szabad, hogy egy változó csak korreláljon önmagával, és nincs korreláció más változóval. Faktor elemzést nem lehet elvégezni ezen adatokra.
A faktoring típusai
- Főkomponens faktoring - A leggyakrabban használt módszer, ahol a tényező súlyát kiszámítják a lehető legnagyobb szórás kiszámításához, és addig folytatódnak, amíg nincs értelmes variancia.
- Kanonikus faktor analízis - Megtalálja azokat a tényezőket, amelyeknek a megfigyelt változókkal a legnagyobb kanonikus korrelációja van
- Közös tényezőelemzés - A legkevesebb olyan tényezőt keresi, amely képes figyelembe venni a változók halmazának általános szórását
- Képfaktoring - a korrelációs mátrix alapján, ahol minden változót több regresszió alkalmazásával megjósolnak a többiektől
- Alfa faktorálás - A tényezők megbízhatóságának maximalizálása
- Faktorregressziós modell - Faktormodell és regressziós modell kombinációja, amelynek tényezői részben ismertek
Faktor-elemzés kritériumai
-
A sajátérték kritériumai
- Az eredeti változók varianciamennyiségét reprezentálja, amely egy tényezőhöz kapcsolódik
- Az egyes változók tényező-terheléseinek négyzetének összege egy tényezőre vonatkozik a sajátértéknek
- Az 1, 0-nél nagyobb sajátértékkel rendelkező tényezőket meg kell tartani
-
Scree Plot kritériumok
- A sajátértékek ábrája a tényezők számához viszonyítva, az extrakció sorrendje szerint.
- A parcella alakja meghatározza a tényezők számát
-
A varianciakritériumok százalékos aránya
- Az extrahált tényezők számát úgy állapítják meg, hogy a tényezők által kiváltott variancia növekvő százaléka eléri az elégedettség szintjét.
-
Jelentőségi teszt kritériumai
- A különálló sajátértékek statisztikai jelentőségét megtudták, és csak azokat a statisztikailag szignifikáns tényezőket tartják fenn
A faktorelemzést különféle területeken használják, mint például a pszichológia, a szociológia, a politológia, az oktatás és a mentális egészség területén.
Faktor analízis az SPSS-ben
Az SPSS-ben a faktorelemzés lehetőséget az Analízis à Dimenziós csökkentés à Faktor elemben találja
- Kezdje a változók hozzáadásával a változók listájához
- Kattintson a Leíró fülre, és adjon hozzá néhány statisztikát, amely alatt a faktor-elemzés feltételezéseit ellenőrzik.
- Kattintson a Extraction (Kivonás) opcióra, amely lehetővé teszi a kivonási módszer kiválasztását és a kivonás értékének levágását
- A Főkomponensek (PCA) az alapértelmezett extrakciós módszer, amely a változók még korrelálatlan lineáris kombinációit is kivonja. A PCA akkor használható, ha a korrelációs mátrix szinguláris. Nagyon hasonló a kanonikus korrelációs elemzéshez, ahol az első tényező maximális varianciával rendelkezik, és a következő tényezők magyarázzák a variancia kisebb részét.
- A második legáltalánosabb elemzés a főtengely faktoring. Ez azonosítja a megfigyelések mögött rejtett szerkezeteket.
- A következő lépés a forgásmód kiválasztása. A leggyakrabban használt módszer a Varimax. Ez a módszer egyszerűsíti a tényezők értelmezését.
- A második módszer a Quartimax. Ez a módszer a tényezőket forgatja a tényezők számának minimalizálása érdekében. Egyszerűsíti a megfigyelt változó értelmezését.
- A következő módszer az Equamax, amely a fenti két módszer kombinációja.
- A párbeszédpanelen az „opciókra” kattintva kezelheti a hiányzó értékeket
- Mielőtt az eredményeket adathalmazba mentné, először futtassa a faktor elemzést, ellenőrizze a feltételezéseket, és erősítse meg, hogy az eredmények értelmesek és hasznosak-e.
Klaszteranalízis vs. faktoranalízis
Mind a klaszteranalízis, mind a faktorelemzés nem felügyelt tanulási módszer, amelyet az adatok szegmentálására használnak. Sok kutató, akik újak ezen a területen, úgy érzik, hogy a klaszteranalízis és a faktorelemzés hasonlóak. Lehet, hogy hasonló, de sok szempontból különböznek egymástól. Az alábbiakban felsoroljuk a klaszterelemzés és a faktorelemzés közötti különbségeket
-
Célkitűzés
A klaszter- és faktorelemzés célja eltérő. A klaszteranalízis célja a megfigyelések homogén és elkülönített csoportokra bontása. A faktorelemzés viszont magyarázza az értékek hasonlósága következtében kialakuló változók homogenitását.
-
Bonyolultság
A komplexitás egy másik tényező, amelyen a klaszter és a faktor elemzés különbözik. Az adatméret eltérően befolyásolja az elemzést. Ha az adat mérete túl nagy, akkor a klaszteranalízis során számítástechnikai szempontból megváltoztathatatlanná válik.
-
Megoldás
A probléma megoldása többé-kevésbé hasonló a faktor- és a klaszterelemzésben. A faktoranalízis azonban jobb szempontból jobb megoldást kínál a kutató számára. A klaszteranalízis nem adja meg a legjobb eredményt, mivel a klaszterelemzésben minden algoritmus számítási szempontból nem hatékony.
-
Alkalmazások
A tényező elemzést és a klaszteranalízist eltérően alkalmazzák a valós adatokra. A faktoranalízis alkalmas a komplex modellek egyszerűsítésére. Ez csökkenti a nagy változók halmazát sokkal kisebb tényezőkre. A kutató hipotéziskészletet dolgozhat ki, és faktoranalízist végezhet ezen hipotézis megerősítésére vagy tagadására.
A klaszterelemzés alkalmas az objektumok bizonyos kritériumok alapján történő osztályozására. A kutató klaszteranalízissel meg tudja mérni egy csoport bizonyos aspektusait, és osztályokra oszthatja azokat.
Sok más különbség is létezik, amelyeket alább említünk
- A klaszteranalízis megkísérli az esetek csoportosítását, míg a faktorelemzés megkísérli a jellemzők csoportosítását.
- A klaszteranalízis segítségével az esetek kisebb csoportjait meg lehet találni, amelyek az adatok egészére reprezentatívak. A faktoranalízissel kevesebb olyan szolgáltatáscsoportot találunk, amely az eredeti adatkészletek jellemzői.
- A klaszteranalízis legfontosabb része a klaszterek számának meghatározása. A klaszterezési módszereket alapvetően két részre osztják - agglomerációs módszerre és particionálási módszerre. Az agglomerációs módszer minden esetben a saját klaszterében indul, és egy kritérium elérésekor leáll. A particionálási módszer minden esetben egy fürtön kezdődik.
- A faktoranalízissel meg lehet határozni az adatsor mögöttes struktúráját.
Következtetés
Remélem, hogy ez a cikk segített volna megérteni a klaszterelemzés és a faktorelemzés alapjait, valamint a kettő közötti különbségeket.
Kapcsolódó tanfolyamok: -
- Klaszteranalízis kurzus