Bemutatjuk a klaszter v / s tényezők elemzésének legjobb összehasonlítását

Tartalomjegyzék:

Anonim

Mi az a klaszterelemzés?

A klaszteranalízis az adatokat a meglévő tulajdonságok alapján csoportosítja. A klaszteranalízis az objektumokat azon tényezők alapján csoportosítja, amelyek hasonlóak. A klaszterelemzést más néven szegmentációs elemzésnek vagy taxonómia elemzésnek hívják. A klaszterelemzés nem tesz különbséget a függő és független változók között. A klaszterelemzést számos olyan területen alkalmazzák, mint a pszichológia, a biológia, a statisztika, az adatbányászat, a mintafelismerés és más társadalomtudományok.

A klaszteranalízis célja

A klaszteranalízis fő célja az egyes adatsorok heterogenitásának kezelése. A klaszteranalízis többi célja:

  • Rendszertani leírás - Az adatcsoportok azonosítása
  • Adatok egyszerűsítése - A hasonló megfigyelések csoportjainak elemzési képessége minden egyes megfigyelés helyett
  • Hipotézis előállítása vagy tesztelése - Az adatok jellegén alapuló hipotézis kidolgozása vagy a korábban megállapított hipotézis tesztelése
  • Kapcsolatok azonosítása - A kapcsolatokat leíró klaszteranalízisből származó egyszerűsített struktúra

A klaszterelemzésnek két fő célja van - a megértés és a hasznosság.

A megértés körülményei között a klaszteranalízis olyan objektumokat csoportosít, amelyek néhány közös jellemzővel rendelkeznek

A hasznosság szempontjából a klaszteranalízis az egyes adatobjektumok jellemzőit megadja azoknak a klasztereknek, amelyekhez tartoznak.

A klaszteranalízis együtt jár a faktorelemzéssel és a diszkriminanciaelemzéssel.

Mielőtt hozzákezdenél, fel kell tennie magának néhány klaszterelemzési kérdést

  • Milyen változók relevánsak?
  • Elegendő a minta mérete?
  • Felismerhetők-e a túlmutatók, és azokat el kell távolítani?
  • Hogyan kell mérni a hasonlóságot?
  • Az adatokat szabványosítani kell?

A klaszterek típusai

A csoportosítás három fő típusa létezik

  • Hierarchikus klaszterezés - amely agglomerációs és megosztó módszert tartalmaz
  • Particionális klaszterezés - K-eszközöket, fuzzy K-eszközöket, isodatot tartalmaz
  • Sűrűség alapú csoportosítás - Denclust, CLUPOT, Mean Shift, SVC, Parzen-vízpart közelében

A klaszteranalízis feltételezései

A klaszteranalízisnél mindig két feltételezés van

  • Feltételezzük, hogy a minta a populáció képviselője
  • Feltételezzük, hogy a változók nem állnak összefüggésben. Még ha a változók korrelálnak is, távolítsa el a korrelált változókat, vagy használjon távolságot, amely kompenzálja a korrelációt.

A klaszteranalízis lépései

    • 1. lépés: határozza meg a problémát
    • 2. lépés: Döntse el a megfelelő hasonlóságot
    • 3. lépés: Döntse el, hogyan csoportosíthatja az objektumokat
    • 4. lépés: Döntse el a klaszterek számát
    • 5. lépés: Értelmezze, írja le és érvényesítse a fürtöt

Klaszterelemzés az SPSS-ben

Az SPSS-ben megtalálhatja a klaszterelemzést az Elemzés / osztályozás elemnél. Az SPSS-ben három módszer létezik a klaszteranalízisre - a K-eszközök klasztere, a hierarchikus klaszter és a kétlépcsős klaszter.

A K-Means klaszter módszer egy meghatározott adatkészletet osztályoz egy rögzített számú fürtön keresztül. Ez a módszer könnyen érthető, és akkor ad a legjobb eredményt, ha az adatok jól el vannak választva egymástól.

A kétlépcsős klaszteranalízis olyan eszköz, amelyet nagy adathalmazok kezelésére terveztek. Klasztereket hoz létre mind a kategorikus, mind a folyamatos változókon.

A hierarchikus klaszter a klaszterelemzés leggyakrabban alkalmazott módszere. Egyesíti az eseteket homogén klaszterekké, egymás utáni lépések sorozatával.

A hierarchikus klaszteranalízis három lépést tartalmaz

  • Számolja ki a távolságot
  • Csatlakoztassa a klasztereket
  • Megoldás kiválasztása a megfelelő számú klaszter kiválasztásával

Az alábbiakban bemutatjuk a hierarchikus klaszteranalízis SPSS-ben történő végrehajtásának lépéseit.

  • Az első lépés a csoportosítandó változók kiválasztása. Az alábbi párbeszédpanel elmagyarázza neked
  • A fenti párbeszédpanelen található statisztikai lehetőségre kattintva megjelenik egy párbeszédpanel, ahol meg szeretné adni a kimenetet
  • A párbeszédpanel táblázatain adja hozzá a dendrogramot. A dendrogram a hierarchikus klaszteranalízis módszerének grafikus ábrázolása. Megmutatja, hogyan kombinálják a klasztereket minden lépésben, amíg egyetlen fürtöt nem képeznek.
  • A párbeszédpanel módszer kulcsfontosságú. Itt említheti a távolságot és a csoportosítási módszert. Az SPSS-ben három mérési módszer van az intervallumra, a számlálásra és a bináris adatokra.
  • A négyzetbeli euklidészi távolság a négyzetkülönbségek összege a négyzetgyök megvétele nélkül.
  • A számok között választhat a Chi Square és a Phi Square mérték között
  • A Bináris részben rengeteg lehetőséget választhat. A négyzetes euklideszi távolság a legjobb módszer.
  • A következő lépés a klaszter módszer kiválasztása. Mindig ajánlott egyszeres összeköttetést vagy a legközelebbi szomszédot használni, mivel ez egyszerűen segíti a távoli oldalak azonosítását. Miután azonosítottuk a külsõ értékeket, használhatjuk Ward módszerét.
  • Az utolsó lépés a szabványosítás

A klaszteranalízis kritikája

Az alábbiakban felsoroljuk a leggyakoribb kritikákat

  • Ez leíró, elméleti és nem következtetõ jellegû.
  • Fürtöket hoz létre, függetlenül attól, hogy létezik-e bármilyen struktúra
  • Nem alkalmazható széles körben, mivel teljesen függ a hasonlóság mérésének alapjául szolgáló változóktól

Mi az a tényező elemzés?

A faktoranalízis egy feltáró elemzés, amely segít a hasonló változók dimenziókba csoportosításában. Használható az adatok egyszerűsítésére, a megfigyelések méretének csökkentésével. A faktoranalízisnek számos különféle forgási módja van.

A faktoranalízist elsősorban az adatok csökkentésére használják.

A faktor-elemzésnek kétféle típusa van: feltáró és megerősítő

  • A felfedező módszert akkor használják, ha nincs előre meghatározott elképzelésed a változók halmazának szerkezetéről vagy dimenzióiról.
  • A megerősítő módszert akkor alkalmazzák, amikor a változók halmazán szereplő struktúrákra vagy méretekre vonatkozó hipotézist tesztelni kívánja.

A faktorelemzés célja

A tényelemzésnek két fő célja van, amelyeket alább említünk

  • A mögöttes tényezők azonosítása - Ez magában foglalja a változók homogén halmazokba történő csoportosítását, új változók létrehozását és a kategóriákkal kapcsolatos ismeretek elősegítését.
  • A változók átvizsgálása - Hasznos a regresszióban és azonosítja a csoportokat, lehetővé téve egy olyan változó kiválasztását, amely sokot képvisel.

Faktor-elemzés feltételezései

A tényelemzés négy fő feltételezését alább említjük

  • A modellek általában lineáris kapcsolatokon alapulnak
  • Feltételezi, hogy az összegyűjtött adatok intervallum skálán vannak
  • Kívánatos az adatok multiklinearitása, mivel a cél a változók összekapcsolása
  • Az adatoknak nyitottaknak és reagálóaknak kell lenniük a faktoranalízishez. Nem szabad, hogy egy változó csak korreláljon önmagával, és nincs korreláció más változóval. Faktor elemzést nem lehet elvégezni ezen adatokra.

A faktoring típusai

  • Főkomponens faktoring - A leggyakrabban használt módszer, ahol a tényező súlyát kiszámítják a lehető legnagyobb szórás kiszámításához, és addig folytatódnak, amíg nincs értelmes variancia.
  • Kanonikus faktor analízis - Megtalálja azokat a tényezőket, amelyeknek a megfigyelt változókkal a legnagyobb kanonikus korrelációja van
  • Közös tényezőelemzés - A legkevesebb olyan tényezőt keresi, amely képes figyelembe venni a változók halmazának általános szórását
  • Képfaktoring - a korrelációs mátrix alapján, ahol minden változót több regresszió alkalmazásával megjósolnak a többiektől
  • Alfa faktorálás - A tényezők megbízhatóságának maximalizálása
  • Faktorregressziós modell - Faktormodell és regressziós modell kombinációja, amelynek tényezői részben ismertek

Faktor-elemzés kritériumai

  1. A sajátérték kritériumai

  • Az eredeti változók varianciamennyiségét reprezentálja, amely egy tényezőhöz kapcsolódik
  • Az egyes változók tényező-terheléseinek négyzetének összege egy tényezőre vonatkozik a sajátértéknek
  • Az 1, 0-nél nagyobb sajátértékkel rendelkező tényezőket meg kell tartani
  1. Scree Plot kritériumok

  • A sajátértékek ábrája a tényezők számához viszonyítva, az extrakció sorrendje szerint.
  • A parcella alakja meghatározza a tényezők számát
  1. A varianciakritériumok százalékos aránya

  • Az extrahált tényezők számát úgy állapítják meg, hogy a tényezők által kiváltott variancia növekvő százaléka eléri az elégedettség szintjét.
  1. Jelentőségi teszt kritériumai

  • A különálló sajátértékek statisztikai jelentőségét megtudták, és csak azokat a statisztikailag szignifikáns tényezőket tartják fenn

A faktorelemzést különféle területeken használják, mint például a pszichológia, a szociológia, a politológia, az oktatás és a mentális egészség területén.

Faktor analízis az SPSS-ben

Az SPSS-ben a faktorelemzés lehetőséget az Analízis à Dimenziós csökkentés à Faktor elemben találja

  • Kezdje a változók hozzáadásával a változók listájához
  • Kattintson a Leíró fülre, és adjon hozzá néhány statisztikát, amely alatt a faktor-elemzés feltételezéseit ellenőrzik.
  • Kattintson a Extraction (Kivonás) opcióra, amely lehetővé teszi a kivonási módszer kiválasztását és a kivonás értékének levágását
  • A Főkomponensek (PCA) az alapértelmezett extrakciós módszer, amely a változók még korrelálatlan lineáris kombinációit is kivonja. A PCA akkor használható, ha a korrelációs mátrix szinguláris. Nagyon hasonló a kanonikus korrelációs elemzéshez, ahol az első tényező maximális varianciával rendelkezik, és a következő tényezők magyarázzák a variancia kisebb részét.
  • A második legáltalánosabb elemzés a főtengely faktoring. Ez azonosítja a megfigyelések mögött rejtett szerkezeteket.
  • A következő lépés a forgásmód kiválasztása. A leggyakrabban használt módszer a Varimax. Ez a módszer egyszerűsíti a tényezők értelmezését.
  • A második módszer a Quartimax. Ez a módszer a tényezőket forgatja a tényezők számának minimalizálása érdekében. Egyszerűsíti a megfigyelt változó értelmezését.
  • A következő módszer az Equamax, amely a fenti két módszer kombinációja.
  • A párbeszédpanelen az „opciókra” kattintva kezelheti a hiányzó értékeket
  • Mielőtt az eredményeket adathalmazba mentné, először futtassa a faktor elemzést, ellenőrizze a feltételezéseket, és erősítse meg, hogy az eredmények értelmesek és hasznosak-e.

Klaszteranalízis vs. faktoranalízis

Mind a klaszteranalízis, mind a faktorelemzés nem felügyelt tanulási módszer, amelyet az adatok szegmentálására használnak. Sok kutató, akik újak ezen a területen, úgy érzik, hogy a klaszteranalízis és a faktorelemzés hasonlóak. Lehet, hogy hasonló, de sok szempontból különböznek egymástól. Az alábbiakban felsoroljuk a klaszterelemzés és a faktorelemzés közötti különbségeket

  • Célkitűzés

A klaszter- és faktorelemzés célja eltérő. A klaszteranalízis célja a megfigyelések homogén és elkülönített csoportokra bontása. A faktorelemzés viszont magyarázza az értékek hasonlósága következtében kialakuló változók homogenitását.

  • Bonyolultság

A komplexitás egy másik tényező, amelyen a klaszter és a faktor elemzés különbözik. Az adatméret eltérően befolyásolja az elemzést. Ha az adat mérete túl nagy, akkor a klaszteranalízis során számítástechnikai szempontból megváltoztathatatlanná válik.

  • Megoldás

A probléma megoldása többé-kevésbé hasonló a faktor- és a klaszterelemzésben. A faktoranalízis azonban jobb szempontból jobb megoldást kínál a kutató számára. A klaszteranalízis nem adja meg a legjobb eredményt, mivel a klaszterelemzésben minden algoritmus számítási szempontból nem hatékony.

  • Alkalmazások

A tényező elemzést és a klaszteranalízist eltérően alkalmazzák a valós adatokra. A faktoranalízis alkalmas a komplex modellek egyszerűsítésére. Ez csökkenti a nagy változók halmazát sokkal kisebb tényezőkre. A kutató hipotéziskészletet dolgozhat ki, és faktoranalízist végezhet ezen hipotézis megerősítésére vagy tagadására.

A klaszterelemzés alkalmas az objektumok bizonyos kritériumok alapján történő osztályozására. A kutató klaszteranalízissel meg tudja mérni egy csoport bizonyos aspektusait, és osztályokra oszthatja azokat.

Sok más különbség is létezik, amelyeket alább említünk

  • A klaszteranalízis megkísérli az esetek csoportosítását, míg a faktorelemzés megkísérli a jellemzők csoportosítását.
  • A klaszteranalízis segítségével az esetek kisebb csoportjait meg lehet találni, amelyek az adatok egészére reprezentatívak. A faktoranalízissel kevesebb olyan szolgáltatáscsoportot találunk, amely az eredeti adatkészletek jellemzői.
  • A klaszteranalízis legfontosabb része a klaszterek számának meghatározása. A klaszterezési módszereket alapvetően két részre osztják - agglomerációs módszerre és particionálási módszerre. Az agglomerációs módszer minden esetben a saját klaszterében indul, és egy kritérium elérésekor leáll. A particionálási módszer minden esetben egy fürtön kezdődik.
  • A faktoranalízissel meg lehet határozni az adatsor mögöttes struktúráját.

Következtetés

Remélem, hogy ez a cikk segített volna megérteni a klaszterelemzés és a faktorelemzés alapjait, valamint a kettő közötti különbségeket.

Kapcsolódó tanfolyamok: -

  1. Klaszteranalízis kurzus