Bemutatjuk a klaszter v / s tényezők elemzésének legjobb összehasonlítását

Mi az a klaszterelemzés?

A klaszteranalízis az adatokat a meglévő tulajdonságok alapján csoportosítja. A klaszteranalízis az objektumokat azon tényezők alapján csoportosítja, amelyek hasonlóak. A klaszterelemzést más néven szegmentációs elemzésnek vagy taxonómia elemzésnek hívják. A klaszterelemzés nem tesz különbséget a függő és független változók között. A klaszterelemzést számos olyan területen alkalmazzák, mint a pszichológia, a biológia, a statisztika, az adatbányászat, a mintafelismerés és más társadalomtudományok.

A klaszteranalízis célja

A klaszteranalízis fő célja az egyes adatsorok heterogenitásának kezelése. A klaszteranalízis többi célja:

Rendszertani leírás - Az adatcsoportok azonosítása
Adatok egyszerűsítése - A hasonló megfigyelések csoportjainak elemzési képessége minden egyes megfigyelés helyett
Hipotézis előállítása vagy tesztelése - Az adatok jellegén alapuló hipotézis kidolgozása vagy a korábban megállapított hipotézis tesztelése
Kapcsolatok azonosítása - A kapcsolatokat leíró klaszteranalízisből származó egyszerűsített struktúra

A klaszterelemzésnek két fő célja van - a megértés és a hasznosság.

A megértés körülményei között a klaszteranalízis olyan objektumokat csoportosít, amelyek néhány közös jellemzővel rendelkeznek

A hasznosság szempontjából a klaszteranalízis az egyes adatobjektumok jellemzőit megadja azoknak a klasztereknek, amelyekhez tartoznak.

A klaszteranalízis együtt jár a faktorelemzéssel és a diszkriminanciaelemzéssel.

Mielőtt hozzákezdenél, fel kell tennie magának néhány klaszterelemzési kérdést

Milyen változók relevánsak?
Elegendő a minta mérete?
Felismerhetők-e a túlmutatók, és azokat el kell távolítani?
Hogyan kell mérni a hasonlóságot?
Az adatokat szabványosítani kell?

A klaszterek típusai

A csoportosítás három fő típusa létezik

Hierarchikus klaszterezés - amely agglomerációs és megosztó módszert tartalmaz
Particionális klaszterezés - K-eszközöket, fuzzy K-eszközöket, isodatot tartalmaz
Sűrűség alapú csoportosítás - Denclust, CLUPOT, Mean Shift, SVC, Parzen-vízpart közelében

A klaszteranalízis feltételezései

A klaszteranalízisnél mindig két feltételezés van

Feltételezzük, hogy a minta a populáció képviselője
Feltételezzük, hogy a változók nem állnak összefüggésben. Még ha a változók korrelálnak is, távolítsa el a korrelált változókat, vagy használjon távolságot, amely kompenzálja a korrelációt.

A klaszteranalízis lépései

- 1. lépés: határozza meg a problémát
- 2. lépés: Döntse el a megfelelő hasonlóságot
- 3. lépés: Döntse el, hogyan csoportosíthatja az objektumokat
- 4. lépés: Döntse el a klaszterek számát
- 5. lépés: Értelmezze, írja le és érvényesítse a fürtöt

Klaszterelemzés az SPSS-ben

Az SPSS-ben megtalálhatja a klaszterelemzést az Elemzés / osztályozás elemnél. Az SPSS-ben három módszer létezik a klaszteranalízisre - a K-eszközök klasztere, a hierarchikus klaszter és a kétlépcsős klaszter.

A K-Means klaszter módszer egy meghatározott adatkészletet osztályoz egy rögzített számú fürtön keresztül. Ez a módszer könnyen érthető, és akkor ad a legjobb eredményt, ha az adatok jól el vannak választva egymástól.

A kétlépcsős klaszteranalízis olyan eszköz, amelyet nagy adathalmazok kezelésére terveztek. Klasztereket hoz létre mind a kategorikus, mind a folyamatos változókon.

A hierarchikus klaszter a klaszterelemzés leggyakrabban alkalmazott módszere. Egyesíti az eseteket homogén klaszterekké, egymás utáni lépések sorozatával.

A hierarchikus klaszteranalízis három lépést tartalmaz

Számolja ki a távolságot
Csatlakoztassa a klasztereket
Megoldás kiválasztása a megfelelő számú klaszter kiválasztásával

Az alábbiakban bemutatjuk a hierarchikus klaszteranalízis SPSS-ben történő végrehajtásának lépéseit.

Az első lépés a csoportosítandó változók kiválasztása. Az alábbi párbeszédpanel elmagyarázza neked
A fenti párbeszédpanelen található statisztikai lehetőségre kattintva megjelenik egy párbeszédpanel, ahol meg szeretné adni a kimenetet
A párbeszédpanel táblázatain adja hozzá a dendrogramot. A dendrogram a hierarchikus klaszteranalízis módszerének grafikus ábrázolása. Megmutatja, hogyan kombinálják a klasztereket minden lépésben, amíg egyetlen fürtöt nem képeznek.
A párbeszédpanel módszer kulcsfontosságú. Itt említheti a távolságot és a csoportosítási módszert. Az SPSS-ben három mérési módszer van az intervallumra, a számlálásra és a bináris adatokra.
A négyzetbeli euklidészi távolság a négyzetkülönbségek összege a négyzetgyök megvétele nélkül.
A számok között választhat a Chi Square és a Phi Square mérték között
A Bináris részben rengeteg lehetőséget választhat. A négyzetes euklideszi távolság a legjobb módszer.
A következő lépés a klaszter módszer kiválasztása. Mindig ajánlott egyszeres összeköttetést vagy a legközelebbi szomszédot használni, mivel ez egyszerűen segíti a távoli oldalak azonosítását. Miután azonosítottuk a külsõ értékeket, használhatjuk Ward módszerét.
Az utolsó lépés a szabványosítás

A klaszteranalízis kritikája

Az alábbiakban felsoroljuk a leggyakoribb kritikákat

Ez leíró, elméleti és nem következtetõ jellegû.
Fürtöket hoz létre, függetlenül attól, hogy létezik-e bármilyen struktúra
Nem alkalmazható széles körben, mivel teljesen függ a hasonlóság mérésének alapjául szolgáló változóktól

Mi az a tényező elemzés?

A faktoranalízis egy feltáró elemzés, amely segít a hasonló változók dimenziókba csoportosításában. Használható az adatok egyszerűsítésére, a megfigyelések méretének csökkentésével. A faktoranalízisnek számos különféle forgási módja van.

A faktoranalízist elsősorban az adatok csökkentésére használják.

A faktor-elemzésnek kétféle típusa van: feltáró és megerősítő

A felfedező módszert akkor használják, ha nincs előre meghatározott elképzelésed a változók halmazának szerkezetéről vagy dimenzióiról.
A megerősítő módszert akkor alkalmazzák, amikor a változók halmazán szereplő struktúrákra vagy méretekre vonatkozó hipotézist tesztelni kívánja.

A faktorelemzés célja

A tényelemzésnek két fő célja van, amelyeket alább említünk

A mögöttes tényezők azonosítása - Ez magában foglalja a változók homogén halmazokba történő csoportosítását, új változók létrehozását és a kategóriákkal kapcsolatos ismeretek elősegítését.
A változók átvizsgálása - Hasznos a regresszióban és azonosítja a csoportokat, lehetővé téve egy olyan változó kiválasztását, amely sokot képvisel.

Faktor-elemzés feltételezései

A tényelemzés négy fő feltételezését alább említjük

A modellek általában lineáris kapcsolatokon alapulnak
Feltételezi, hogy az összegyűjtött adatok intervallum skálán vannak
Kívánatos az adatok multiklinearitása, mivel a cél a változók összekapcsolása
Az adatoknak nyitottaknak és reagálóaknak kell lenniük a faktoranalízishez. Nem szabad, hogy egy változó csak korreláljon önmagával, és nincs korreláció más változóval. Faktor elemzést nem lehet elvégezni ezen adatokra.

A faktoring típusai

Főkomponens faktoring - A leggyakrabban használt módszer, ahol a tényező súlyát kiszámítják a lehető legnagyobb szórás kiszámításához, és addig folytatódnak, amíg nincs értelmes variancia.
Kanonikus faktor analízis - Megtalálja azokat a tényezőket, amelyeknek a megfigyelt változókkal a legnagyobb kanonikus korrelációja van
Közös tényezőelemzés - A legkevesebb olyan tényezőt keresi, amely képes figyelembe venni a változók halmazának általános szórását
Képfaktoring - a korrelációs mátrix alapján, ahol minden változót több regresszió alkalmazásával megjósolnak a többiektől
Alfa faktorálás - A tényezők megbízhatóságának maximalizálása
Faktorregressziós modell - Faktormodell és regressziós modell kombinációja, amelynek tényezői részben ismertek

Faktor-elemzés kritériumai

A sajátérték kritériumai

Az eredeti változók varianciamennyiségét reprezentálja, amely egy tényezőhöz kapcsolódik
Az egyes változók tényező-terheléseinek négyzetének összege egy tényezőre vonatkozik a sajátértéknek
Az 1, 0-nél nagyobb sajátértékkel rendelkező tényezőket meg kell tartani

Scree Plot kritériumok

A sajátértékek ábrája a tényezők számához viszonyítva, az extrakció sorrendje szerint.
A parcella alakja meghatározza a tényezők számát

A varianciakritériumok százalékos aránya

Az extrahált tényezők számát úgy állapítják meg, hogy a tényezők által kiváltott variancia növekvő százaléka eléri az elégedettség szintjét.

Jelentőségi teszt kritériumai

A különálló sajátértékek statisztikai jelentőségét megtudták, és csak azokat a statisztikailag szignifikáns tényezőket tartják fenn

A faktorelemzést különféle területeken használják, mint például a pszichológia, a szociológia, a politológia, az oktatás és a mentális egészség területén.

Faktor analízis az SPSS-ben

Az SPSS-ben a faktorelemzés lehetőséget az Analízis à Dimenziós csökkentés à Faktor elemben találja

Kezdje a változók hozzáadásával a változók listájához
Kattintson a Leíró fülre, és adjon hozzá néhány statisztikát, amely alatt a faktor-elemzés feltételezéseit ellenőrzik.
Kattintson a Extraction (Kivonás) opcióra, amely lehetővé teszi a kivonási módszer kiválasztását és a kivonás értékének levágását
A Főkomponensek (PCA) az alapértelmezett extrakciós módszer, amely a változók még korrelálatlan lineáris kombinációit is kivonja. A PCA akkor használható, ha a korrelációs mátrix szinguláris. Nagyon hasonló a kanonikus korrelációs elemzéshez, ahol az első tényező maximális varianciával rendelkezik, és a következő tényezők magyarázzák a variancia kisebb részét.
A második legáltalánosabb elemzés a főtengely faktoring. Ez azonosítja a megfigyelések mögött rejtett szerkezeteket.
A következő lépés a forgásmód kiválasztása. A leggyakrabban használt módszer a Varimax. Ez a módszer egyszerűsíti a tényezők értelmezését.
A második módszer a Quartimax. Ez a módszer a tényezőket forgatja a tényezők számának minimalizálása érdekében. Egyszerűsíti a megfigyelt változó értelmezését.
A következő módszer az Equamax, amely a fenti két módszer kombinációja.
A párbeszédpanelen az „opciókra” kattintva kezelheti a hiányzó értékeket
Mielőtt az eredményeket adathalmazba mentné, először futtassa a faktor elemzést, ellenőrizze a feltételezéseket, és erősítse meg, hogy az eredmények értelmesek és hasznosak-e.

Klaszteranalízis vs. faktoranalízis

Mind a klaszteranalízis, mind a faktorelemzés nem felügyelt tanulási módszer, amelyet az adatok szegmentálására használnak. Sok kutató, akik újak ezen a területen, úgy érzik, hogy a klaszteranalízis és a faktorelemzés hasonlóak. Lehet, hogy hasonló, de sok szempontból különböznek egymástól. Az alábbiakban felsoroljuk a klaszterelemzés és a faktorelemzés közötti különbségeket

Célkitűzés

A klaszter- és faktorelemzés célja eltérő. A klaszteranalízis célja a megfigyelések homogén és elkülönített csoportokra bontása. A faktorelemzés viszont magyarázza az értékek hasonlósága következtében kialakuló változók homogenitását.

Bonyolultság

A komplexitás egy másik tényező, amelyen a klaszter és a faktor elemzés különbözik. Az adatméret eltérően befolyásolja az elemzést. Ha az adat mérete túl nagy, akkor a klaszteranalízis során számítástechnikai szempontból megváltoztathatatlanná válik.

Megoldás

A probléma megoldása többé-kevésbé hasonló a faktor- és a klaszterelemzésben. A faktoranalízis azonban jobb szempontból jobb megoldást kínál a kutató számára. A klaszteranalízis nem adja meg a legjobb eredményt, mivel a klaszterelemzésben minden algoritmus számítási szempontból nem hatékony.

Alkalmazások

A tényező elemzést és a klaszteranalízist eltérően alkalmazzák a valós adatokra. A faktoranalízis alkalmas a komplex modellek egyszerűsítésére. Ez csökkenti a nagy változók halmazát sokkal kisebb tényezőkre. A kutató hipotéziskészletet dolgozhat ki, és faktoranalízist végezhet ezen hipotézis megerősítésére vagy tagadására.

A klaszterelemzés alkalmas az objektumok bizonyos kritériumok alapján történő osztályozására. A kutató klaszteranalízissel meg tudja mérni egy csoport bizonyos aspektusait, és osztályokra oszthatja azokat.

Sok más különbség is létezik, amelyeket alább említünk

A klaszteranalízis megkísérli az esetek csoportosítását, míg a faktorelemzés megkísérli a jellemzők csoportosítását.
A klaszteranalízis segítségével az esetek kisebb csoportjait meg lehet találni, amelyek az adatok egészére reprezentatívak. A faktoranalízissel kevesebb olyan szolgáltatáscsoportot találunk, amely az eredeti adatkészletek jellemzői.
A klaszteranalízis legfontosabb része a klaszterek számának meghatározása. A klaszterezési módszereket alapvetően két részre osztják - agglomerációs módszerre és particionálási módszerre. Az agglomerációs módszer minden esetben a saját klaszterében indul, és egy kritérium elérésekor leáll. A particionálási módszer minden esetben egy fürtön kezdődik.
A faktoranalízissel meg lehet határozni az adatsor mögöttes struktúráját.

Következtetés

Remélem, hogy ez a cikk segített volna megérteni a klaszterelemzés és a faktorelemzés alapjait, valamint a kettő közötti különbségeket.

Kapcsolódó tanfolyamok: -

Klaszteranalízis kurzus

Bemutatjuk a klaszter v / s tényezők elemzésének legjobb összehasonlítását

Tartalomjegyzék:

Mi az a klaszterelemzés?

A klaszteranalízis célja

A klaszterek típusai

A klaszteranalízis feltételezései

A klaszteranalízis lépései

Klaszterelemzés az SPSS-ben

A klaszteranalízis kritikája

Mi az a tényező elemzés?

A faktorelemzés célja

Faktor-elemzés feltételezései

A faktoring típusai

Faktor-elemzés kritériumai

A sajátérték kritériumai

Scree Plot kritériumok

A varianciakritériumok százalékos aránya

Jelentőségi teszt kritériumai

Faktor analízis az SPSS-ben

Klaszteranalízis vs. faktoranalízis

Célkitűzés

Bonyolultság

Megoldás

Alkalmazások

Következtetés

Nyilvános beszéd technikák 8 Nyilvános beszédtechnika az újszülöttek számára.

Állami vagy magán könyvvitel - A 6 legfontosabb különbség (infografikával)

Munkafüzet védelme Excelben Hogyan lehet megvédeni az Excel munkafüzetet?

A projekt ütemterve Excelben Hogyan lehet használni a projekt idővonalát az Excelben?

A jövedelemkimutatás célja Kulcskoncepció - Cél és példa

Digitális aláírás titkosítás - Digitális aláírás a hitelesítéshez

Digitális aláírás típusai Ismerje meg a digitális aláírás különféle típusait

A digitális marketing stratégiák 7 legfontosabb hasznos ténye, amelyeket tudnia kell

Digitális óceán vs AWS - A 6 legfontosabb különbség, amelyet tudnia kell

Közvetlen költség vs. közvetett költség - A 6 legfontosabb különbség az infographicsnál

Scrum mester felelősségei A Scrum Master felelősségi listája

Scrum Master vs Projektmenedzser - A 10 legfontosabb különbség a tanuláshoz

Scrum Projektmenedzsment - A súrolás jellemzői és fázisa

Súrlódási folyamat - Ismerje meg a súrlódási modell különféle folyamatait és kulcsszerepét

Görgetősáv Excelben Hogyan lehet beszúrni a görgetősávot az Excel programba és hogyan lehet használni?