A variancia egyirányú elemzése
Az varianciaanalízis röviddel ANOVA-ként írva az az eljárás, amellyel összehasonlíthatjuk az eszközöket három vagy több populáció között. Statisztikai szempontból két hipotézist vázolunk fel, a nullhipotézist: „Az összes népesség közti egyenlő” és az alternatív hipotézist: „Nem minden népesség közti egyenlő”. Lehetővé teszi a több eszköz egyenlőségének tesztelését egy tesztben, ahelyett, hogy két eszközt hasonlítsunk össze egy időben, ami lehetetlen, ha több csoport van. Ebben a témában az One Way ANOVA-t megismerjük R-ben.
A variancia egyirányú elemzése csak egy tényező vagy változó elemzésében segít bennünket. Például létezik öt régió és szeretnénk ellenőrizni, hogy mind az öt régióban a napi átlagos csapadékmennyiségek azonosak-e, vagy különböznek-e egymástól. Ebben az esetben csak egy tényező a régió, mivel ellenőriznünk kell, hogy a regionális tényezők befolyásolják-e a csapadék befogadását és a mintát.
A varianciaanalízis feltételezései
A következő feltételezéseknek kell teljesülniük az egyirányú ANOVA alkalmazásához:
- A populációk, amelyekből a mintákat vesznek, általában eloszlanak.
- A populációkból, amelyekből a mintákat vesznek, ugyanaz a szórás vagy standard eltérés.
- A különböző populációkból vett minták véletlenszerűek és függetlenek.
Hogyan működik az egyirányú ANOVA az R-ben?
Bemutatásunkhoz az adatokat használjuk, amelyek két változót tartalmaznak, nevezetesen. Márka és értékesítés. Négy márka van: ATB, JKV, MKL és PRQ. Ezen márkák havi eladásait adjuk meg. Ellenőriznünk kell, hogy a négy márka átlagos eladása azonos, vagy különbözik-e egymástól. Ennek igazolására az egyirányú ANOVA-t fogjuk használni. Az ANOVA megvalósítása lépésről lépésre a következő:
- Először importálja az adatokat R-be. Az adatok CSV formátumban vannak jelen. Tehát az importáláshoz a read.csv () függvényt fogjuk használni.
- Tekintse meg az adatok első néhány rekordját. Fontos annak ellenőrzése, hogy az adatokat helyesen importálták-e az R-be. Ehhez hasonlóan egy összefoglaló () függvényt alkalmazunk az adatokra, hogy alapvető betekintést nyerjünk az adatokba.
- Minden alkalommal, amikor az adatkészletben szereplő változókat használjuk, kifejezetten meg kell említeni az adatkészlet nevét, például brand_sales_data $ Brand vagy brand_sales_data $ Sales. Ennek kiküszöbölésére az asszisztens funkciót alkalmazzuk. A funkciót az alábbiak szerint kell alkalmazni.
- Összesítsük az értékesítést márka szerint átlag vagy szórás alapján. Az összesítés segítséget nyújt nekünk az adatok alapvető elképzelésében.
A fenti eredmény azt mutatja, hogy a négy különböző csoport eszközei nem azonosak. A JKV a legmagasabb átlagos eladást ért el.
Mint fentebb láthatjuk, a négy csoport közötti standard eltérések nem mutatnak szignifikáns különbséget, és ez az MKL márka esetében a legnagyobb.
- Most az ANOVA-t fogjuk alkalmazni annak ellenőrzésére, hogy a három populáció átlagai azonosak-e, vagy van-e különbség.
A fenti eredményekből láthatjuk, hogy az ANOVA teszt Brand szempontjából szignifikáns, mert p <0, 0001. Értelmezhetjük, hogy a márkák nem azonos preferenciaszintekkel rendelkeznek a piacon, ami befolyásolja ezen márkák eladását a piacon. Ennek oka számos tényező és az emberek kedve lehet egy adott márka iránt.
- A fenti eredmény megjeleníthető és megkönnyíti az értelmezést. Ehhez a plotmeans () függvényt fogjuk használni a gplots () könyvtárban. Az alábbiak szerint működik:
Mint fentebb láthatjuk, a plotmeans () függvény a gplots csomagban lehetővé teszi a különféle csoportok eszközeinek vizuális összehasonlítását. Láthatjuk, hogy az eszközök nem azonosak a négy márka között. Az MKL és a PRQ márkák eszközei azonban nagyon közel esnek egymáshoz.
- A fenti elemzés segít ellenőrizni, hogy a márkák egyenlőek-e vagy sem, mindazonáltal nehéz összehasonlítani a páronkénti összehasonlítást. A TukeyHSD () funkcióval párhuzamosan összehasonlíthatunk különféle márkák, a TukeyHSD () függvény segítségével, amely megkönnyíti annak ellenőrzését, hogy a márkák jelentősen különböznek-e a fennmaradóktól.
A páros összehasonlítások a fentiek szerint. A két csoport közötti különbség szignifikáns, ha p <0, 001. Amint azt fent láthatjuk, a PRQ-MKL pár p-értéke sokkal magasabb, ami azt jelzi, hogy a két márka nem különbözik jelentősen egymástól.
A páronkénti összehasonlítások megjelenítéséhez a fenti eredményeket az alábbiak szerint ábrázoljuk:
Az első par függvény elforgatja a tengelycímkéket, vízszintesvé téve őket, a második par állítás pedig beállítja a margókat úgy, hogy a címkék megfelelően illeszkedjenek, különben kimennek a képernyőről.
A fenti ábra jó betekintést nyújt, de az eredményeket boxplot formájában ábrázolhatjuk, hogy jobb betekintést nyerjünk a világosabb értelmezéshez, amint az alább bemutatjuk.
A fenti glht () függvény átfogó módszerkészlettel érkezik több eszköz összehasonlításához. Megjegyzés: a cld () függvényben a szint opció a szignifikancia szintre vonatkozik, pl. 0, 05 vagy 95 százalékos megbízhatóság)
A fenti ábra segítségével könnyedén összehasonlíthatók az eszközök csoportonként, és megkönnyíti a szisztematikus értelmezést. Az egyes márkákhoz a telek felső részén vannak betűk. Ha két márkanév azonos betûvel rendelkezik, akkor nincsenek jelentõsen különbözõ eszközeik, mint ebben az esetben az MKL és PRQ márkáknak, amelyek ugyanazon b betûvel rendelkeznek.
- Eddig megvalósítottuk az ANOVA-t, és az eredmények megjelenítésére grafikonokat használtunk. Ugyanakkor ugyanolyan fontos a feltételezések tesztelése. Először a normalitási feltételezést érvényesítjük.
Az R-ben található autócsomag a qqPlot () funkciót biztosítja. A fenti ábra azt mutatja, hogy az adatok 95% -os megbízhatósági kereten belül esnek. Ez azt jelzi, hogy a normalitási feltételezés majdnem teljesült.
Ezután megvizsgáljuk, hogy a márkák közötti variációk azonosak-e. Ehhez Bartlett-tesztet fogunk használni
A p-érték azt mutatja, hogy a csoporton belüli varianciák nem különböznek szignifikánsan
Végül, de nem utolsósorban, ellenőrizni kell, hogy vannak-e olyan eltérések, amelyek befolyásolják az ANOVA eredményeit.
A fenti eredmény alapján láthatjuk, hogy az adatokban nincs utalás a visszajelzésre (NA akkor fordul elő, ha p> 1)
Figyelembe véve a QQ Plot, a Bartlett teszt és az Outlier teszt eredményeit, elmondhatjuk, hogy az adatok megfelelnek az ANOVA összes feltételezésének, és a kapott eredmények érvényesek.
Következtetés - Egyirányú ANOVA R
Az ANOVA egy nagyon praktikus statisztikai módszer, amely összehasonlítható több populáció átlagán. Az R az átfogó csomagcsomagot kínál az ANOVA megvalósításához, az eredmények levezetéséhez és a feltételezések validálásához. Az R statisztikai eredményeit vizuális formákban lehet értelmezni, amelyek mélyebb betekintést nyújtanak.
Ajánlott cikkek
Ez egy útmutató az egyirányú ANOVA-hoz R.-ban. Itt tárgyaljuk az ANOVA egyirányú működését és a varianciaanalízis feltételezéseit. Lehet, hogy megnézi a következő cikkeket is, ha többet szeretne megtudni -
- R programozási nyelv
- Regresszió vs ANOVA
- Az eredmények értelmezése az ANOVA teszt segítségével
- GLM R-ben