A variancia egyirányú elemzése

Az varianciaanalízis röviddel ANOVA-ként írva az az eljárás, amellyel összehasonlíthatjuk az eszközöket három vagy több populáció között. Statisztikai szempontból két hipotézist vázolunk fel, a nullhipotézist: „Az összes népesség közti egyenlő” és az alternatív hipotézist: „Nem minden népesség közti egyenlő”. Lehetővé teszi a több eszköz egyenlőségének tesztelését egy tesztben, ahelyett, hogy két eszközt hasonlítsunk össze egy időben, ami lehetetlen, ha több csoport van. Ebben a témában az One Way ANOVA-t megismerjük R-ben.

A variancia egyirányú elemzése csak egy tényező vagy változó elemzésében segít bennünket. Például létezik öt régió és szeretnénk ellenőrizni, hogy mind az öt régióban a napi átlagos csapadékmennyiségek azonosak-e, vagy különböznek-e egymástól. Ebben az esetben csak egy tényező a régió, mivel ellenőriznünk kell, hogy a regionális tényezők befolyásolják-e a csapadék befogadását és a mintát.

A varianciaanalízis feltételezései

A következő feltételezéseknek kell teljesülniük az egyirányú ANOVA alkalmazásához:

  • A populációk, amelyekből a mintákat vesznek, általában eloszlanak.
  • A populációkból, amelyekből a mintákat vesznek, ugyanaz a szórás vagy standard eltérés.
  • A különböző populációkból vett minták véletlenszerűek és függetlenek.

Hogyan működik az egyirányú ANOVA az R-ben?

Bemutatásunkhoz az adatokat használjuk, amelyek két változót tartalmaznak, nevezetesen. Márka és értékesítés. Négy márka van: ATB, JKV, MKL és PRQ. Ezen márkák havi eladásait adjuk meg. Ellenőriznünk kell, hogy a négy márka átlagos eladása azonos, vagy különbözik-e egymástól. Ennek igazolására az egyirányú ANOVA-t fogjuk használni. Az ANOVA megvalósítása lépésről lépésre a következő:

  1. Először importálja az adatokat R-be. Az adatok CSV formátumban vannak jelen. Tehát az importáláshoz a read.csv () függvényt fogjuk használni.

  1. Tekintse meg az adatok első néhány rekordját. Fontos annak ellenőrzése, hogy az adatokat helyesen importálták-e az R-be. Ehhez hasonlóan egy összefoglaló () függvényt alkalmazunk az adatokra, hogy alapvető betekintést nyerjünk az adatokba.

  1. Minden alkalommal, amikor az adatkészletben szereplő változókat használjuk, kifejezetten meg kell említeni az adatkészlet nevét, például brand_sales_data $ Brand vagy brand_sales_data $ Sales. Ennek kiküszöbölésére az asszisztens funkciót alkalmazzuk. A funkciót az alábbiak szerint kell alkalmazni.

  1. Összesítsük az értékesítést márka szerint átlag vagy szórás alapján. Az összesítés segítséget nyújt nekünk az adatok alapvető elképzelésében.

A fenti eredmény azt mutatja, hogy a négy különböző csoport eszközei nem azonosak. A JKV a legmagasabb átlagos eladást ért el.

Mint fentebb láthatjuk, a négy csoport közötti standard eltérések nem mutatnak szignifikáns különbséget, és ez az MKL márka esetében a legnagyobb.

  1. Most az ANOVA-t fogjuk alkalmazni annak ellenőrzésére, hogy a három populáció átlagai azonosak-e, vagy van-e különbség.

A fenti eredményekből láthatjuk, hogy az ANOVA teszt Brand szempontjából szignifikáns, mert p <0, 0001. Értelmezhetjük, hogy a márkák nem azonos preferenciaszintekkel rendelkeznek a piacon, ami befolyásolja ezen márkák eladását a piacon. Ennek oka számos tényező és az emberek kedve lehet egy adott márka iránt.

  1. A fenti eredmény megjeleníthető és megkönnyíti az értelmezést. Ehhez a plotmeans () függvényt fogjuk használni a gplots () könyvtárban. Az alábbiak szerint működik:

Mint fentebb láthatjuk, a plotmeans () függvény a gplots csomagban lehetővé teszi a különféle csoportok eszközeinek vizuális összehasonlítását. Láthatjuk, hogy az eszközök nem azonosak a négy márka között. Az MKL és a PRQ márkák eszközei azonban nagyon közel esnek egymáshoz.

  1. A fenti elemzés segít ellenőrizni, hogy a márkák egyenlőek-e vagy sem, mindazonáltal nehéz összehasonlítani a páronkénti összehasonlítást. A TukeyHSD () funkcióval párhuzamosan összehasonlíthatunk különféle márkák, a TukeyHSD () függvény segítségével, amely megkönnyíti annak ellenőrzését, hogy a márkák jelentősen különböznek-e a fennmaradóktól.

A páros összehasonlítások a fentiek szerint. A két csoport közötti különbség szignifikáns, ha p <0, 001. Amint azt fent láthatjuk, a PRQ-MKL pár p-értéke sokkal magasabb, ami azt jelzi, hogy a két márka nem különbözik jelentősen egymástól.

A páronkénti összehasonlítások megjelenítéséhez a fenti eredményeket az alábbiak szerint ábrázoljuk:

Az első par függvény elforgatja a tengelycímkéket, vízszintesvé téve őket, a második par állítás pedig beállítja a margókat úgy, hogy a címkék megfelelően illeszkedjenek, különben kimennek a képernyőről.

A fenti ábra jó betekintést nyújt, de az eredményeket boxplot formájában ábrázolhatjuk, hogy jobb betekintést nyerjünk a világosabb értelmezéshez, amint az alább bemutatjuk.

A fenti glht () függvény átfogó módszerkészlettel érkezik több eszköz összehasonlításához. Megjegyzés: a cld () függvényben a szint opció a szignifikancia szintre vonatkozik, pl. 0, 05 vagy 95 százalékos megbízhatóság)

A fenti ábra segítségével könnyedén összehasonlíthatók az eszközök csoportonként, és megkönnyíti a szisztematikus értelmezést. Az egyes márkákhoz a telek felső részén vannak betűk. Ha két márkanév azonos betûvel rendelkezik, akkor nincsenek jelentõsen különbözõ eszközeik, mint ebben az esetben az MKL és PRQ márkáknak, amelyek ugyanazon b betûvel rendelkeznek.

  1. Eddig megvalósítottuk az ANOVA-t, és az eredmények megjelenítésére grafikonokat használtunk. Ugyanakkor ugyanolyan fontos a feltételezések tesztelése. Először a normalitási feltételezést érvényesítjük.

Az R-ben található autócsomag a qqPlot () funkciót biztosítja. A fenti ábra azt mutatja, hogy az adatok 95% -os megbízhatósági kereten belül esnek. Ez azt jelzi, hogy a normalitási feltételezés majdnem teljesült.

Ezután megvizsgáljuk, hogy a márkák közötti variációk azonosak-e. Ehhez Bartlett-tesztet fogunk használni

A p-érték azt mutatja, hogy a csoporton belüli varianciák nem különböznek szignifikánsan

Végül, de nem utolsósorban, ellenőrizni kell, hogy vannak-e olyan eltérések, amelyek befolyásolják az ANOVA eredményeit.

A fenti eredmény alapján láthatjuk, hogy az adatokban nincs utalás a visszajelzésre (NA akkor fordul elő, ha p> 1)

Figyelembe véve a QQ Plot, a Bartlett teszt és az Outlier teszt eredményeit, elmondhatjuk, hogy az adatok megfelelnek az ANOVA összes feltételezésének, és a kapott eredmények érvényesek.

Következtetés - Egyirányú ANOVA R

Az ANOVA egy nagyon praktikus statisztikai módszer, amely összehasonlítható több populáció átlagán. Az R az átfogó csomagcsomagot kínál az ANOVA megvalósításához, az eredmények levezetéséhez és a feltételezések validálásához. Az R statisztikai eredményeit vizuális formákban lehet értelmezni, amelyek mélyebb betekintést nyújtanak.

Ajánlott cikkek

Ez egy útmutató az egyirányú ANOVA-hoz R.-ban. Itt tárgyaljuk az ANOVA egyirányú működését és a varianciaanalízis feltételezéseit. Lehet, hogy megnézi a következő cikkeket is, ha többet szeretne megtudni -

  1. R programozási nyelv
  2. Regresszió vs ANOVA
  3. Az eredmények értelmezése az ANOVA teszt segítségével
  4. GLM R-ben

Kategória: