Bevezetés a Poisson regresszióba R
A Poisson regresszió egy olyan típusú regresszió, amely hasonló a többszörös lineáris regresszióhoz, azzal a különbséggel, hogy a válasz vagy a függő változó (Y) egy számváltozó. A függő változó követi a Poisson-eloszlást. A prediktor vagy a független változók természetük lehet folyamatos vagy kategorikus. Bizonyos szempontból hasonló a logisztikai regresszióhoz, amelynek diszkrét válaszváltozója is van. A Poisson-eloszlás és annak matematikai formájának előzetes megértése elengedhetetlen ahhoz, hogy felhasználjuk azt a predikcióhoz. R-ben a Poisson-regresszió nagyon hatékony módon valósítható meg. Az R átfogó funkciókészletet kínál annak megvalósításához.
A Poisson regresszió végrehajtása
Most megismerjük a modell alkalmazását. A következő szakasz lépésről lépésre írja le ugyanezt. Ehhez a demonstrációhoz a „távoli” csomag „gala” adatállományát vesszük figyelembe. A fajok sokféleségére vonatkozik a Galapagos-szigeteken. Az adatkészlet összesen 7 változót tartalmaz. A Poisson regressziót használjuk a növényfajok (fajok) és az adatkészlet más változóinak száma közötti kapcsolat meghatározására.
1. Először töltse be a „távoli” csomagot. Ha a csomag nincs jelen, töltse le az install.packages () függvénnyel.
2. A csomag betöltése után töltse be a „gala” adatkészletet R-be az adatok () függvénnyel, az alább látható módon.
3. A betöltött adatokat el kell látni a változó tanulmányozása és az esetleges eltérések ellenőrzése érdekében. Megjeleníthetjük a teljes adatot, vagy csak annak első néhány sorát a head () függvény használatával, ahogy az alábbi képernyőképen látható.
4. Ahhoz, hogy további betekintést nyerjünk az adatkészletbe, az alábbi súgófunkciókat használhatjuk az R-ben. Elkészíti az R dokumentációt, ahogy az a képernyőképen látható, az alábbi képernyőképet követően.
5. Ha az adatkészletet az előző lépésekben említettek szerint vizsgáljuk, akkor megállapíthatjuk, hogy a Faj válaszváltozó. Most megvizsgáljuk az előrejelző változók alapvető összefoglalóját.
Megjegyzés: amint a fentiekből kiderül, kizártuk a Faj változót. Az összefoglaló funkció alapvető betekintést nyújt nekünk. Csak figyelje meg ezen változók medián értékeit, és megállapíthatjuk, hogy az értéktartomány szempontjából óriási különbség van az első fél és a második fél között, pl. A terület változójának medián értéke 2, 59, de a maximális érték 4669, 320.
6. Most, hogy elvégeztük az alapvető elemzést, előállítunk egy hisztogramot a fajhoz annak ellenőrzésére, hogy a változó követi-e a Poisson-eloszlást. Ezt az alábbiakban mutatjuk be.
A fenti kód hisztogramot állít elő a Faj változóra, és rajta fekszik egy sűrűséggörbe.
A fenti vizualizáció azt mutatja, hogy a fajok Poisson eloszlást követnek, mivel az adatok jobbra vannak ferdítve. Készíthetünk egy boxplotot is, hogy jobban megismerjük az eloszlási mintát, az alább látható módon.
7. Az előzetes elemzés elvégzése után most alkalmazzuk a Poisson regressziót, az alábbiak szerint
A fenti elemzés alapján azt találtuk, hogy az Endemics, a Area és a Legközelebbi változók szignifikánsak, és csak beépítésük elegendő a megfelelő Poisson regressziós modell felépítéséhez.
8. Felépítünk egy módosított Poisson regressziós modellt, figyelembe véve csak három változót, nevezetesen. Endemika, terület és legközelebbi. Lássuk, milyen eredményeket kapunk.
A kimenet eltéréseket, regressziós paramétereket és standard hibákat eredményez. Láthatjuk, hogy mindegyik paraméter szignifikáns p <0, 05 szinten.
9. A következő lépés a modell paramétereinek értelmezése. A modell együtthatókat a fenti kimenet koefficienseinek megvizsgálásával vagy a coef () függvény használatával lehet megszerezni.
Poisson regresszió esetén a függő változót a feltételes átlag loge log-ének modellezzük (l). Az Endemics esetében a 0, 0355 regressziós paraméter azt jelzi, hogy a változó egyegység-növekedése a fajok log átlagos átlagszámának 0, 04-es növekedésével jár, miközben a többi változó állandó marad. Az elfogás a fajok log átlagos átlagszáma, amikor az összes prediktor nulla.
10. Ugyanakkor sokkal könnyebb értelmezni a regressziós együtthatókat a függő változó eredeti skálájában (a fajok száma, a fajok napló száma helyett). Az együtthatók kibővítése lehetővé teszi a könnyű értelmezést. Ez a következőképpen történik.
A fenti megállapítások alapján elmondhatjuk, hogy a terület egy egységnyi növekedése megduplázza a várható fajok számát 0, 9999-rel, és az endemikus fajok számának egységnyi növekedése, amelyet az Endemics képvisel, a fajok számát 1, 0361-vel megsokszorozza. A Poisson-regresszió legfontosabb szempontja, hogy az exponenciált paraméterek inkább multiplikatív, mint additív hatással vannak a válaszváltozóra.
11. A fenti lépésekkel Poisson regressziós modellt kaptunk a növényfajok számának becslésére a Galapagos-szigeteken. Nagyon fontos azonban ellenőrizni, hogy nincs-e túlzott diszperzió. Poisson regresszió esetén a variancia és az átlag egyenlő.
A túlzott diszperzió akkor fordul elő, ha a válaszváltozó megfigyelt varianciája nagyobb, mint a Poisson-eloszlás előrejelzésekor meg lehetne állapítani. A túlzott diszperzió elemzése fontos, mivel ez a számlálási adatokkal közös, és negatív hatással lehet a végső eredményekre. R-ben a túlzott diszperzió a „qcc” csomag segítségével elemezhető. Az elemzést az alábbiakban mutatjuk be.
A fenti jelentős teszt azt mutatja, hogy a p-érték kevesebb, mint 0, 05, ami erősen sugallja a túl diszperzió jelenlétét. Megpróbálunk felszerelni egy modellt a glm () függvény használatával, a family = “Poisson” helyett a family = “quasipoisson” -ra. Ezt az alábbiakban mutatjuk be.
A fenti kimenetet közelebbről megnézve láthatjuk, hogy a kvázi-Poisson megközelítés paraméterbecslései megegyeznek a Poisson-megközelítés eredményeivel, bár a standard hibák mindkét megközelítésnél különböznek. Sőt, ebben az esetben a Area esetében a p-érték nagyobb, mint 0, 05, ami a nagyobb standard hiba miatt.
A Poisson-regresszió fontossága
- A Poisson regresszió R-ben hasznos a diszkrét / szám változó helyes becsléséhez.
- Segít azonosítani azokat a magyarázó változókat, amelyek statisztikailag szignifikáns hatással vannak a válaszváltozóra.
- Az Poisson regresszió az R-ben a legalkalmasabb a „ritka” természetű eseményekre, mivel hajlamosak a Poisson-eloszlást követni, mint a normál eloszlást követő általános események.
- Alkalmas olyan esetekben, amikor a válaszváltozó kicsi egész.
- Széles körű alkalmazásokat kínál, mivel a diszkrét változók előrejelzése sok helyzetben kritikus jelentőségű. Az orvostudományban felhasználható a gyógyszer egészségre gyakorolt hatásainak előrejelzésére. Erősen alkalmazzák a túlélési elemzésben, például biológiai organizmusok elpusztulása, mechanikai rendszerek meghibásodása stb.
Következtetés
A Poisson regresszió a Poisson eloszlás fogalmán alapul. A regressziós technikák halmazához tartozó másik kategória, amely egyesíti mind a lineáris, mind a logisztikus regresszió tulajdonságait. A logisztikus regresszióval ellentétben, amely csak bináris kimenetet generál, a diszkrét változó becslésére szolgál.
Ajánlott cikkek
Ez egy útmutató a Poisson regresszióhoz R. Ebben a cikkben a Poisson regresszió végrehajtásának bevezetését és a Poisson regresszió fontosságát tárgyaljuk. A további javasolt cikkeken keresztül további információkat is megtudhat -
- GLM R-ben
- Véletlenszám-generátor R-ben
- Regressziós képlet
- Logisztikus regresszió R-ben
- Lineáris regresszió vs logisztikus regresszió | Legfontosabb különbségek