Bevezetés Logisztikus regresszió R
Az R logisztikai regressziója, bináris osztályozási problémákként is ismert. Ezeket az eredmény előrejelzésére használják (1 vagy 0, igen / nem) független változó esetén. Az R logisztikai regresszió megértéséhez fontos az alapvető lineáris regresszió ismerete, amely a folyamatos kimeneti változóval működik. Pontosabban mondhatjuk, hogy ez a lineáris regresszió kiterjesztése. Ebben a cikkben a modell kiszámításához és az értékeléshez használt különféle módszereket tárgyaljuk. A logisztikus regressziót használják a gépi tanulás osztályozási problémáinak megoldására.
Hogyan működik az R logisztikai regresszió?
A logisztikus regresszió a statisztika területén alkalmazott módszer, amely a függő és független változó közötti különbséget a logisztikai függvény útmutatásával méri a valószínűségek különböző előfordulásának becslésekor. Lehetnek binomiális (igen vagy nem eredményes) vagy multinomális (tisztességes vagy szegény nagyon rossz). A valószínűségi értékek 0 és 1 között vannak, és a változónak pozitívnak kell lennie (<1). Célja a függő változóra, és a következő lépéseket követi:
- n nem rögzített vizsgálatok száma egy vett adatkészletnél
- két eredmény kipróbálásával
- a valószínűség kimenetelének függetlennek kell lennie
- A siker és a kudarc valószínűségének azonosnak kell lennie minden próba során.
Ebben példaként vesszük fontolóra az ISLR csomagot, amely különféle adatkészleteket biztosít a képzéshez. A modell illesztésére itt általánosított lineáris modellfüggvényt (glm) használunk. A logisztikus regresszió felépítéséhez a glm függvényt részesítik előnyben, és az elemzés feladatához összefoglaló segítségével megkapja a részleteket.
Működési lépések:
A logisztikus regresszióval kapcsolatos munkalépések bizonyos kifejezési elemeket követnek, például
- A valószínűség modellezése vagy a valószínűség becslése
- jóslás
- Inicializáló küszöbérték (magas vagy alacsony specifitás)
- Zavar mátrix
- A görbe alatti ábrázolási terület (AUC)
Példák
Az alábbiakban bemutatunk néhány példát az R logisztikai regressziójára:
Adat betöltése:
Az ISLR csomag telepítése.
igényelnek (ISLR)
A szükséges csomag betöltése: ISLR
Ez a cikk a „Heti” adatkészletet fogja használni az RStudio-ban. Az adatkészlet magában foglalja a heti készlet 1990 és 2010 közötti összefoglaló adatait.
igényelnek (ISLR)
nevek (HL)
Kimenet:
(1) “Vásárlás” “WeekofPurchase” “StoreID” “PriceCH” (5) “PriceMM” “DiscCH” “DiscMM” “SpecialCH” (9) “SpecialMM” “LoyalCH” “SalePriceMM” “SalePriceCH” (13) “PriceDiff” “Store7” “PctDiscMM” “PctDiscCH” (17) ”ListPriceDiff” “STORE”str (HL)
18 változó 1070 megfigyelését mutatja.
Adatkészletünk 1070 megfigyeléssel és 18 különböző változóval rendelkezik. Itt van a Különleges MM és a speciális CH függő eredményt hoz. Vegyünk egy speciális MM attribútumot, hogy a helyes megfigyelés és a pontosság 84% legyen.
táblázat (HL $ SpecialMM)
0 1
897 173
Ezután keresse meg a valószínűséget
897/1070
(1) 0, 8383178A jobb lépésről szóló következő lépés: Az adatkészlet felosztása a képzési és tesztelési adatkészletbe goo
Library (caTools)
set.seed (88)
split = minta.split (OJ $ SpecialMM, SplitRatio = 0, 84)
Figyelembe véve, hogy qt rendelkezik edzőkészlettel, és qs van tesztkészlettel, mintával.
qt = részhalmaza (HL, split == TRUE)
qs = részhalmaza (HL, split == FALSE)
nrow (qt)
(1) 898nrow (qs)
(1) 172.Ezért 898 edzőkészlet és 172 tesztminta van.
Ezután az Összegzés () használatával adjuk meg a deviancia és a együttható táblázatok részleteit a regressziós elemzéshez.
QualityLog = glm (SpecialMM ~ SalePriceMM + WeekofPurchase, data = qt, family = binomial)
összefoglaló (QualityLog)
Kimenet:
Hívás:
glm (formula = SpecialMM ~ SalePriceMM + WeekofPurchase, family = binomial, adatok = qt) Deviance maradványok: Min. 1Q Medián 3Q Max -1, 2790 -0, 4182 -0, 3687 -0, 2640 2, 4284 együtthatók: Estimate Std. Hiba z érték Pr (> | z |) (Intercept) 2.910774 1, 616328 1, 801 0, 07173. Eladási árMM -4.538464 0.405808 -11.184 <2e-16 *** Vásárlás hete 0.015546 0.005831 2.666 0.00767 ** - Null eltérés: 794.01 897 szabadságfokon Maradék eltérés: 636, 13 895 szabadságfokon AIC: 642, 13 Fisher pontozási iterációk száma: 5 |
A fenti elemzés szerint azt mondják, hogy az együtthatótáblák pozitív értékeket adnak a WeekofPurchase számára, és legalább két csillaggal rendelkeznek, ami azt jelenti, hogy ezek a modell jelentős kódjai.
Jóslás technika:
Itt az R csomag előrejelzés funkcióját használjuk ebben az R csomagban, és megadunk valószínûségeket, amelyeket az type = response argumentumnak használunk. Lássuk az edzéskészletre alkalmazott előrejelzést (qt). R előrejelzi az eredményt P (y = 1 | X) formájában, a határ valószínűsége 0, 5.
enntTrain = előrejelzés (QualityLog, type = ”response”)
Az összegzés medián, közép és min, max értékeket eredményez.
Összegzés (enntTrain) A végrehajtás megadja
Min. 1. Qu.Median átlag 3. Qu.Max.
0, 02192 0, 03342 0, 07799 0, 16147 0, 25395 0, 89038
tapply (enntTrain, qt $ SpecialMM)
A valódi valószínűségek átlagának kiszámításához a tapply () függvényt használjuk.
tapply (predictTrain, qt $ SpecialMM, átlag)
0 1
0.1224444 0.3641334
Ezért azt találjuk, hogy a fenti állításban a valódi SpecialMM azt jelenti, hogy érték = 0, 34, és az igaz rossz értéknél - 0, 12.
Küszöbérték kiszámítása:
ha P> T–, az előrejelzés gyenge Speciális MM
ha P jelentése Besorolási mátrix: táblázat (qt $ SpecialMM, előrejelzés és vonatok> 0, 5) HAMIS IGAZ 0 746 7 1 105 40 Érzékenység és specifitás kiszámításához 40/145
746/753
(1) 0, 9907039Tesztelőkészlet előrejelzése
prognozálásTest = előrejelzés (QualityLog, type = “response”, newdata = qs)
táblázat (qs $ SpecialMM, előrejelzett teszt> = 0, 3)
HAMIS IGAZ
0 130 14
1 10 18
táblázat (qs $ SpecialMM, előrejelzett teszt> = 0, 5)
HAMIS IGAZ
0 140 4
1 18 10
Számítási pontosság
150/172
(1) 0, 872093172 eset van, amelyek közül 144 jó és 28 rossz.
ROC görbe ábrázolása:
Ez az utolsó lépés a ROC-görbe ábrázolásával a teljesítményméréshez. A jó AUC értéknek közelebb kell lennie az 1-hez, nem pedig 0, 5-ig. Ellenőrizzük a 0, 5, 0, 7, 0, 2 valószínűséggel, hogy megjósoljuk, hogyan növekszik és csökken a küszöbérték. Ez úgy történik, hogy a küszöbértékeket egyidejűleg ábrázolják a ROC-görbebe. Jó választás a szedés, figyelembe véve a nagyobb érzékenységet.
Logisztikus regressziós technikák
Lássuk a logisztikai megvalósítást az R használatával, mivel ez nagyon egyszerűvé teszi a modell illesztését. Kétféle technika létezik:
- Multinomális logisztikus regresszió
- Ordinal Logistic Regression
A korábbi válaszváltozatokkal dolgozik, ha két osztályuknál nagyobb vagy egyenlő. később működik, ha a megrendelés jelentős.
Következtetés
Ezért megtanultuk a regresszió mögött rejlő alapvető logikát, és a logisztikus regressziót az R. egy adott adatkészleténél megvalósítottuk. A binomiális vagy bináris regresszió méri a bináris válaszok és az előrejelző változók kategorikus értékeit. Alapvető szerepet játszanak az elemzésben, ahol az iparági szakértők elvárják, hogy megismerjék a lineáris és logisztikus regressziót. Nekik van saját kihívásuk, és a gyakorlati példában megtettük az adatok tisztításával, az előfeldolgozással kapcsolatos lépéseket. Összességében láttuk, hogy a logisztikus regresszió egyszerűen és könnyen megoldja a kategorikus eredmény problémáját.
Ajánlott cikkek
Ez egy útmutató az R. logisztikai regressziójához. Itt tárgyaljuk az R logisztikai regresszióban alkalmazott különféle módszerek működését, a különböző technikákat és a széles körű magyarázatot. A következő cikkeket is megnézheti további információkért -
- Gépi tanulási keretek
- R vs Python
- Python karakterlánc funkciók
- A Python szkriptnyelv
- Binomiális eloszlás R | -ben Szintaxis
- Regresszió vs osztályozás