Bevezetés Logisztikus regresszió R

Az R logisztikai regressziója, bináris osztályozási problémákként is ismert. Ezeket az eredmény előrejelzésére használják (1 vagy 0, igen / nem) független változó esetén. Az R logisztikai regresszió megértéséhez fontos az alapvető lineáris regresszió ismerete, amely a folyamatos kimeneti változóval működik. Pontosabban mondhatjuk, hogy ez a lineáris regresszió kiterjesztése. Ebben a cikkben a modell kiszámításához és az értékeléshez használt különféle módszereket tárgyaljuk. A logisztikus regressziót használják a gépi tanulás osztályozási problémáinak megoldására.

Hogyan működik az R logisztikai regresszió?

A logisztikus regresszió a statisztika területén alkalmazott módszer, amely a függő és független változó közötti különbséget a logisztikai függvény útmutatásával méri a valószínűségek különböző előfordulásának becslésekor. Lehetnek binomiális (igen vagy nem eredményes) vagy multinomális (tisztességes vagy szegény nagyon rossz). A valószínűségi értékek 0 és 1 között vannak, és a változónak pozitívnak kell lennie (<1). Célja a függő változóra, és a következő lépéseket követi:

  1. n nem rögzített vizsgálatok száma egy vett adatkészletnél
  2. két eredmény kipróbálásával
  3. a valószínűség kimenetelének függetlennek kell lennie
  4. A siker és a kudarc valószínűségének azonosnak kell lennie minden próba során.

Ebben példaként vesszük fontolóra az ISLR csomagot, amely különféle adatkészleteket biztosít a képzéshez. A modell illesztésére itt általánosított lineáris modellfüggvényt (glm) használunk. A logisztikus regresszió felépítéséhez a glm függvényt részesítik előnyben, és az elemzés feladatához összefoglaló segítségével megkapja a részleteket.

Működési lépések:

A logisztikus regresszióval kapcsolatos munkalépések bizonyos kifejezési elemeket követnek, például

  • A valószínűség modellezése vagy a valószínűség becslése
  • jóslás
  • Inicializáló küszöbérték (magas vagy alacsony specifitás)
  • Zavar mátrix
  • A görbe alatti ábrázolási terület (AUC)

Példák

Az alábbiakban bemutatunk néhány példát az R logisztikai regressziójára:

Adat betöltése:

Az ISLR csomag telepítése.

igényelnek (ISLR)

A szükséges csomag betöltése: ISLR

Ez a cikk a „Heti” adatkészletet fogja használni az RStudio-ban. Az adatkészlet magában foglalja a heti készlet 1990 és 2010 közötti összefoglaló adatait.

igényelnek (ISLR)

nevek (HL)

Kimenet:

(1) “Vásárlás” “WeekofPurchase” “StoreID” “PriceCH”

(5) “PriceMM” “DiscCH” “DiscMM” “SpecialCH”

(9) “SpecialMM” “LoyalCH” “SalePriceMM” “SalePriceCH”

(13) “PriceDiff” “Store7” “PctDiscMM” “PctDiscCH”

(17) ”ListPriceDiff” “STORE”

str (HL)

18 változó 1070 megfigyelését mutatja.

Adatkészletünk 1070 megfigyeléssel és 18 különböző változóval rendelkezik. Itt van a Különleges MM és a speciális CH függő eredményt hoz. Vegyünk egy speciális MM attribútumot, hogy a helyes megfigyelés és a pontosság 84% legyen.

táblázat (HL $ SpecialMM)

0 1

897 173

Ezután keresse meg a valószínűséget

897/1070

(1) 0, 8383178

A jobb lépésről szóló következő lépés: Az adatkészlet felosztása a képzési és tesztelési adatkészletbe goo

Library (caTools)

set.seed (88)

split = minta.split (OJ $ SpecialMM, SplitRatio = 0, 84)

Figyelembe véve, hogy qt rendelkezik edzőkészlettel, és qs van tesztkészlettel, mintával.

qt = részhalmaza (HL, split == TRUE)

qs = részhalmaza (HL, split == FALSE)

nrow (qt)

(1) 898

nrow (qs)

(1) 172.

Ezért 898 edzőkészlet és 172 tesztminta van.

Ezután az Összegzés () használatával adjuk meg a deviancia és a együttható táblázatok részleteit a regressziós elemzéshez.

QualityLog = glm (SpecialMM ~ SalePriceMM + WeekofPurchase, data = qt, family = binomial)

összefoglaló (QualityLog)

Kimenet:

Hívás:

glm (formula = SpecialMM ~ SalePriceMM + WeekofPurchase, family = binomial,

adatok = qt)

Deviance maradványok:

Min. 1Q Medián 3Q Max

-1, 2790 -0, 4182 -0, 3687 -0, 2640 2, 4284

együtthatók:

Estimate Std. Hiba z érték Pr (> | z |)

(Intercept) 2.910774 1, 616328 1, 801 0, 07173.

Eladási árMM -4.538464 0.405808 -11.184 <2e-16 ***

Vásárlás hete 0.015546 0.005831 2.666 0.00767 **

-

Null eltérés: 794.01 897 szabadságfokon

Maradék eltérés: 636, 13 895 szabadságfokon

AIC: 642, 13

Fisher pontozási iterációk száma: 5

A fenti elemzés szerint azt mondják, hogy az együtthatótáblák pozitív értékeket adnak a WeekofPurchase számára, és legalább két csillaggal rendelkeznek, ami azt jelenti, hogy ezek a modell jelentős kódjai.

Jóslás technika:

Itt az R csomag előrejelzés funkcióját használjuk ebben az R csomagban, és megadunk valószínûségeket, amelyeket az type = response argumentumnak használunk. Lássuk az edzéskészletre alkalmazott előrejelzést (qt). R előrejelzi az eredményt P (y = 1 | X) formájában, a határ valószínűsége 0, 5.

enntTrain = előrejelzés (QualityLog, type = ”response”)

Az összegzés medián, közép és min, max értékeket eredményez.

Összegzés (enntTrain) A végrehajtás megadja

Min. 1. Qu.Median átlag 3. Qu.Max.

0, 02192 0, 03342 0, 07799 0, 16147 0, 25395 0, 89038

tapply (enntTrain, qt $ SpecialMM)

A valódi valószínűségek átlagának kiszámításához a tapply () függvényt használjuk.

tapply (predictTrain, qt $ SpecialMM, átlag)

0 1

0.1224444 0.3641334

Ezért azt találjuk, hogy a fenti állításban a valódi SpecialMM azt jelenti, hogy érték = 0, 34, és az igaz rossz értéknél - 0, 12.

Küszöbérték kiszámítása:

ha P> T–, az előrejelzés gyenge Speciális MM

ha P jelentése

Besorolási mátrix:

táblázat (qt $ SpecialMM, előrejelzés és vonatok> 0, 5)

HAMIS IGAZ

0 746 7

1 105 40

Érzékenység és specifitás kiszámításához

40/145

(1) 0, 2758621

746/753

(1) 0, 9907039

Tesztelőkészlet előrejelzése

prognozálásTest = előrejelzés (QualityLog, type = “response”, newdata = qs)

táblázat (qs $ SpecialMM, előrejelzett teszt> = 0, 3)

HAMIS IGAZ

0 130 14

1 10 18

táblázat (qs $ SpecialMM, előrejelzett teszt> = 0, 5)

HAMIS IGAZ

0 140 4

1 18 10

Számítási pontosság

150/172

(1) 0, 872093

172 eset van, amelyek közül 144 jó és 28 rossz.

ROC görbe ábrázolása:

Ez az utolsó lépés a ROC-görbe ábrázolásával a teljesítményméréshez. A jó AUC értéknek közelebb kell lennie az 1-hez, nem pedig 0, 5-ig. Ellenőrizzük a 0, 5, 0, 7, 0, 2 valószínűséggel, hogy megjósoljuk, hogyan növekszik és csökken a küszöbérték. Ez úgy történik, hogy a küszöbértékeket egyidejűleg ábrázolják a ROC-görbebe. Jó választás a szedés, figyelembe véve a nagyobb érzékenységet.

Logisztikus regressziós technikák

Lássuk a logisztikai megvalósítást az R használatával, mivel ez nagyon egyszerűvé teszi a modell illesztését. Kétféle technika létezik:

  • Multinomális logisztikus regresszió
  • Ordinal Logistic Regression

A korábbi válaszváltozatokkal dolgozik, ha két osztályuknál nagyobb vagy egyenlő. később működik, ha a megrendelés jelentős.

Következtetés

Ezért megtanultuk a regresszió mögött rejlő alapvető logikát, és a logisztikus regressziót az R. egy adott adatkészleténél megvalósítottuk. A binomiális vagy bináris regresszió méri a bináris válaszok és az előrejelző változók kategorikus értékeit. Alapvető szerepet játszanak az elemzésben, ahol az iparági szakértők elvárják, hogy megismerjék a lineáris és logisztikus regressziót. Nekik van saját kihívásuk, és a gyakorlati példában megtettük az adatok tisztításával, az előfeldolgozással kapcsolatos lépéseket. Összességében láttuk, hogy a logisztikus regresszió egyszerűen és könnyen megoldja a kategorikus eredmény problémáját.

Ajánlott cikkek

Ez egy útmutató az R. logisztikai regressziójához. Itt tárgyaljuk az R logisztikai regresszióban alkalmazott különféle módszerek működését, a különböző technikákat és a széles körű magyarázatot. A következő cikkeket is megnézheti további információkért -

  1. Gépi tanulási keretek
  2. R vs Python
  3. Python karakterlánc funkciók
  4. A Python szkriptnyelv
  5. Binomiális eloszlás R | -ben Szintaxis
  6. Regresszió vs osztályozás

Kategória: