Lineáris regresszió R - -ben Hogyan értelmezzük a lineáris regressziót példákkal

Tartalomjegyzék:

Anonim

Mi az lineáris regresszió az R-ben?

A lineáris regresszió a legnépszerűbb és legszélesebb körben alkalmazott algoritmus a statisztikák és a gépi tanulás területén. A lineáris regresszió modellezési módszer a bemeneti és a kimeneti változók kapcsolatának megértésére. Itt a változóknak numerikusnak kell lenniük. A lineáris regresszió abból a tényből származik, hogy a kimeneti változó a bemeneti változók lineáris kombinációja. A kimenetet általában „y”, míg a bemenetet „x” jelöli.

Az R lineáris regresszió kétféle kategóriába sorolható

  1. Si mple lineáris regresszió

Ez a regresszió, ahol a kimeneti változó egyetlen bemeneti változó függvénye. Az egyszerű lineáris regresszió ábrázolása:

y = c0 + c1 * x1

  1. Többszörös lineáris regresszió

Ez a regresszió, ahol a kimeneti változó a több bemenetű változó függvénye.

y = c0 + c1 * x1 + c2 * x2

Mindkét fenti esetben c0, c1, c2 az együttható, amely a regressziós súlyokat képviseli.

Lineáris regresszió R-ben

R nagyon hatékony statisztikai eszköz. Tehát lássuk, hogyan hajtható végre lineáris regresszió R-ben és hogyan lehet értelmezni annak kimeneti értékeit.

Készítsünk egy adatkészletet a lineáris regresszió alapos végrehajtásához és megértéséhez.

Most van egy adatkészlet, amelyben a „activ_score” és az „year_of_Exp” a független változó. A „palk_in_lakhok” a kimeneti változó.

A fenti adatkészletre hivatkozva az a probléma, amelyet itt lineáris regresszióval kívánunk megválaszolni:

A munkavállalói fizetés becslése a tapasztalatának éve és az elégedettségi pontszám alapján a vállalatában.

A lineáris regresszió R kódja:

model <- lm(salary_in_Lakhs ~ satisfaction_score + year_of_Exp, data = employee.data)
summary(model)

A fenti kód kimenete:

A regresszió képlete lesz

I = 12, 29-1, 19 * megelégedettségi eredmény + 2, 08 × 2 * év_Exp

Abban az esetben, ha az embernek több bemenete van a modellbe.

Akkor az R kód lehet:

modell <- lm (fizetés_in_Lakhs ~., adatok = alkalmazott.adatok)

Ha azonban valaki meg akarja választani a változót a több bemeneti változó közül, többféle módszer létezik, mint például a „Visszamenőleges elimináció”, a „Előre választás” stb.

A lineáris regresszió értelmezése R - ben

Az alábbiakban néhány lineáris regresszió értelmezése van r-ben, amelyek a következők:

1.Residuals

Ez a tényleges válasz és a modell várható reakciója közötti különbségre utal. Tehát minden ponton van egy tényleges válasz és egy előrejelzett válasz. Ezért a maradványok száma annyi, mint a megfigyelésekben. Esetünkben négy megfigyelés van, tehát négy maradvány.

2.Coefficients

Ha tovább megyünk, meg fogjuk találni az együtthatókat, amelyek az elfogást és a lejtőt ábrázolják. Ha meg akarjuk mondani egy alkalmazott fizetését a tapasztalata és elégedettségi pontszáma alapján, akkor ki kell dolgoznia a lejtőn és a lehallgatáson alapuló modellt. Ez a képlet segít a bér kiszámításában. A lehallgatás és a lejtő segít az elemzőnek, hogy kidolgozza az adatpontokhoz megfelelő legjobb modellt.

Lejtő: A vonal meredekségét ábrázolja.
Elfogás: Az a hely, ahol a vonal vágja a tengelyt.
Megértjük, hogyan történik a képlet kialakítása a lejtőn és az elfogáson alapulva.
Mondjuk, hogy a lehallgatás 3 és a meredekség 5.
Tehát a képlet y = 3 + 5x . Ez azt jelenti, hogy ha x-rel egy egység növekszik, y-vel 5-et növekszik.

a.Coefficient - Becslés

Ebben az elfogás a kimeneti változó átlagértékét jelöli, amikor az összes bemenet nulla lesz. Tehát a mi esetünkben a lakhs fizetése átlagosan 12, 29Lakh lesz, figyelembe véve az elégedettségi pontszámot és a tapasztalatot. Itt a meredekség a kimeneti változó változását jelenti a bemeneti változó egységváltozásával.

b.Coefficient - Standard Error

A standard hiba a hiba becslése, amelyet akkor kaphatunk, ha kiszámoljuk a válaszváltozó tényleges és becsült értéke közötti különbséget. Ez viszont a bemeneti és kimeneti mutatók összekapcsolódásának bizalmáról szól.

c.Szükséglet - t érték

Ez az érték biztosítja a nullhipotézis elutasítását. Minél nagyobb az érték a nullától távol, annál nagyobb a bizalom a nullhipotézis elutasításában és a kimeneti és a bemeneti változó közötti kapcsolat megállapításában. Esetünkben az érték szintén nullától távol van.

d.Szükséglet - Pr (> t)

Ez a rövidítés alapvetően a p-értéket ábrázolja. Minél közelebb van nullához, annál könnyebben visszautasíthatjuk a nullhipotézist. A vonalat, amelyet esetünkben látunk, ez az érték közel nullához, mondhatjuk, hogy van kapcsolat a fizetéscsomag, az elégedettségi pontszám és a tapasztalatok éve között.

Maradék standard hiba

Ez a válaszváltozó előrejelzésében szereplő hibát ábrázolja. Minél alacsonyabb, annál nagyobb a pontosság a modellnél.

Több R-négyzet, igazított R-négyzet

Az R-négyzet nagyon fontos statisztikai mérőszám annak megértésében, hogy az adatok mennyire illeszkedtek a modellbe. Ezért a mi esetünkben mennyire reprezentálja a lineáris regresszióval rendelkező modellünk az adatkészletet.

Az R-négyzet értéke mindig 0 és 1 között van. A képlet:

Minél közelebb van az érték 1-hez, annál jobban leírja a modell az adatkészleteket és azok varianciáját.

Ha azonban egynél több bemeneti változó kerül a képbe, akkor a beállított R négyzet érték előnyös.

F-statisztika

Erős mérőszám a bemeneti és a válaszváltozó közötti kapcsolat meghatározására. Minél nagyobb az érték, mint 1, annál nagyobb a bizalom a bemeneti és a kimeneti közötti kapcsolatban.

Esetünkben a „937.5”, amely viszonylag nagyobb az adatok méretét tekintve. Ezért a nullhipotézis elutasítása könnyebbé válik.

Ha valaki meg akarja látni a modell együtthatóinak megbízhatósági intervallumát, akkor ezt megteheti:

A regresszió megjelenítése

R kód:

telek (fizetés_in_Lakhs ~ elégedettség_score + év_fejezet, adatok = alkalmazott.adatok)
abline (modell)

Mindig jobb egyre több pontot gyűjteni, mielőtt egy modellhez illeszkedne.

Következtetés - Lineáris regresszió R-ben

A lineáris regresszió egyszerű, könnyen illeszthető, könnyen érthető, mégis nagyon erős modell. Láttuk, hogy hogyan hajtható végre R lineáris regresszió. Megpróbáltuk értelmezni az eredményeket, amelyek segíthetnek a modell optimalizálásában. Ha egyszer elégedett az egyszerű lineáris regresszióval, meg kell próbálnia a többszörös lineáris regressziót. Ezzel együtt, mivel a lineáris regresszió érzékeny a túlmutatókra, meg kell vizsgálni azt, mielőtt közvetlenül a lineáris regresszióhoz illeszkednénk.

Ajánlott cikkek

Ez egy útmutató az R lineáris regresszióhoz. Itt tárgyaljuk, mi az a lineáris regresszió R-ben? kategorizálása, R. megjelenítése és értelmezése. További információkért áttekintheti a többi javasolt cikket is -

  1. Prediktív modellezés
  2. Logisztikus regresszió R-ben
  3. Döntési fa R
  4. R interjú kérdése
  5. A regresszió és a besorolás legfontosabb különbségei
  6. Útmutató a döntési fahoz a gépi tanulásban
  7. Lineáris regresszió vs logisztikus regresszió | Legfontosabb különbségek