Mi az lineáris regresszió az R-ben?
A lineáris regresszió a legnépszerűbb és legszélesebb körben alkalmazott algoritmus a statisztikák és a gépi tanulás területén. A lineáris regresszió modellezési módszer a bemeneti és a kimeneti változók kapcsolatának megértésére. Itt a változóknak numerikusnak kell lenniük. A lineáris regresszió abból a tényből származik, hogy a kimeneti változó a bemeneti változók lineáris kombinációja. A kimenetet általában „y”, míg a bemenetet „x” jelöli.
Az R lineáris regresszió kétféle kategóriába sorolható
-
Si mple lineáris regresszió
Ez a regresszió, ahol a kimeneti változó egyetlen bemeneti változó függvénye. Az egyszerű lineáris regresszió ábrázolása:
y = c0 + c1 * x1
-
Többszörös lineáris regresszió
Ez a regresszió, ahol a kimeneti változó a több bemenetű változó függvénye.
y = c0 + c1 * x1 + c2 * x2
Mindkét fenti esetben c0, c1, c2 az együttható, amely a regressziós súlyokat képviseli.
Lineáris regresszió R-ben
R nagyon hatékony statisztikai eszköz. Tehát lássuk, hogyan hajtható végre lineáris regresszió R-ben és hogyan lehet értelmezni annak kimeneti értékeit.
Készítsünk egy adatkészletet a lineáris regresszió alapos végrehajtásához és megértéséhez.
Most van egy adatkészlet, amelyben a „activ_score” és az „year_of_Exp” a független változó. A „palk_in_lakhok” a kimeneti változó.
A fenti adatkészletre hivatkozva az a probléma, amelyet itt lineáris regresszióval kívánunk megválaszolni:
A munkavállalói fizetés becslése a tapasztalatának éve és az elégedettségi pontszám alapján a vállalatában.
A lineáris regresszió R kódja:
model <- lm(salary_in_Lakhs ~ satisfaction_score + year_of_Exp, data = employee.data)
summary(model)
A fenti kód kimenete:
A regresszió képlete lesz
I = 12, 29-1, 19 * megelégedettségi eredmény + 2, 08 × 2 * év_Exp
Abban az esetben, ha az embernek több bemenete van a modellbe.
Akkor az R kód lehet:
modell <- lm (fizetés_in_Lakhs ~., adatok = alkalmazott.adatok)
Ha azonban valaki meg akarja választani a változót a több bemeneti változó közül, többféle módszer létezik, mint például a „Visszamenőleges elimináció”, a „Előre választás” stb.
A lineáris regresszió értelmezése R - ben
Az alábbiakban néhány lineáris regresszió értelmezése van r-ben, amelyek a következők:
1.Residuals
Ez a tényleges válasz és a modell várható reakciója közötti különbségre utal. Tehát minden ponton van egy tényleges válasz és egy előrejelzett válasz. Ezért a maradványok száma annyi, mint a megfigyelésekben. Esetünkben négy megfigyelés van, tehát négy maradvány.
2.Coefficients
Ha tovább megyünk, meg fogjuk találni az együtthatókat, amelyek az elfogást és a lejtőt ábrázolják. Ha meg akarjuk mondani egy alkalmazott fizetését a tapasztalata és elégedettségi pontszáma alapján, akkor ki kell dolgoznia a lejtőn és a lehallgatáson alapuló modellt. Ez a képlet segít a bér kiszámításában. A lehallgatás és a lejtő segít az elemzőnek, hogy kidolgozza az adatpontokhoz megfelelő legjobb modellt.
Lejtő: A vonal meredekségét ábrázolja.
Elfogás: Az a hely, ahol a vonal vágja a tengelyt.
Megértjük, hogyan történik a képlet kialakítása a lejtőn és az elfogáson alapulva.
Mondjuk, hogy a lehallgatás 3 és a meredekség 5.
Tehát a képlet y = 3 + 5x . Ez azt jelenti, hogy ha x-rel egy egység növekszik, y-vel 5-et növekszik.
a.Coefficient - Becslés
Ebben az elfogás a kimeneti változó átlagértékét jelöli, amikor az összes bemenet nulla lesz. Tehát a mi esetünkben a lakhs fizetése átlagosan 12, 29Lakh lesz, figyelembe véve az elégedettségi pontszámot és a tapasztalatot. Itt a meredekség a kimeneti változó változását jelenti a bemeneti változó egységváltozásával.
b.Coefficient - Standard Error
A standard hiba a hiba becslése, amelyet akkor kaphatunk, ha kiszámoljuk a válaszváltozó tényleges és becsült értéke közötti különbséget. Ez viszont a bemeneti és kimeneti mutatók összekapcsolódásának bizalmáról szól.
c.Szükséglet - t érték
Ez az érték biztosítja a nullhipotézis elutasítását. Minél nagyobb az érték a nullától távol, annál nagyobb a bizalom a nullhipotézis elutasításában és a kimeneti és a bemeneti változó közötti kapcsolat megállapításában. Esetünkben az érték szintén nullától távol van.
d.Szükséglet - Pr (> t)
Ez a rövidítés alapvetően a p-értéket ábrázolja. Minél közelebb van nullához, annál könnyebben visszautasíthatjuk a nullhipotézist. A vonalat, amelyet esetünkben látunk, ez az érték közel nullához, mondhatjuk, hogy van kapcsolat a fizetéscsomag, az elégedettségi pontszám és a tapasztalatok éve között.
Maradék standard hiba
Ez a válaszváltozó előrejelzésében szereplő hibát ábrázolja. Minél alacsonyabb, annál nagyobb a pontosság a modellnél.
Több R-négyzet, igazított R-négyzet
Az R-négyzet nagyon fontos statisztikai mérőszám annak megértésében, hogy az adatok mennyire illeszkedtek a modellbe. Ezért a mi esetünkben mennyire reprezentálja a lineáris regresszióval rendelkező modellünk az adatkészletet.
Az R-négyzet értéke mindig 0 és 1 között van. A képlet:
Minél közelebb van az érték 1-hez, annál jobban leírja a modell az adatkészleteket és azok varianciáját.
Ha azonban egynél több bemeneti változó kerül a képbe, akkor a beállított R négyzet érték előnyös.
F-statisztika
Erős mérőszám a bemeneti és a válaszváltozó közötti kapcsolat meghatározására. Minél nagyobb az érték, mint 1, annál nagyobb a bizalom a bemeneti és a kimeneti közötti kapcsolatban.
Esetünkben a „937.5”, amely viszonylag nagyobb az adatok méretét tekintve. Ezért a nullhipotézis elutasítása könnyebbé válik.
Ha valaki meg akarja látni a modell együtthatóinak megbízhatósági intervallumát, akkor ezt megteheti:
A regresszió megjelenítése
R kód:
telek (fizetés_in_Lakhs ~ elégedettség_score + év_fejezet, adatok = alkalmazott.adatok)
abline (modell)
Mindig jobb egyre több pontot gyűjteni, mielőtt egy modellhez illeszkedne.
Következtetés - Lineáris regresszió R-ben
A lineáris regresszió egyszerű, könnyen illeszthető, könnyen érthető, mégis nagyon erős modell. Láttuk, hogy hogyan hajtható végre R lineáris regresszió. Megpróbáltuk értelmezni az eredményeket, amelyek segíthetnek a modell optimalizálásában. Ha egyszer elégedett az egyszerű lineáris regresszióval, meg kell próbálnia a többszörös lineáris regressziót. Ezzel együtt, mivel a lineáris regresszió érzékeny a túlmutatókra, meg kell vizsgálni azt, mielőtt közvetlenül a lineáris regresszióhoz illeszkednénk.
Ajánlott cikkek
Ez egy útmutató az R lineáris regresszióhoz. Itt tárgyaljuk, mi az a lineáris regresszió R-ben? kategorizálása, R. megjelenítése és értelmezése. További információkért áttekintheti a többi javasolt cikket is -
- Prediktív modellezés
- Logisztikus regresszió R-ben
- Döntési fa R
- R interjú kérdése
- A regresszió és a besorolás legfontosabb különbségei
- Útmutató a döntési fahoz a gépi tanulásban
- Lineáris regresszió vs logisztikus regresszió | Legfontosabb különbségek