Bevezetés az egyszerű lineáris regresszióba

A szótárból : Visszatérés egy korábbi vagy kevésbé fejlett állapotba.

Statisztikában: Az egyik változó átlagértéke és a többi változó megfelelő értéke közötti kapcsolat mértéke.

A regressziót, amelyben a bemeneti változó (független változó) és a célváltozó (függő változó) közötti kapcsolatot lineárisnak tekintjük, lineáris regressziónak nevezzük. Az egyszerű lineáris regresszió egy olyan típusú lineáris regresszió, ahol csak egy független változó van a függő változó megjóslására. Az egyszerű lineáris regresszió az egyik gépi tanulási algoritmus. Az egyszerű lineáris regresszió a felügyelt tanulás családjába tartozik. A regresszió a folyamatos értékek becslésére szolgál.

Az egyszerű lineáris regresszió modellje

Tegyük egyszerűvé. Hogy kezdődött az egész?

Az egész 1800-ban kezdődött Francis Galton részvételével. Tanulmányozta az apák és fiaik közötti magassági kapcsolatot. Megfigyelt egy mintát: Bármelyik fia magassága ugyanolyan magas, mint az apja vagy a fia magassága közelebb áll minden ember átlagos átlagmagasságához. Ez a jelenség csak regresszió.

Például Shaq O'Neal nagyon híres NBA játékos, 2, 16 méter magas. Fiai, Shaqir és Shareef O'neal 1, 96 és 2, 06 méter magas. Az átlagos népességmagasság 1, 76 méter. A fiú magassága regresszióval (sodródás felé) az átlagos magasságot csökkenti.

Hogyan csináljuk a regressziót?

Csak két adatpont regressziójának kiszámítása:

A legjobb regresszió megtalálásához csak egy vonal húzását kell megkötni, amely a lehető legközelebb van minden ponthoz. Két adatpont esetén könnyű vonalt húzni, csak csatlakoztassa őket.

Ha már számos adatpontunk van, hogyan lehet húzni a vonalat, amely a lehető legközelebb áll az egyes adatpontokhoz.

Ebben az esetben a célunk a vonal és az összes adatpont közötti függőleges távolság minimalizálása. Ily módon megjósoljuk a legjobb sort lineáris regressziós modellünkhöz.

Milyen az egyszerű lineáris regresszió?

Az alábbiakban bemutatjuk az egyszerű lineáris regresszió részleteit:

  • Sok és sok lehetséges vonalat húz, majd elvégzi az elemzést.
  • Négyzetes hibák összege.
  • Az abszolút hibák összege.
  • legkisebb négyzet alakú módszer … stb
  • Az elemzéshez a legkevesebb négyzet alakú módszert fogjuk használni.
  • Az összes pontot különbséggel vesszük és kiszámoljuk az összes pont összegének négyzetét. Bármelyik vonal adja meg a minimális összeget, az lesz a legjobb sorunk.

Például: Ezzel el tudjuk venni több embert és fiuk magasságát, és megtehetjük például azt, hogy megmondjuk az embernek, milyen magas lehet a fia. még a születése előtt.


Google Kép

A fenti ábra egy egyszerű lineáris regressziót mutat. A vonal a regressziós vonalat képviseli. Adta: y = a + b * x

Ahol y a függő változó (DV): Például hogyan változik egy személy bére a munkavállaló éves tapasztalatának függvényében. Tehát itt egy alkalmazott vagy személy fizetése lesz a függő változó.

A függő változó a célváltozónk, amelyet meg akarunk jósolni lineáris regresszió segítségével.

x jelentése a független változó (IV): A függő változó az oka a változás független változó. A fenti példában a tapasztalat éveinek száma a függő változónk, mivel a tapasztalat éveinek száma megváltoztatja a munkavállaló fizetését.

  • b az x független változónk koefficiens változója. Ez az együttható döntő szerepet játszik. Azt mondja, hogy az x (IV) egységváltozása miként fogja befolyásolni az y (DV) értéket. Ezt arányos együtthatónak is nevezik. A matematika szempontjából rajtad múlik, hogy mekkora a vonal lejtése, vagy mondhatjuk a vonal meredejét.
  • Példánkban, ha a (b) meredekség kisebb, ami azt jelenti, hogy az évek száma kevesebb bérnövekedést eredményez, ha a (b) meredekség nagyobb, akkor a fizetés nagymértékű növekedését eredményezi a növekvő Évek tapasztalata.
  • a állandó érték. Erre a lehallgatásra is hivatkozunk, vagyis ott a vonal keresztezi az y tengelyt vagy a DV tengelyt. Más módon azt mondhatjuk, hogy amikor egy alkalmazott nulla éves tapasztalattal rendelkezik (x), akkor a munkavállaló fizetése (y) állandó lesz (a).

Hogyan működik a Least Square?

Az alábbiak mutatják a legkevesebb négyzet alakú munkát:

  • Tetszőleges vonalat húz az adattrendeknek megfelelően.
  • Adatpontokat vesz és függőleges vonalakat húz. A függőleges távolságot paraméternek tekinti.
  • Ezek a függőleges vonalak levágják a regressziós vonalat, és megadják az adatpontok megfelelő pontját.
  • Ezután meg fogja találni az egyes adatpontok és a hozzájuk tartozó adatpontok közötti függőleges különbséget a regressziós vonalon.
  • Kiszámítja azt a hibát, amely a különbség négyzete.
  • Ezután kiszámítja a hibák összegét.
  • Ezután ismét húz egy vonalat, és megismétli a fenti eljárást.
  • Ilyen módon számos vonalat húz, és azt a sort választják a legjobbnak, amelyik a legkevesebb hibát okozza.
  • Ez a legjobb vonal az egyszerű lineáris regressziós vonalunk.

Az egyszerű lineáris regresszió alkalmazása

A folyamatos változó becslésére regressziós analízist végeznek. A regressziós analízis széles körű alkalmazásokat kínál. Néhány példa a következő:

  • Prediktív elemzés
  • A marketing hatékonysága,
  • bármilyen tőzsdei árképzés
  • egy termék promóciós előrejelzése.

Itt tárgyaljuk a lineáris regresszió egyik alkalmazását a prediktív elemzéshez. A python segítségével modellezzük.

A modell felépítéséhez követendő lépések a következők:

  • A könyvtárakat és az adatkészleteket importálni fogjuk.
  • Előzetesen feldolgozzuk az adatokat.
  • Az adatokat felosztjuk a tesztkészletre és az edzéskészletre.
  • Készítünk egy modellt, amely megpróbálja megjósolni a célváltozót az edzéskészlet alapján
  • Megjósoljuk a célváltozót a tesztkészlethez.
  • Elemezzük a modell által előre jelzett eredményeket

Elemzésünkhöz a fizetés adatkészletét fogjuk használni, amely 30 alkalmazott adatait tartalmazza.

# A könyvtárak importálása

import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

# Az adatkészlet importálása (az adatmintát a táblázat tartalmazza)

dataset = pd.read_csv('Salary_Data.csv')

Évek tapasztalata Fizetés
1.5 37731
1.1 39343
2.2 39891
2 43525
1.3 46205
3.2 54445
4 55749

# Az adatkészlet előfeldolgozása, itt felosztjuk az adatkészletet a függő változóra és a független változóra. x független és y függő vagy célváltozó

X = dataset.iloc(:, :-1).values
y = dataset.iloc(:, 1).values

# Az adatkészlet felosztása az edzéskészletbe és a tesztkészletbe:

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 1/3, random_state = 0)

Itt az 1/3-os tesztméret azt mutatja, hogy az összes adatból a 2/3-os rész a modell képzésére szolgál, a többi 1/3-a pedig a modell tesztelésére szolgál.

# Helyezze be az egyszerű lineáris regressziós modellünket az edzőkészletbe

from sklearn.linear_model import LinearRegression
regressor = LinearRegression()
regressor.fit(X_train, y_train)

A lineáris regressziós modell továbbképzésre került. Ezt a modellt használják a függõ változó becslésére.

# A tesztkészlet eredményeinek előrejelzése

y_pred = regressor.predict(X_test)

# A tesztkészlet eredményeinek megjelenítése

plt.scatter(X_test, y_test, color = 'blue')
plt.plot(X_train, regressor.predict(X_train), color = 'red')
plt.title('Salary of Employee vs Experience (Test set)')
plt.xlabel('Years of Experience')
plt.ylabel('Salary')
plt.show()

# A modell paramétere

print(regressor.intercept_)
print(regressor.coef_)
26816.19224403119
(9345.94244312)

Tehát az (a) elfogó értéke 26816. Ez azt sugallja, hogy minden frissítő (nulla tapasztalat) körülbelül 26816 összeget kapna fizetésként.

A modellünk koefficiense 9345, 94 volt. Azt sugallja, hogy az összes többi paraméter állandó megtartása mellett a független változó egy egységének változása (kifejezett évek) 9345 egységnyi változást eredményez a fizetésben.

Regressziós értékelési mutatók

Alapvetően három fontos mérési módszer áll rendelkezésre a regressziós elemzéshez:

  • Mean Absolute Error (MAE): Megmutatja az abszolút hibák átlagát, amely a különbség a becsült és a tényleges között.
  • Átlagos négyzet hiba (MSE): Megmutatja a négyzetes hibák átlagértékét.
  • Alapvető négyzet hiba (RMSE): Megmutatja a négyzet hibák átlagának négyzetgyökét.

A fenti módszereket összehasonlíthatjuk:

  • MAE: Megmutatja az átlagos hibát, és mindhárom módszer közül a legegyszerűbb.
  • MSE: Ez a népszerűbb, mint a MAE, mert javítja a nagyobb hibákat, amelyek eredményeként több betekintést mutat.
  • RMSE: Ez jobb, mint az MSE, mert a hibát y értelemben tudjuk értelmezni.

Ez a 3 nem más, mint a veszteség funkció.

# A modell kiértékelése

from sklearn import metrics
print('MAE:', metrics.mean_absolute_error(y_test, y_pred))
print('MSE:', metrics.mean_squared_error(y_test, y_pred))
print('RMSE:', np.sqrt(metrics.mean_squared_error(y_test, y_pred)))
MAE: 3426.4269374307123
MSE: 21026037.329511296
RMSE: 4585.4157204675885

Következtetés

A lineáris regresszió elemzése hatékony eszköz a gépi tanulási algoritmusokhoz, amelyet folyamatos változók, például fizetés, eladás, teljesítmény stb. Előrejelzésére használnak. A lineáris regresszió a független és függő változók közötti lineáris kapcsolatot veszi figyelembe. Az egyszerű lineáris regressziónak csak egy független változója van, amely alapján a modell előrejelzi a célváltozót. Megvitattuk a lineáris regresszió modelljét és alkalmazását egy prediktív elemzés példájával a munkavállalók fizetésének előrejelzésére.

Ajánlott cikkek

Ez az útmutató az egyszerű lineáris regresszióhoz. Itt tárgyaljuk a lineáris regresszió modelljét és alkalmazását, prediktív elemzési példával felhasználva a munkavállalók fizetésének előrejelzését. Megnézheti más kapcsolódó cikkeinket, hogy többet megtudjon-

  1. Lineáris regressziós elemzés
  2. Lineáris regresszió R-ben
  3. Lineáris regressziós modellezés
  4. Regressziós tesztelő eszközök
  5. Matplotlib a Pythonban | Matplotlib 14 legjobb parcellája
  6. Szótár a Python | Módszerek és példák
  7. Példák a négyzetgyökérre a PHP-ben
  8. Lineáris regresszió vs logisztikus regresszió | Legfontosabb különbségek

Kategória: