A lineáris regressziós modellezés áttekintése

Amikor elkezdi tanulni a gépi tanulási algoritmusokat, elkezdi tanulni az ML algoritmusok különféle módjait, azaz felügyelt, felügyelet nélküli, félig felügyelt és megerősítő tanulást. Ebben a cikkben a felügyelt tanulással és az alapvető, mégis hatékony algoritmusok egyikével foglalkozunk: Lineáris regresszió.

Ezért a felügyelt tanulás az a tanulás, amelynek során a gépet kiképezzük, hogy megértse az oktatási adatkészletben megadott bemeneti és kimeneti értékek kapcsolatát, majd ugyanazt a modellt használja a tesztelési adatkészlet kimeneti értékeinek előrejelzésére. Tehát alapvetõen, ha már van kimenete vagy címkézése a képzési adatkészletünkben, és biztosak vagyunk abban, hogy a kimenetnek van értelme a bemeneteknek megfelelõen, akkor a Felügyelt tanulást használjuk. A felügyelt tanulási algoritmusokat regresszióba és osztályozásba sorolják.

A regressziós algoritmusokat akkor használják, amikor észreveszi, hogy a kimenet folyamatos változó, míg a besorolási algoritmusokat akkor használják, amikor a kimenetet olyan részekre osztják, mint Pass / Fail, Jó / Átlagos / Rossz stb. Különböző algoritmusok vannak a regresszió vagy osztályozás végrehajtására. műveletek a Lineáris Regressziós Algoritmussal, amely a Regresszió alapvető algoritmusa.

A regresszióval szemben, mielőtt belekezdenék az algoritmusba, hadd állítsam meg az alapot az ön számára. Az iskolában remélem, hogy emlékszel a vonal egyenlet koncepciójára. Hadd mondjak röviden. Két pontot kapott az XY síkon, azaz mondjuk (x1, y1) és (x2, y2), ahol y1 az x1 kimenete és y2 az x2 kimenete, akkor a pontokon áthaladó egyenes egyenlet (y- y1) = m (x-x1), ahol m a vonal meredeksége. Most, miután megtalálta a vonal-egyenletet, ha kap egy pontmondatot (x3, y3), akkor könnyen megjósolni tudja, ha a pont a vonalon fekszik, vagy a pont távolsága a vonaltól. Ez volt az alapvető regresszió, amelyet az iskolában végeztem anélkül, hogy észrevettem volna, hogy ennek ilyen nagy jelentősége lesz a gépi tanulásban. Amit általában ebben teszünk, próbáljuk meg azonosítani azt az egyenletvonalat vagy -görbét, amely megfelelően illeszkedhet a vonat-adatkészlet bemenetéhez és kimenetéhez, majd ugyanezt az egyenletet használjuk a teszt-adatkészlet kimeneti értékének becslésére. Ez folyamatos kívánt értéket eredményez.

A lineáris regresszió meghatározása

A lineáris regresszió valójában nagyon hosszú ideje fennáll (mintegy 200 év). Ez egy lineáris modell, azaz lineáris kapcsolatot feltételez a bemeneti változók (x) és az egyetlen kimeneti változó (y) között. Az y értéket a bemeneti változók lineáris kombinációjával kell kiszámítani.

Kétféle lineáris regresszió van

Egyszerű lineáris regresszió

Ha egyetlen bemeneti változó van, azaz a egyenlet c

y = mx + c-nek tekintve, akkor ez az egyszerű lineáris regresszió.

Többszörös lineáris regresszió

Ha több bemeneti változó létezik, azaz a vonal egyenletet y = ax 1 + bx 2 +… nx n -nek tekintik , akkor a többszörös lineáris regresszió. Különböző technikákat alkalmaznak a regressziós egyenlet elkészítésére vagy az adatokból való kiképzésére, és a legelterjedtebb módszert ezek közönséges legkisebb négyzeteknek hívják. Az említett módszerrel készített modellt rendes legkisebb négyzetek lineáris regressziójának vagy egyszerűen legkevesebb négyzetek regressziójának nevezik. A modell akkor használatos, ha a bemeneti és a meghatározandó kimeneti értékek numerikus értékek. Ha csak egy bemenet és egy kimenet van, akkor a képződött egyenlet egy egyenlet, azaz

y = B0x+B1

ahol a vonal együtthatóit statisztikai módszerekkel kell meghatározni.

Az egyszerű lineáris regressziós modellek nagyon ritkák az ML-ben, mivel általában különféle bemeneti tényezőkkel kell meghatároznunk az eredményt. Ha több bemeneti érték és egy kimeneti érték van, akkor a képződött egyenlet egy sík vagy hipersík egyenlete.

y = ax 1 +bx 2 +…nx n

A regressziós modell alapgondolata az, hogy az adatokhoz legjobban illeszkedő vonal-egyenletet kapjunk. A legmegfelelőbb vonal az a sor, ahol a lehető legkisebbnek tartott összes adatpont esetében a teljes predikciós hiba. A hiba a sík pontja és a regressziós vonal közötti távolság.

Példa

Kezdjük egy egyszerű lineáris regresszió példájával.

A személy magassága és súlya közötti kapcsolat közvetlenül arányos. Az önkénteseken vizsgálatot végeztek a személy magasságának és ideális súlyának, valamint az értékek rögzítésének meghatározására. Ezt az edzési adatkészletünknek tekintjük. Az edzési adatok felhasználásával kiszámítják a regressziós egyenletet, amely minimális hibát eredményez. Ezt a lineáris egyenletet azután új adatokra vonatkozó előrejelzések készítésére használják. Vagyis ha megadjuk a személy magasságát, akkor a megfelelő súlyt meg kell becsülnünk az általunk kifejlesztett modell segítségével, minimális vagy nulla hibával.

Y(pred) = b0 + b1*x

A b0 és b1 értékeket úgy kell megválasztani, hogy azok minimalizálják a hibát. Ha a négyzet hibájának összegét metrikának tekintik a modell értékeléséhez, akkor a cél a vonal elérése, amely a hibát leginkább csökkenti.

Kihúzzuk a hibát, hogy a pozitív és a negatív értékek ne töröljék egymást. Egy előrejelzővel rendelkező modell esetén:

A lehallgatás (b0) kiszámítása a vonal egyenletben az alábbiak szerint történik:

Az x bemeneti érték koefficienst kiszámítja:

A b 1 együttható megértése:

  • Ha b 1 > 0, akkor x (bemenet) és y (kimenet) közvetlenül arányosak. Ez azt jelenti, hogy az x növekedése növeli y-t, például növekszik a magasság, növekszik a súly.
  • Ha b 1 <0, akkor x (prediktor) és y (cél) fordítva arányos. Ez azt jelenti, hogy az x növekedése y csökken, például a jármű sebessége növekszik, az idő csökken.

A b 0 együttható megértése:

  • B 0 felveszi a modell maradványértékét, és biztosítja, hogy az előrejelzés ne legyen elfogult. Ha nem rendelkezünk B 0 kifejezéssel, akkor a (y = B 1 x) egyenlet kénytelen átmenni az origón, azaz a modellbe bevitt bemeneti és kimeneti értékek nullát eredményeznek. Ez azonban soha nem lesz akkor, ha 0 bemeneten belül, akkor B 0 az összes előrejelzett érték átlaga, ha x = 0. Ha az összes prediktív értéket 0-ra állítja x = 0 esetén, adatvesztést okoz, és ez gyakran lehetetlen.

A fent említett együtthatók mellett ez a modell normál egyenletekkel is kiszámítható. A normál egyenletek használatát és az egyszerű / multilineáris regressziós modell megtervezését a következő cikkben tovább tárgyalom.

Ajánlott cikkek

Ez egy útmutató a lineáris regressziós modellezéshez. Itt tárgyaljuk a Lineáris regresszió meghatározását, típusait, amely magában foglalja az egyszerű és a többszörös lineáris regressziót, néhány példával együtt. A következő cikkeket is megnézheti további információkért -

  1. Lineáris regresszió R-ben
  2. Lineáris regresszió az Excelben
  3. Prediktív modellezés
  4. Hogyan hozhatunk létre GLM-et R-ben?
  5. A lineáris regresszió és a logisztikus regresszió összehasonlítása

Kategória: