Mi a regressziós elemzés? - A regressziós elemzés típusai és előnyei

Tartalomjegyzék:

Anonim

Bevezetés a regressziós elemzésbe

A regressziós elemzés egy prediktív modellezési algoritmus egy változó kimenetelének előrejelzésére és azon változók (független változók) azonosítására, amelyek hozzájárulnak az eredményváltozóhoz vagy attól függnek (cél vagy függő változó). Egyszerűen fogalmazva, ez a módszer a független és függő változók közötti kapcsolat megtalálására az eredmény előállítása érdekében. Az eredmény egyszerűen használható és értelmezhető. Sokféle regressziós technika létezik, amelyeket széles körben alkalmaznak a különféle ágazatokban. A regresszió néhány példája a munkavállalói fizetés vagy a vállalat bevételeinek előrejelzése egy év alatt.

Hogyan működött a regressziós elemzés?

A regressziós technikáknak sokféle típusa van, amelyeket különféle tényezők és eredmények figyelembevételével használnak.

  • Lineáris regresszió
  • Logisztikus regresszió
  • Lasso / Ridge regresszió
  • Polinomiális regresszió

Az alábbiakban bemutatjuk a különböző ágazatokban alkalmazott fontos statisztikai regressziós teszteket:

1. Lineáris regresszió

Ezt akkor használják, amikor az eredményváltozó lineárisan függ a független változóktól. Általában akkor használják, ha nincs hatalmas adatkészletünk. Ez érzékeny a túlmutatókra is, tehát ha az adathalmaz tartalmaz túlmutat eredményeket, mint jobb, akkor ezeket a lineáris regresszió alkalmazása előtt kezelni kell. Vannak egy- és többváltozós regressziós technikák. Az egyszerű lineáris regresszió az elemzés, amikor az eredményváltozó lineárisan függ egy független változótól. Az egyszerű lineáris regresszió az alábbiakban megadott egyenes vonal egyenletét követi:

Y=mx+c

Hol,

Y = Cél, függő vagy kritériumváltozó

x = Független vagy előrejelző változó

m = meredekség vagy regressziós együttható

c = állandó

A többváltozós lineáris regresszió meghatározza az eredményváltozó és egynél több független változó közötti viszonyt. Az egyenes vonal alábbi egyenletét követi, ahol a függő változók az összes független változó lineáris kombinációja:

Y= m1x1+m2x2+m3x3+…mnan+c

Hol,

Y = Cél, függő vagy kritériumváltozó

x1, x2, x3… xn = Független vagy prediktív változók

m1, m2, m3… mn = a megfelelő változók meredekségi vagy regressziós együtthatói

c = állandó

A lineáris regresszió a Least Square módszer elvét követi. Ez a módszer azt állítja, hogy a legjobban illeszkedő sort úgy választják meg, hogy minimalizálják a négyzet hiba összegét. A legmegfelelőbb sort választják, ahol a megfigyelt adatok és a vonal közötti négyzet hiba összege minimális.

Van néhány feltételezés, amelyet figyelembe kell venni, mielőtt az lineáris regressziót az adatkészletre alkalmaznák.

  • A független és a függõ változók között lineáris kapcsolatnak kell lennie.
  • A független változók között nem lehet, vagy kissé multikollinearitás van. A multikollinearitást olyan jelenségként definiálják, ahol a független változók között nagy a korreláció. A multikollinearitást úgy kezelhetjük, ha egy korrelációs változót eldobunk, vagy két változót egy változóként kezelünk.
  • Homoszkedaszticitás: Olyan állapotként definiálják, ahol a hiba kifejezéseket véletlenszerűen kell elosztani a vonalon a regressziós elemzés során. A vonal mentén nem lehet mintázat, ha van valamilyen azonosított mintázat, mint az adatok, amelyekről azt állítják, hogy heteroszkedasztikusak.
  • Az összes változót normálisan el kell osztani, amit egy QQ diagram ábrázolásával látunk. Ha az adatokat általában nem terjesztik, akkor bármilyen nemlineáris transzformációs módszert használhatunk annak kezelésére.

Tehát mindig jó tanácsot tesztelni a feltételezéseket lineáris regresszió alkalmazásával a jó pontosság és a helyes eredmény elérése érdekében.

2. Logisztikus regresszió

Ezt a regressziós technikát akkor alkalmazzák, ha a cél vagy az eredmény változó kategorikus vagy bináris jellegű. A lineáris és a logisztikus regresszió közötti fő különbség a célváltozóban rejlik, a lineáris regresszióban folyamatosnak kell lennie, míg a logisztikában kategorikusnak. Az eredményváltozónak csak két osztályba kell tartoznia, legfeljebb ennél. Néhány példa a spamszűrők az e-mailekben (Spam vagy sem), csalások észlelése (csalások / nem csalások) stb. A valószínűség elvén működik. A küszöbérték beállításával két kategóriába sorolható.

Példa: Ha két A, B kategória van, és a küszöbértéket 0, 5-re állítjuk, akkor a 0, 5 feletti valószínűséget egy kategóriának, a 0, 5 alatt pedig egy másik kategóriának kell tekinteni. A logisztikus regresszió egy S alakú görbét követi. A logisztikus regressziós modell felépítése előtt az adatkészletet fel kell osztani képzésre és tesztelésre. Mivel a célváltozó kategorikus vagy bináris, meg kell győződnünk arról, hogy az edzéskészletben megfelelő-e az egyensúly. Ha fennáll az egyensúlyhiány, akkor ezt az alábbiakban felsorolt ​​különféle módszerekkel lehet kezelni:

  • Felső mintavétel: Ebben a technikában a kevesebb sorral rendelkező osztályból mintát vesznek, hogy megfeleljenek a többségi osztály sorainak.
  • Lefelé történő mintavétel: Ebben a technikában az a sor, amelynek több sor van, mintát vesz, hogy megfeleljen a kisebbségi osztály sorainak.

Van néhány fontos szempont, amelyet fontos megérteni, mielőtt a logisztikus regressziós modellt alkalmaznák az adatkészletekre:

  • A célváltozónak bináris jellegűnek kell lennie. Ha több mint 2 osztály van a célváltozóban, akkor Multinomial Logistic Regression néven ismert.
  • A független változók között nem szabad, vagy csak kevés multikollinearitás van.
  • A működéshez óriási mintát igényel.
  • Lineáris kapcsolatnak kell lennie a független változók és az esélyek naplója között.

A regresszió előnyei

A regressziós elemzésnek számos előnye van. Ahelyett, hogy figyelembe vesszük a bélérzetünket és megjósolnánk az eredményt, használhatunk regressziós elemzést, és érvényes pontokat mutathatunk a lehetséges kimenetelekre.

Néhány ezek közül az alábbiakban felsoroljuk:

  • Előrejelzi az eladások és a bevételek bármelyik ágazatában rövidebb vagy hosszabb időtartamra történő felhasználását.
  • Megjósolni bármely iparág vevői igényét és megtudni a megfelelő intézkedéseket annak csökkentésére.
  • A raktárkészlet szintjének megértése és előrejelzése.
  • Annak megállapítása, hogy sikeres lesz-e új termék bevezetése a piacon.
  • Annak előrejelzése, hogy valamely ügyfél nem teljesíti-e a kölcsönt.
  • Annak előrejelzése, hogy valamely vásárló vásárol-e egy terméket vagy sem.
  • Csalás vagy spam észlelése

Következtetés

Különböző értékelési mutatók vannak, amelyeket figyelembe kell venni a modell alkalmazása után. Noha vannak olyan feltételezések, amelyeket a modell alkalmazása előtt tesztelni kell, a változókat mindig különböző matematikai módszerekkel módosíthatjuk, és javíthatjuk a modell teljesítményét.

Ajánlott cikkek

Ez egy útmutató a regressziós elemzéshez. Itt tárgyaljuk a Bevezetés a regressziós elemzésbe, hogyan működött a regresszióelemzés, és a regresszió előnyeit. A további javasolt cikkeken keresztül további információkat is megtudhat -

  1. Lineáris regressziós elemzés
  2. Adatelemző eszközök
  3. Regressziós tesztelő eszközök
  4. Big Data Analytics
  5. Regresszió vs osztályozás Legfontosabb különbségek