Bevezetés a lineáris regresszió elemzésébe

Gyakran zavaró, ha elsajátítunk néhány fogalmat, amely szintén része a mindennapi életünknek. De ez nem jelent problémát, segíthetjük és fejleszteni tudjuk magunkat a mindennapi tevékenységeinkből való tanuláshoz, csupán a dolgok elemzésével, és nem félünk kérdéseket feltenni. Miért befolyásolja az ár az áruk keresletét, miért befolyásolja a kamatlábak változása a pénzkínálatot? Mindezekre egy egyszerű, lineáris regressziónak nevezett megközelítéssel lehet válaszolni. Az egyetlen komplexitás, amelyet a lineáris regressziós elemzés során érez, a függő és független változók azonosítása.

Meg kell találnunk, hogy mi befolyásolja, és a probléma felét megoldjuk. Látnunk kell, hogy az ár vagy a kereslet befolyásolja-e egymás viselkedését. Miután megismertük, melyik a független változó és a függő változó, érdemes megvizsgálnunk az elemzést. A regressziós elemzésnek többféle típusa elérhető. Ez az elemzés a rendelkezésre álló változóktól függ.

A regressziós elemzés 3 típusa

Ez a három regressziós elemzés a valós világban maximálisan felhasználható eseteket tartalmaz, különben több mint 15 típusú regressziós elemzés létezik. A regressziós elemzés típusai, amelyeket megvitatunk:

  1. Lineáris regressziós elemzés
  2. Többszörös lineáris regressziós elemzés
  3. Logisztikus regresszió

Ebben a cikkben az egyszerű lineáris regresszió elemzésére összpontosítunk. Ez az elemzés segít azonosítani a független tényező és a függő tényező kapcsolatát. Egyszerűbben fogalmazva: a regressziós modell segít bebizonyítani, hogy a független tényező változásai hogyan befolyásolják a függő tényezőt. Ez a modell többféle módon segít bennünket, például:

  • Ez egy egyszerű és hatékony statisztikai modell
  • Segít becslések és előrejelzések készítésében
  • Ez segít nekünk jobb üzleti döntés meghozatalában
  • Segít az eredmények elemzésében és a hibák kijavításában

A lineáris regresszió egyenletét és ossza meg releváns részekre

Y = β1 + β2X + ϵ

  • Ahol β1 a matematikai terminológiában, mint intercept és β2 a matematikai terminológiában, mint lejtő. Regressziós együtthatóként is ismertek. ϵ a hiba kifejezés, az Y azon része, amelyet a regressziós modell nem tud magyarázni.
  • Y egy függő változó (a függő változókra felcserélhetően használt egyéb kifejezések: válaszváltozó, regresszív, mért változó, megfigyelt változó, válaszadó változó, magyarázott változó, kimeneti változó, kísérleti változó és / vagy output változó).
  • X független változó (regresszorok, szabályozott változó, manipulált változó, magyarázó változó, expozíciós változó és / vagy bemeneti változó).

Probléma: Annak megértése érdekében, hogy mi a lineáris regressziós elemzés, a „Cars” adatkészletet vesszük, amely alapértelmezés szerint az R könyvtárakban található. Ebben az adatkészletben 50 megfigyelés található (alapvetően sor) és 2 változó (oszlop). Az oszlopok neve „Dist” és „Speed”. Itt látnunk kell a sebességváltozók változásának hatását a távolságváltozókra. Az adatok szerkezetének megtekintéséhez futtathatunk Str kódot (adatkészlet). Ez a kód segít megérteni az adatkészlet felépítését. Ezek a funkciók segítenek jobb döntések meghozatalában, mivel a fejünkben jobb képet kapunk az adatkészlet felépítéséről. Ez a kód segít azonosítani az adatkészletek típusát.

Kód:

Hasonlóan az adatkészlet statisztikai ellenőrző pontjainak ellenőrzéséhez használhatjuk az Összegzés (autók) kódot is. Ez a kód az adatállomány átlagos, medián tartományát adja meg egy menetben, amelyet a kutató felhasználhat a probléma kezelése során.

Kimenet:

Itt láthatjuk minden olyan változó statisztikai eredményét, amely az adatkészletünkben található.

Az adatkészletek grafikus ábrázolása

Az itt bemutatott grafikus ábrázolás típusai és miért:

  • Scatter Plot: A gráf segítségével láthatjuk, milyen irányba halad a lineáris regressziós modellünk, függetlenül attól, hogy van-e erős bizonyíték a modellünk igazolására, vagy sem.
  • Boxterület: Segít bennünket a távolságok megtalálásában.
  • Density Plot: Segítsen megérteni a független változó eloszlását, esetünkben a független változó a „Speed”.

A grafikus ábrázolás előnyei

A következő előnyök vannak a következők:

  • Könnyen érthető
  • Segít a gyors döntéshozatalban
  • Összehasonlító elemzés
  • Kevesebb erőfeszítés és idő

1. Scatter Plot: Ez segít a független változó és a függő változó közötti bármilyen kapcsolat megjelenítésében.

Kód:

Kimenet:

A grafikonból egyenesen növekvő kapcsolatot láthatunk a függő változó (távolság) és a független változó (sebesség) között.

2. Box Plot: A Box plot segít beazonosítani az adatkészletekben szereplő távolságokat. A dobozterület használatának előnyei a következők:

  • A változók helyének és eloszlásának grafikus megjelenítése.
  • Segít megérteni az adatok ferde és szimmetriáját.

Kód:

Kimenet:

3. Sűrűségábra (az eloszlás normalitásának ellenőrzésére)

Kód:

Kimenet:

Korrelációs elemzés

Ez az elemzés segít megtalálni a változók közötti kapcsolatot. Főként hat típusú korrelációs elemzés létezik.

  1. Pozitív korreláció (0, 01 - 0, 99)
  2. Negatív korreláció (-0, 99 -0, 01)
  3. Nincs kapcsolat
  4. Tökéletes korreláció
  5. Erős korreláció (± 0, 99-nél közelebb eső érték)
  6. Gyenge korreláció (0-hoz közelebb álló érték)

A szórási diagram segít azonosítani, hogy mely típusú korrelációs adatkészletek vannak közöttük, és mi a kód a korreláció megtalálására

Kimenet:

Itt erős pozitív korreláció van a sebesség és a távolság között, ami azt jelenti, hogy közvetlen kapcsolat van közöttük.

Lineáris regressziós modell

Ez az elemzés központi eleme, korábban csak próbáltunk próbálni és tesztelni, hogy a meglévő adatkészlet elég logikus-e az ilyen elemzés futtatásához. A függvény, amelyet használni akarunk, az lm (). Ez a funkció két elemet tartalmaz, amelyek a képlet és az adatok. Mielőtt hozzárendelnénk azt, hogy melyik változó függ vagy független, nagyon meg kell bizonyosodnunk arról, mert az egész képlet attól függ.

A képlet így néz ki,

Lineáris regresszió <- lm (függő változó ~ független változó, adatok = dátum.keret)

Kód:

Kimenet:

Amint a cikk fenti szegmenséből emlékezhetünk, a lineáris regresszió egyenlete:

Y = β1 + β2X + ϵ

Most beleilleszkedünk az információba, amelyet a fenti kódból kaptunk ebben az egyenletben.

dist = −17, 579 + 3, 932 ∗ sebesség

Csak a lineáris regresszió egyenletének megtalálása nem elegendő, annak statisztikai szignifikanciáját is ellenőriznünk kell. Ehhez át kell adnunk egy „Összegzés” kódot a lineáris regressziós modellünkben.

Kód:

Kimenet:

A modell statisztikailag szignifikáns ellenőrzésének többféle módja van, itt a P-érték módszerét használjuk. Statisztikai szempontból megfelelőnek tekinthetjük a modellt, ha a P-érték alacsonyabb, mint az előre meghatározott statisztikailag szignifikáns szint, amely ideális esetben 0, 05. Az összefoglaló táblázatban (lineáris_regresszió) láthatjuk, hogy a P-érték 0, 05 alatt van, tehát megállapíthatjuk, hogy modellünk statisztikailag szignifikáns. Ha biztosak vagyunk a modellünkben, felhasználhatjuk az adatkészletünket a dolgok előrejelzésére.

Ajánlott cikkek

Ez egy útmutató a lineáris regresszió elemzéséhez. Itt tárgyaljuk a lineáris regresszió elemzésének három típusát, az adatkészletek grafikus ábrázolását az előnyökkel és a lineáris regressziós modelleket. Megnézheti más kapcsolódó cikkeinket, hogy többet megtudjon-

  1. Regressziós képlet
  2. Regressziós teszt
  3. Lineáris regresszió R-ben
  4. Az adatelemzési technikák típusai
  5. Mi a regressziós elemzés?
  6. A regresszió és a besorolás legfontosabb különbségei
  7. A lineáris regresszió és a logisztikai regresszió 6 legfontosabb különbsége

Kategória: