A regresszió és a osztályozás közötti különbség

Ebben a cikkben a regresszió vs osztályozás tárgyaljuk meg a regresszió és a besorolás közötti legfontosabb különbségeket. A gépi tanulás nagyjából két típusra oszlik: felügyelt gépi tanulás és felügyelet nélküli gépi tanulás. A felügyelt gépi tanulás során ismert kimeneti értéke van az adatkészletben, és ebből kiindulva képezzük a modellt, és előrejelzésre használjuk, míg felügyelet nélküli gépi tanulásnál nincs ismert kimeneti értékkészlete. Előzetesen, hogy megkülönböztessük a besorolást és a regressziót, értsük meg, mit jelent ez a terminológia a gépi tanulásban. A regresszió egy felügyelt gépi tanulás algoritmusa, amelyet kiképezhetünk a valódi számkimenetek előrejelzésére. A besorolás egy felügyelt gépi tanulás algoritmusa, amelyet arra használnak, hogy azonosítsa a kategóriákat és megjósolja, hogy mely kategóriába tartoznak az új értékek.

A regresszió és a besorolás (infographics) összehasonlítása fejről fejre

Az alábbiakban látható a regresszió és az osztályozás öt legfontosabb összehasonlítása :

A regresszió és osztályozás közötti főbb különbségek

Beszéljünk néhány, a regresszió és osztályozás közötti kulcsfontosságú különbségről a következő pontokban:

  1. Az osztályozás a címke vagy kategória előrejelzéséről szól. A besorolási algoritmus a szükséges adatkészletet két vagy több címke egyikébe sorolja; egy két osztályra vagy kategóriára vonatkozó algoritmus bináris osztályozó néven ismert, és ha kettőnél több osztály van, akkor többosztályú osztályozási algoritmusnak nevezhető.
  2. A regresszió az optimális függvény megtalálását jelenti a folyamatos valós értékek adatainak azonosításához és a mennyiség előrejelzéséhez. Az algoritmus továbbfejlesztésére szolgáló többváltozós bemeneti tényezőként vagy jellemzőkkel ellátott regresszió többváltozós regressziós probléma. Ha a regressziós problémában a bemeneti értékek az időtől függnek, vagy sorrendben állnak, akkor idősor-előrejelzési problémának nevezzük.
  3. A besorolási modell azonban egy folyamatos értéket is megjósol, amely az adott kimeneti osztályhoz tartozó esemény bekövetkezésének valószínűsége. Itt az esemény valószínűsége egy adott osztályhoz tartozó adott példa valószínűségét képviseli. A becsült valószínűségi érték konvertálható osztályértévé, ha kiválasztja a legmagasabb valószínűségű osztálycímkét.
  4. Tegyük fel egy jobb példa megértésével ezt, tegyük fel, hogy a modellt arra készítjük, hogy megjósolja, ha valaki rákos-e vagy sem valamilyen jellemző alapján. Ha azt a valószínűséget kapjuk, hogy egy rákos betegnek 0, 8, és nem rákos 0, 2-ének, akkor a 0, 8 valószínűséget konvertálhatjuk olyan osztálycímkével, amely rákos, mivel a legvalószínűbb.
  5. Amint azt a besorolás során fentebb említettük, kiszámoljuk a pontosságot, hogy megtudjuk, mennyire jó az osztályozási modell. Lássuk, hogyan történik a számítás, az osztályozás pontosságát úgy lehet elvégezni, hogy a helyes előrejelzések és az összes előrejelzés arányát megszorozzuk 100-zal. Ha 50 előrejelzés történt, és 10 közülük helyes és 40 helytelen, akkor a pontosság 20 %.

Pontosság = (a helyes jóslatok száma / a jóslatok teljes száma) * (100)

  • Pontosság = (10/50) * (100)
  • Pontosság = 20%
  1. Amint azt a regresszióban fentebb már említettük, ha meg akarjuk nézni, hogy a regressziós modell mennyire teljesíti a legnépszerűbb módszert, számoljuk ki a négyzet középértéki hibáját (RMSE). Nézzük meg, hogyan kerül sor a számításra.

A regressziós modell előrejelzett értéke 4, 9, míg a tényleges érték 5, 3.

A regressziós modell előrejelzett értéke 2, 3, míg a tényleges érték 2, 1.

A regressziós modell előrejelzett értéke 3, 4, míg a tényleges érték 2, 9.

A Gyökér azt jelenti, hogy a négyzet hibát a képlet segítségével lehet kiszámítani.

A hiba négyzetében (5, 3–4, 9) 2 = 0, 16, (2, 1–2, 3) 2 = 0, 04, (2, 9–3, 4) 2 = 0, 25

A négyzet hibája átlaga = 0, 45 / 3 = 0, 15

Alapvető négyzet hiba = négyzetgyök 0, 15 = 0, 38

Ez RMSE = 0, 38. Számos más módszer is alkalmazható a modell hatékonyságának kiszámítására, de az RMSE a legelterjedtebb, mivel az RMSE a hibaértéket ugyanazon egységekben kínálja, mint a várható értéket.

Példák:

A legtöbb adattudományi mérnöknek nehéz a karrier kezdeti szakaszában választani a regresszió és a besorolás között. Hogy megkönnyítsük, nézzük meg, hogyan néznek ki az osztályozási problémák és hogyan néznek ki a regressziós problémák,

Osztályozás

  1. Annak előrejelzése, hogy holnap esik-e vagy sem.
  2. Jósolva, hogy egy személynek meg kell vásárolnia ezt a jót, vagy nem, hogy profitot szerezzen.
  3. Annak előrejelzése, hogy valakinek van-e betegsége vagy sem.

Ha itt minden helyzetre észlel, akkor lehet, hogy Igen vagy Nem, mint kimeneti előrejelzett érték.

Regresszió

  1. A föld árának előrejelzése.
  2. A készlet árának előrejelzése.

Ha itt minden helyzetre észlel, legtöbbjük számszerű értékkel rendelkezik, ahogyan az előre jelezte.

A regresszió és osztályozás összehasonlító táblázata

Az alábbi táblázat összefoglalja a regresszió és osztályozás összehasonlításait :

Paraméter Regresszió

Osztályozás

A leképezési funkció típusaEzekben az algoritmusokban a leképezési függvénytípust választják, amely az értékeket hozzáigazítja a folyamatos kimenethez.Ezekben az algoritmusokban a leképezési függvénytípust választják, amely az értékeket hozzáigazítja az előre meghatározott osztályokhoz.
ElőrejelzésAz ilyen típusú algoritmusok esetében az előrejelzett adatok a folyamatos értékek kategóriájába tartoznak.

(Mint 23, 34, 45, 67, 28)

Az ilyen típusú algoritmus becsült adatai a diszkrét értékek kategóriájába tartoznak.

(Mint akár Igen vagy Nem, A, B vagy C tartozik).

Számítási módszerA gyökér átlag hibáját kiszámítják az adatkészlet legmegfelelőbb azonosításához.A pontosságot kiszámítják az adatkészlet legmegfelelőbb azonosításához.
Az előrejelzett adatok jellegeA várható adatok jellege rendezésre kerül. (Vagyis az előrejelzett értékek bizonyos sorrendben vannak).A várható adatok jellege rendezetlen. (Vagyis az előrejelzett értékek nem lesznek sorrendben).
algoritmusokTámogatja a vektor regressziót és a regressziós fákat Random Forest néven is ismertek, amelyek a regressziós algoritmusok népszerű példái.A Naiv Bayes, a döntési fák és a K Legközelebbi szomszédok a népszerű osztályozási algoritmusok példái.

Következtetés

Ez néhány fő különbség a besorolás és a regresszió között. Bizonyos esetekben a regresszióval előrejelzett folyamatos kimeneti értékeket címkékre lehet csoportosítani és osztályozási modellekké változtatni. Tehát egyértelműen meg kell értenünk, hogy melyiket választjuk a helyzet alapján, és mit akarunk a várható eredményhez.

Ajánlott cikkek

Ez egy útmutató a legfontosabb különbséghez a regresszió és osztályozás között. Itt is megvitatjuk a regresszió vs osztályozás kulcsfontosságú különbségeit az infographics és az összehasonlító táblázat segítségével. Lehet, hogy megnézi a következő cikkeket is, ha többet szeretne megtudni -

  1. A 7 legnépszerűbb titkosító típus
  2. Mi az előnye a StringBuilder a C # -ben?
  3. StringBuffer vs StringBuilder | A 4 legjobb összehasonlítás
  4. Legfontosabb különbségek - Jira vs Github
  5. Mi a regressziós elemzés?
  6. Többváltozós regresszió
  7. Osztályozási algoritmusok
  8. Hozzon létre döntési fát az előnyökkel

Kategória: