Regresszió vs osztályozás A legfontosabb különbségek és összehasonlítás

A regresszió és a osztályozás közötti különbség

Ebben a cikkben a regresszió vs osztályozás tárgyaljuk meg a regresszió és a besorolás közötti legfontosabb különbségeket. A gépi tanulás nagyjából két típusra oszlik: felügyelt gépi tanulás és felügyelet nélküli gépi tanulás. A felügyelt gépi tanulás során ismert kimeneti értéke van az adatkészletben, és ebből kiindulva képezzük a modellt, és előrejelzésre használjuk, míg felügyelet nélküli gépi tanulásnál nincs ismert kimeneti értékkészlete. Előzetesen, hogy megkülönböztessük a besorolást és a regressziót, értsük meg, mit jelent ez a terminológia a gépi tanulásban. A regresszió egy felügyelt gépi tanulás algoritmusa, amelyet kiképezhetünk a valódi számkimenetek előrejelzésére. A besorolás egy felügyelt gépi tanulás algoritmusa, amelyet arra használnak, hogy azonosítsa a kategóriákat és megjósolja, hogy mely kategóriába tartoznak az új értékek.

A regresszió és a besorolás (infographics) összehasonlítása fejről fejre

Az alábbiakban látható a regresszió és az osztályozás öt legfontosabb összehasonlítása :

A regresszió és osztályozás közötti főbb különbségek

Beszéljünk néhány, a regresszió és osztályozás közötti kulcsfontosságú különbségről a következő pontokban:

Az osztályozás a címke vagy kategória előrejelzéséről szól. A besorolási algoritmus a szükséges adatkészletet két vagy több címke egyikébe sorolja; egy két osztályra vagy kategóriára vonatkozó algoritmus bináris osztályozó néven ismert, és ha kettőnél több osztály van, akkor többosztályú osztályozási algoritmusnak nevezhető.
A regresszió az optimális függvény megtalálását jelenti a folyamatos valós értékek adatainak azonosításához és a mennyiség előrejelzéséhez. Az algoritmus továbbfejlesztésére szolgáló többváltozós bemeneti tényezőként vagy jellemzőkkel ellátott regresszió többváltozós regressziós probléma. Ha a regressziós problémában a bemeneti értékek az időtől függnek, vagy sorrendben állnak, akkor idősor-előrejelzési problémának nevezzük.
A besorolási modell azonban egy folyamatos értéket is megjósol, amely az adott kimeneti osztályhoz tartozó esemény bekövetkezésének valószínűsége. Itt az esemény valószínűsége egy adott osztályhoz tartozó adott példa valószínűségét képviseli. A becsült valószínűségi érték konvertálható osztályértévé, ha kiválasztja a legmagasabb valószínűségű osztálycímkét.
Tegyük fel egy jobb példa megértésével ezt, tegyük fel, hogy a modellt arra készítjük, hogy megjósolja, ha valaki rákos-e vagy sem valamilyen jellemző alapján. Ha azt a valószínűséget kapjuk, hogy egy rákos betegnek 0, 8, és nem rákos 0, 2-ének, akkor a 0, 8 valószínűséget konvertálhatjuk olyan osztálycímkével, amely rákos, mivel a legvalószínűbb.
Amint azt a besorolás során fentebb említettük, kiszámoljuk a pontosságot, hogy megtudjuk, mennyire jó az osztályozási modell. Lássuk, hogyan történik a számítás, az osztályozás pontosságát úgy lehet elvégezni, hogy a helyes előrejelzések és az összes előrejelzés arányát megszorozzuk 100-zal. Ha 50 előrejelzés történt, és 10 közülük helyes és 40 helytelen, akkor a pontosság 20 %.

Pontosság = (a helyes jóslatok száma / a jóslatok teljes száma) * (100)

Pontosság = (10/50) * (100)
Pontosság = 20%

Amint azt a regresszióban fentebb már említettük, ha meg akarjuk nézni, hogy a regressziós modell mennyire teljesíti a legnépszerűbb módszert, számoljuk ki a négyzet középértéki hibáját (RMSE). Nézzük meg, hogyan kerül sor a számításra.

A regressziós modell előrejelzett értéke 4, 9, míg a tényleges érték 5, 3.

A regressziós modell előrejelzett értéke 2, 3, míg a tényleges érték 2, 1.

A regressziós modell előrejelzett értéke 3, 4, míg a tényleges érték 2, 9.

A Gyökér azt jelenti, hogy a négyzet hibát a képlet segítségével lehet kiszámítani.

A hiba négyzetében (5, 3–4, 9) 2 = 0, 16, (2, 1–2, 3) 2 = 0, 04, (2, 9–3, 4) 2 = 0, 25

A négyzet hibája átlaga = 0, 45 / 3 = 0, 15

Alapvető négyzet hiba = négyzetgyök 0, 15 = 0, 38

Ez RMSE = 0, 38. Számos más módszer is alkalmazható a modell hatékonyságának kiszámítására, de az RMSE a legelterjedtebb, mivel az RMSE a hibaértéket ugyanazon egységekben kínálja, mint a várható értéket.

Példák:

A legtöbb adattudományi mérnöknek nehéz a karrier kezdeti szakaszában választani a regresszió és a besorolás között. Hogy megkönnyítsük, nézzük meg, hogyan néznek ki az osztályozási problémák és hogyan néznek ki a regressziós problémák,

Osztályozás

Annak előrejelzése, hogy holnap esik-e vagy sem.
Jósolva, hogy egy személynek meg kell vásárolnia ezt a jót, vagy nem, hogy profitot szerezzen.
Annak előrejelzése, hogy valakinek van-e betegsége vagy sem.

Ha itt minden helyzetre észlel, akkor lehet, hogy Igen vagy Nem, mint kimeneti előrejelzett érték.

Regresszió

A föld árának előrejelzése.
A készlet árának előrejelzése.

Ha itt minden helyzetre észlel, legtöbbjük számszerű értékkel rendelkezik, ahogyan az előre jelezte.

A regresszió és osztályozás összehasonlító táblázata

Az alábbi táblázat összefoglalja a regresszió és osztályozás összehasonlításait :

Paraméter	Regresszió	Osztályozás
A leképezési funkció típusa	Ezekben az algoritmusokban a leképezési függvénytípust választják, amely az értékeket hozzáigazítja a folyamatos kimenethez.	Ezekben az algoritmusokban a leképezési függvénytípust választják, amely az értékeket hozzáigazítja az előre meghatározott osztályokhoz.
Előrejelzés	Az ilyen típusú algoritmusok esetében az előrejelzett adatok a folyamatos értékek kategóriájába tartoznak. (Mint 23, 34, 45, 67, 28)	Az ilyen típusú algoritmus becsült adatai a diszkrét értékek kategóriájába tartoznak. (Mint akár Igen vagy Nem, A, B vagy C tartozik).
Számítási módszer	A gyökér átlag hibáját kiszámítják az adatkészlet legmegfelelőbb azonosításához.	A pontosságot kiszámítják az adatkészlet legmegfelelőbb azonosításához.
Az előrejelzett adatok jellege	A várható adatok jellege rendezésre kerül. (Vagyis az előrejelzett értékek bizonyos sorrendben vannak).	A várható adatok jellege rendezetlen. (Vagyis az előrejelzett értékek nem lesznek sorrendben).
algoritmusok	Támogatja a vektor regressziót és a regressziós fákat Random Forest néven is ismertek, amelyek a regressziós algoritmusok népszerű példái.	A Naiv Bayes, a döntési fák és a K Legközelebbi szomszédok a népszerű osztályozási algoritmusok példái.

Következtetés

Ez néhány fő különbség a besorolás és a regresszió között. Bizonyos esetekben a regresszióval előrejelzett folyamatos kimeneti értékeket címkékre lehet csoportosítani és osztályozási modellekké változtatni. Tehát egyértelműen meg kell értenünk, hogy melyiket választjuk a helyzet alapján, és mit akarunk a várható eredményhez.

Ajánlott cikkek

Ez egy útmutató a legfontosabb különbséghez a regresszió és osztályozás között. Itt is megvitatjuk a regresszió vs osztályozás kulcsfontosságú különbségeit az infographics és az összehasonlító táblázat segítségével. Lehet, hogy megnézi a következő cikkeket is, ha többet szeretne megtudni -