A regresszió és a osztályozás közötti különbség
Ebben a cikkben a regresszió vs osztályozás tárgyaljuk meg a regresszió és a besorolás közötti legfontosabb különbségeket. A gépi tanulás nagyjából két típusra oszlik: felügyelt gépi tanulás és felügyelet nélküli gépi tanulás. A felügyelt gépi tanulás során ismert kimeneti értéke van az adatkészletben, és ebből kiindulva képezzük a modellt, és előrejelzésre használjuk, míg felügyelet nélküli gépi tanulásnál nincs ismert kimeneti értékkészlete. Előzetesen, hogy megkülönböztessük a besorolást és a regressziót, értsük meg, mit jelent ez a terminológia a gépi tanulásban. A regresszió egy felügyelt gépi tanulás algoritmusa, amelyet kiképezhetünk a valódi számkimenetek előrejelzésére. A besorolás egy felügyelt gépi tanulás algoritmusa, amelyet arra használnak, hogy azonosítsa a kategóriákat és megjósolja, hogy mely kategóriába tartoznak az új értékek.
A regresszió és a besorolás (infographics) összehasonlítása fejről fejre
Az alábbiakban látható a regresszió és az osztályozás öt legfontosabb összehasonlítása :
A regresszió és osztályozás közötti főbb különbségek
Beszéljünk néhány, a regresszió és osztályozás közötti kulcsfontosságú különbségről a következő pontokban:
- Az osztályozás a címke vagy kategória előrejelzéséről szól. A besorolási algoritmus a szükséges adatkészletet két vagy több címke egyikébe sorolja; egy két osztályra vagy kategóriára vonatkozó algoritmus bináris osztályozó néven ismert, és ha kettőnél több osztály van, akkor többosztályú osztályozási algoritmusnak nevezhető.
- A regresszió az optimális függvény megtalálását jelenti a folyamatos valós értékek adatainak azonosításához és a mennyiség előrejelzéséhez. Az algoritmus továbbfejlesztésére szolgáló többváltozós bemeneti tényezőként vagy jellemzőkkel ellátott regresszió többváltozós regressziós probléma. Ha a regressziós problémában a bemeneti értékek az időtől függnek, vagy sorrendben állnak, akkor idősor-előrejelzési problémának nevezzük.
- A besorolási modell azonban egy folyamatos értéket is megjósol, amely az adott kimeneti osztályhoz tartozó esemény bekövetkezésének valószínűsége. Itt az esemény valószínűsége egy adott osztályhoz tartozó adott példa valószínűségét képviseli. A becsült valószínűségi érték konvertálható osztályértévé, ha kiválasztja a legmagasabb valószínűségű osztálycímkét.
- Tegyük fel egy jobb példa megértésével ezt, tegyük fel, hogy a modellt arra készítjük, hogy megjósolja, ha valaki rákos-e vagy sem valamilyen jellemző alapján. Ha azt a valószínűséget kapjuk, hogy egy rákos betegnek 0, 8, és nem rákos 0, 2-ének, akkor a 0, 8 valószínűséget konvertálhatjuk olyan osztálycímkével, amely rákos, mivel a legvalószínűbb.
- Amint azt a besorolás során fentebb említettük, kiszámoljuk a pontosságot, hogy megtudjuk, mennyire jó az osztályozási modell. Lássuk, hogyan történik a számítás, az osztályozás pontosságát úgy lehet elvégezni, hogy a helyes előrejelzések és az összes előrejelzés arányát megszorozzuk 100-zal. Ha 50 előrejelzés történt, és 10 közülük helyes és 40 helytelen, akkor a pontosság 20 %.
Pontosság = (a helyes jóslatok száma / a jóslatok teljes száma) * (100)
- Pontosság = (10/50) * (100)
- Pontosság = 20%
- Amint azt a regresszióban fentebb már említettük, ha meg akarjuk nézni, hogy a regressziós modell mennyire teljesíti a legnépszerűbb módszert, számoljuk ki a négyzet középértéki hibáját (RMSE). Nézzük meg, hogyan kerül sor a számításra.
A regressziós modell előrejelzett értéke 4, 9, míg a tényleges érték 5, 3.
A regressziós modell előrejelzett értéke 2, 3, míg a tényleges érték 2, 1.
A regressziós modell előrejelzett értéke 3, 4, míg a tényleges érték 2, 9.
A Gyökér azt jelenti, hogy a négyzet hibát a képlet segítségével lehet kiszámítani.
A hiba négyzetében (5, 3–4, 9) 2 = 0, 16, (2, 1–2, 3) 2 = 0, 04, (2, 9–3, 4) 2 = 0, 25
A négyzet hibája átlaga = 0, 45 / 3 = 0, 15
Alapvető négyzet hiba = négyzetgyök 0, 15 = 0, 38
Ez RMSE = 0, 38. Számos más módszer is alkalmazható a modell hatékonyságának kiszámítására, de az RMSE a legelterjedtebb, mivel az RMSE a hibaértéket ugyanazon egységekben kínálja, mint a várható értéket.
Példák:
A legtöbb adattudományi mérnöknek nehéz a karrier kezdeti szakaszában választani a regresszió és a besorolás között. Hogy megkönnyítsük, nézzük meg, hogyan néznek ki az osztályozási problémák és hogyan néznek ki a regressziós problémák,
Osztályozás
- Annak előrejelzése, hogy holnap esik-e vagy sem.
- Jósolva, hogy egy személynek meg kell vásárolnia ezt a jót, vagy nem, hogy profitot szerezzen.
- Annak előrejelzése, hogy valakinek van-e betegsége vagy sem.
Ha itt minden helyzetre észlel, akkor lehet, hogy Igen vagy Nem, mint kimeneti előrejelzett érték.
Regresszió
- A föld árának előrejelzése.
- A készlet árának előrejelzése.
Ha itt minden helyzetre észlel, legtöbbjük számszerű értékkel rendelkezik, ahogyan az előre jelezte.
A regresszió és osztályozás összehasonlító táblázata
Az alábbi táblázat összefoglalja a regresszió és osztályozás összehasonlításait :
Paraméter | Regresszió |
Osztályozás |
A leképezési funkció típusa | Ezekben az algoritmusokban a leképezési függvénytípust választják, amely az értékeket hozzáigazítja a folyamatos kimenethez. | Ezekben az algoritmusokban a leképezési függvénytípust választják, amely az értékeket hozzáigazítja az előre meghatározott osztályokhoz. |
Előrejelzés | Az ilyen típusú algoritmusok esetében az előrejelzett adatok a folyamatos értékek kategóriájába tartoznak.
(Mint 23, 34, 45, 67, 28) | Az ilyen típusú algoritmus becsült adatai a diszkrét értékek kategóriájába tartoznak.
(Mint akár Igen vagy Nem, A, B vagy C tartozik). |
Számítási módszer | A gyökér átlag hibáját kiszámítják az adatkészlet legmegfelelőbb azonosításához. | A pontosságot kiszámítják az adatkészlet legmegfelelőbb azonosításához. |
Az előrejelzett adatok jellege | A várható adatok jellege rendezésre kerül. (Vagyis az előrejelzett értékek bizonyos sorrendben vannak). | A várható adatok jellege rendezetlen. (Vagyis az előrejelzett értékek nem lesznek sorrendben). |
algoritmusok | Támogatja a vektor regressziót és a regressziós fákat Random Forest néven is ismertek, amelyek a regressziós algoritmusok népszerű példái. | A Naiv Bayes, a döntési fák és a K Legközelebbi szomszédok a népszerű osztályozási algoritmusok példái. |
Következtetés
Ez néhány fő különbség a besorolás és a regresszió között. Bizonyos esetekben a regresszióval előrejelzett folyamatos kimeneti értékeket címkékre lehet csoportosítani és osztályozási modellekké változtatni. Tehát egyértelműen meg kell értenünk, hogy melyiket választjuk a helyzet alapján, és mit akarunk a várható eredményhez.
Ajánlott cikkek
Ez egy útmutató a legfontosabb különbséghez a regresszió és osztályozás között. Itt is megvitatjuk a regresszió vs osztályozás kulcsfontosságú különbségeit az infographics és az összehasonlító táblázat segítségével. Lehet, hogy megnézi a következő cikkeket is, ha többet szeretne megtudni -
- A 7 legnépszerűbb titkosító típus
- Mi az előnye a StringBuilder a C # -ben?
- StringBuffer vs StringBuilder | A 4 legjobb összehasonlítás
- Legfontosabb különbségek - Jira vs Github
- Mi a regressziós elemzés?
- Többváltozós regresszió
- Osztályozási algoritmusok
- Hozzon létre döntési fát az előnyökkel