Bevezetés a döntési fa létrehozásához
Az információs rendszerek által generált nagy mennyiségű adatkészlet kezeléséhez szükséges adatmennyiségnek az utóbbi időben történő gyors növekedésével a döntő fa szükségessé teszi a számítási bonyolultság csökkentését. A döntési fa tekinthető a legfontosabb megközelítésnek az osztályozók ábrázolásában. Más szavakkal, azt mondhatjuk, hogy az adatok felosztásának és meghódításának stratégiája alapján vannak felépítve. tudjuk, hogy csak felfedeztük. A döntési fa olyan keretként van felépítve, amely pontosítja az odaítélt döntések értékeit és valószínűségét
A csomópont minden szintjét megkönnyíti, hogy a döntéshozók megválaszthassák a helyes előrejelzéseket a különféle nem megfelelő adatok közül. Ebben a cikkben bemutatja, hogyan hozhat létre egyszerűen döntési fát mintaadatok alapján.
Mi az a döntési fa?
A döntési fa egy bináris hierarchikus struktúra, amely azonosítja azt a módot, ahogyan az egyes csomópontok megosztják az adatkészletet különböző feltételek alapján. Optimális fa felépítése modellező megközelítéssel egy válaszváltozó osztályozására, amely előrejelzi a célváltozó értékét egyszerű döntési szabályokkal (ha-akkor-más állításokkal). A megközelítés felügyelt tanulás, amelyet főként az osztályozási problémákban alkalmaznak, és nagyon hatékony prediktív modellnek tekintik. Különböző alkalmazási területeken használják, például játékelmélet, mesterséges intelligencia, gépi tanulás, adatgyűjtés és olyan területeken, mint a biztonság és az orvostudomány.
Hogyan hozhatunk létre döntési fát?
A döntési fa létrehozása egyszerű módon történik, felülről lefelé; csomópontokból áll, amelyek egy irányított csomópontot alkotnak, amelynek gyökér csomópontjai nem rendelkeznek bejövő élekkel, az összes többi csomópontot döntési csomópontoknak nevezzük (belső csomópont és levél csomópontok, amelyek megfelelnek az attribútum- és osztálycímkéknek), legalább egy bejövő éllel. Az adatkészletek fő célja az általánosítási hibák minimalizálása az optimális megoldás megtalálásával a döntési fában.
Az alábbiakban egy minta adatkészlettel magyarázunk egy döntési fa példáját. A cél az élet és a verseny tulajdonságainak felhasználásával megjósolni, hogy a nyereség csökken-e vagy nem. Itt a döntési fa változói kategorikusak (igen, nem).
Az adatkészlet
Élet | Verseny | típus | Nyereség |
Régi | Igen | Szoftver | Le |
Régi | Nem | Szoftver | Le |
Régi | Nem | Hardver | Le |
Középső | Igen | Szoftver | Le |
Középső | Igen | Hardver | Le |
Középső | Nem | Hardver | Fel |
Középső | Nem | Szoftver | Fel |
Új | Igen | Szoftver | Fel |
Új | Nem | Hardver | Fel |
Új | Nem | Szoftver | Fel |
A fenti adatkészletből: élet, verseny, típus a prediktorok, az attribútum profitja pedig a cél. Különféle algoritmusok léteznek a döntési fa megvalósításához, de a döntési fa felépítéséhez a legjobb algoritmus az ID3, amely a kapzsi keresési megközelítésre helyezi a hangsúlyt. A döntési fa a döntés következtetési szabályát vagy a diszjunktív normál formát követi (^).
Döntési fa
Kezdetben az összes képzési tulajdonságot tekintik a gyökérnek. Az attribútumok gyökérként történő elhelyezésének sorrendje a következő megközelítéssel történik. Ez a folyamat ismert tulajdonságok kiválasztásával azonosítja, hogy melyik attribútum legyen gyökér csomópont minden szinten. A fa két lépésből áll: egy fa felépítése, a fa metszése. Az adatok meg vannak osztva az összes döntési csomópontban.
Információszerzés
Ez az entrópia változásának mértéke a független változó alapján. A döntési fának meg kell találnia a legnagyobb információhoz jutást.
Az entrópia
Az entrópiát úgy határozzuk meg, mint a véges halmaznál, az adatok véletlenszerűségénél vagy az esemény kiszámíthatóságánál, ha a minta hasonló értékek, akkor az entrópia nulla, és ha egyenlően oszlik meg a mintával, akkor az egy.
Entrópia az osztály számára
Ahol p az a valószínűség, hogy a profit nyereséggel azt mondja, hogy „igen”, és N a veszteség, ha „nem”.
entrópia = 1
Az entrópia érték kiszámítása után el kell dönteni egy gyökér csomópontot az attribútumból.
A kor entrópiája
A Life attribútum adatkészlete szerint van = 3 lefelé, középen = 2 lefelé és egy fel a nyereségcímkéhez.
Élet | Pi | ni | I (pi, ni) | |
Régi | 0 | 3 | 0 | |
Középső | 2 | 2 | 1 | |
Új | 3 | 0 | 0 |
Nyereség = Osztály-entrópia - Az élet entrópiája = 1 - 0, 4 = 0, 6
Entrópia (verseny) = 0, 87
Verseny | Pi | ni | I (pi, ni) | |
Igen | 1 | 3 | 0.8 | |
Nem | 4 | 2 | 0.9 |
Nyereség = Osztály entrópia - Az élet entrópiája = 1 - 0, 87 = 0, 12
A probléma most az Élet attribútumban merül fel, ahol a középső egyaránt valószínűsíthető felfelé és lefelé egyaránt. tehát az entrópia 1. Hasonlóképpen, a type attribútumhoz is kiszámítják, az entrópia értéke 1 és a nyereség 0. Most egy teljes döntés született a közepes érték pontos eredményének elérése érdekében.
A döntési fa előnyei
- Könnyen érthetők, és a létrehozott szabályok rugalmasak. Kevés erőfeszítést tesz az adatok előkészítésére.
- A döntések és eredmények megjelenítésének vizuális megközelítése nagyon hasznos.
- A döntési fa hibákat és hiányzó értékeket kezel az edzési adatkészlettel.
- Képesek diszkrét értéket és numerikus attribútumot kezelni. Kategória és folyamatos változókat működtet a be- és a kimenethez.
- Hasznos eszköz az üzleti terület számára, amelynek bizonyos feltételek mellett az elemzés után döntéseket kell hoznia.
A döntési fa hátrányai
- A tanulók összeállított döntési fát hozhatnak létre a képzett adatok függvényében. ezt a folyamatot túlszerelésnek nevezik, ez egy nehéz folyamat a döntési fa modellekben.
- Az előnyben részesített értékek kategorikusak, ha folyamatosak, a döntési fa olyan információkat veszít, amelyek hibára hajlamosak. Az elemzés során az exponenciális számítás növekedése nagyobb.
- Sok osztálycímke téves összetett számításokhoz vezet, és az adatkészlet előrejelzési pontossága alacsony.
- A DT algoritmusban kapott információk torzított választ adnak a kategorikusan magasabb értékekre.
Következtetés
Ezért összefoglalva: a döntési fák praktikus és egyszerű módszert kínálnak a tanuláshoz, és erősen ismertek a gépi tanulás hatékony eszközeiként, mivel rövid idő alatt nagy teljesítményűek nagy adatkészletekkel. Ez egy olyan tanulási feladat, amely statisztikai megközelítést alkalmaz az általános következtetés levonására. Most jobban megérti, hogy a döntési fát miért használják a prediktív modellezés során, és az adattudósok számára ezek a hatékony eszköz.
Ajánlott cikkek
Ez egy útmutató a döntési fa létrehozásához. Itt megvitatjuk, hogyan lehet létrehozni egy döntési fát, különféle előnyeivel és hátrányaival együtt. A további javasolt cikkeken keresztül további információkat is megtudhat -
- A R döntési fa áttekintése
- Mi a döntési fa algoritmus?
- Bevezetés a mesterséges intelligencia eszközeibe
- A 10 legfontosabb mesterséges intelligencia interjúkérdés