Hozzon létre egy döntési fát A döntési fa diagram megjelenítésének egyszerű módjai

Tartalomjegyzék:

Anonim

Bevezetés a döntési fa létrehozásához

Az információs rendszerek által generált nagy mennyiségű adatkészlet kezeléséhez szükséges adatmennyiségnek az utóbbi időben történő gyors növekedésével a döntő fa szükségessé teszi a számítási bonyolultság csökkentését. A döntési fa tekinthető a legfontosabb megközelítésnek az osztályozók ábrázolásában. Más szavakkal, azt mondhatjuk, hogy az adatok felosztásának és meghódításának stratégiája alapján vannak felépítve. tudjuk, hogy csak felfedeztük. A döntési fa olyan keretként van felépítve, amely pontosítja az odaítélt döntések értékeit és valószínűségét

A csomópont minden szintjét megkönnyíti, hogy a döntéshozók megválaszthassák a helyes előrejelzéseket a különféle nem megfelelő adatok közül. Ebben a cikkben bemutatja, hogyan hozhat létre egyszerűen döntési fát mintaadatok alapján.

Mi az a döntési fa?

A döntési fa egy bináris hierarchikus struktúra, amely azonosítja azt a módot, ahogyan az egyes csomópontok megosztják az adatkészletet különböző feltételek alapján. Optimális fa felépítése modellező megközelítéssel egy válaszváltozó osztályozására, amely előrejelzi a célváltozó értékét egyszerű döntési szabályokkal (ha-akkor-más állításokkal). A megközelítés felügyelt tanulás, amelyet főként az osztályozási problémákban alkalmaznak, és nagyon hatékony prediktív modellnek tekintik. Különböző alkalmazási területeken használják, például játékelmélet, mesterséges intelligencia, gépi tanulás, adatgyűjtés és olyan területeken, mint a biztonság és az orvostudomány.

Hogyan hozhatunk létre döntési fát?

A döntési fa létrehozása egyszerű módon történik, felülről lefelé; csomópontokból áll, amelyek egy irányított csomópontot alkotnak, amelynek gyökér csomópontjai nem rendelkeznek bejövő élekkel, az összes többi csomópontot döntési csomópontoknak nevezzük (belső csomópont és levél csomópontok, amelyek megfelelnek az attribútum- és osztálycímkéknek), legalább egy bejövő éllel. Az adatkészletek fő célja az általánosítási hibák minimalizálása az optimális megoldás megtalálásával a döntési fában.

Az alábbiakban egy minta adatkészlettel magyarázunk egy döntési fa példáját. A cél az élet és a verseny tulajdonságainak felhasználásával megjósolni, hogy a nyereség csökken-e vagy nem. Itt a döntési fa változói kategorikusak (igen, nem).

Az adatkészlet

Élet Verseny típus Nyereség
Régi Igen Szoftver Le
Régi Nem Szoftver Le
Régi Nem Hardver Le
Középső Igen Szoftver Le
Középső Igen Hardver Le
Középső Nem Hardver Fel
Középső Nem Szoftver Fel
Új Igen Szoftver Fel
Új Nem Hardver Fel
Új Nem Szoftver Fel

A fenti adatkészletből: élet, verseny, típus a prediktorok, az attribútum profitja pedig a cél. Különféle algoritmusok léteznek a döntési fa megvalósításához, de a döntési fa felépítéséhez a legjobb algoritmus az ID3, amely a kapzsi keresési megközelítésre helyezi a hangsúlyt. A döntési fa a döntés következtetési szabályát vagy a diszjunktív normál formát követi (^).

Döntési fa

Kezdetben az összes képzési tulajdonságot tekintik a gyökérnek. Az attribútumok gyökérként történő elhelyezésének sorrendje a következő megközelítéssel történik. Ez a folyamat ismert tulajdonságok kiválasztásával azonosítja, hogy melyik attribútum legyen gyökér csomópont minden szinten. A fa két lépésből áll: egy fa felépítése, a fa metszése. Az adatok meg vannak osztva az összes döntési csomópontban.

Információszerzés

Ez az entrópia változásának mértéke a független változó alapján. A döntési fának meg kell találnia a legnagyobb információhoz jutást.

Az entrópia

Az entrópiát úgy határozzuk meg, mint a véges halmaznál, az adatok véletlenszerűségénél vagy az esemény kiszámíthatóságánál, ha a minta hasonló értékek, akkor az entrópia nulla, és ha egyenlően oszlik meg a mintával, akkor az egy.

Entrópia az osztály számára

Ahol p az a valószínűség, hogy a profit nyereséggel azt mondja, hogy „igen”, és N a veszteség, ha „nem”.

entrópia = 1

Az entrópia érték kiszámítása után el kell dönteni egy gyökér csomópontot az attribútumból.

A kor entrópiája

A Life attribútum adatkészlete szerint van = 3 lefelé, középen = 2 lefelé és egy fel a nyereségcímkéhez.

Élet Pi ni I (pi, ni)
Régi 0 3 0
Középső 2 2 1
Új 3 0 0

Nyereség = Osztály-entrópia - Az élet entrópiája = 1 - 0, 4 = 0, 6

Entrópia (verseny) = 0, 87

Verseny Pi ni I (pi, ni)
Igen 1 3 0.8
Nem 4 2 0.9

Nyereség = Osztály entrópia - Az élet entrópiája = 1 - 0, 87 = 0, 12

A probléma most az Élet attribútumban merül fel, ahol a középső egyaránt valószínűsíthető felfelé és lefelé egyaránt. tehát az entrópia 1. Hasonlóképpen, a type attribútumhoz is kiszámítják, az entrópia értéke 1 és a nyereség 0. Most egy teljes döntés született a közepes érték pontos eredményének elérése érdekében.

A döntési fa előnyei

  • Könnyen érthetők, és a létrehozott szabályok rugalmasak. Kevés erőfeszítést tesz az adatok előkészítésére.
  • A döntések és eredmények megjelenítésének vizuális megközelítése nagyon hasznos.
  • A döntési fa hibákat és hiányzó értékeket kezel az edzési adatkészlettel.
  • Képesek diszkrét értéket és numerikus attribútumot kezelni. Kategória és folyamatos változókat működtet a be- és a kimenethez.
  • Hasznos eszköz az üzleti terület számára, amelynek bizonyos feltételek mellett az elemzés után döntéseket kell hoznia.

A döntési fa hátrányai

  • A tanulók összeállított döntési fát hozhatnak létre a képzett adatok függvényében. ezt a folyamatot túlszerelésnek nevezik, ez egy nehéz folyamat a döntési fa modellekben.
  • Az előnyben részesített értékek kategorikusak, ha folyamatosak, a döntési fa olyan információkat veszít, amelyek hibára hajlamosak. Az elemzés során az exponenciális számítás növekedése nagyobb.
  • Sok osztálycímke téves összetett számításokhoz vezet, és az adatkészlet előrejelzési pontossága alacsony.
  • A DT algoritmusban kapott információk torzított választ adnak a kategorikusan magasabb értékekre.

Következtetés

Ezért összefoglalva: a döntési fák praktikus és egyszerű módszert kínálnak a tanuláshoz, és erősen ismertek a gépi tanulás hatékony eszközeiként, mivel rövid idő alatt nagy teljesítményűek nagy adatkészletekkel. Ez egy olyan tanulási feladat, amely statisztikai megközelítést alkalmaz az általános következtetés levonására. Most jobban megérti, hogy a döntési fát miért használják a prediktív modellezés során, és az adattudósok számára ezek a hatékony eszköz.

Ajánlott cikkek

Ez egy útmutató a döntési fa létrehozásához. Itt megvitatjuk, hogyan lehet létrehozni egy döntési fát, különféle előnyeivel és hátrányaival együtt. A további javasolt cikkeken keresztül további információkat is megtudhat -

  1. A R döntési fa áttekintése
  2. Mi a döntési fa algoritmus?
  3. Bevezetés a mesterséges intelligencia eszközeibe
  4. A 10 legfontosabb mesterséges intelligencia interjúkérdés