Bevezetés a döntésfaba a gépi tanulásban

A gépi tanulás döntési fajának széles területe van a modern világban. Sok ML algoritmus található a mindennapi életben. Az egyik fontos algoritmus a Döntési fa, amelyet a besoroláshoz és a regressziós problémák megoldására használnak. Mivel ez egy prediktív modell, a döntési fa elemzését algoritmikus megközelítéssel hajtják végre, ahol az adatkészletet feltételek szerint alcsoportokra osztják. Maga a név azt mondja, hogy egy fa-szerű modell, ha másként állítások formájában. Minél mélyebb a fa és minél több csomópont van, annál jobb a modell.

A döntési fa típusai a gépi tanulásban

A Döntési fa egy faszerű grafikon, ahol a szétválogatás a gyökércsomóponttól a levélcsomópontig kezdődik, amíg a célt el nem érik. Ez a legnépszerűbb a felügyelt algoritmusokon alapuló döntéshoz és osztályozáshoz. Ez rekurzív particionálás útján épül fel, ahol minden csomópont teszt esetként működik egyes attribútumok szempontjából, és a csomópontból származó minden él egy lehetséges válasz a teszt esetben. Mind a gyökér, mind a levél csomópontok az algoritmus két entitása.

Megértjük egy kis példa segítségével az alábbiakat:

Itt a gyökér csomópont az, hogy 40 évesnél fiatalabb-e vagy sem. Ha igen, akkor eszik gyorsétkezést? Ha igen, akkor alkalmatlan vagy különben alkalmas vagy. És ha 40 évesnél fiatalabb, akkor gyakorol? Ha igen, akkor alkalmas vagy, vagy pedig alkalmatlan. Ez alapvetően bináris osztályozás volt.

Kétféle típusú döntési fák vannak:

  1. Osztályozási fák: A fenti példa egy osztályalapú osztályozási fa.
  2. Regressziós fák : Az ilyen típusú algoritmusokban a döntés vagy az eredmény folyamatos. Egyetlen numerikus kimenetet kapott, több bemenettel vagy prediktorral.

A Döntési fában a tipikus kihívás az attribútum azonosítása az egyes csomópontokban. Ezt a folyamatot attribútumválasztásnak nevezzük, és van néhány intézkedése, amelyet használni kell az attribútum azonosításához.

a. Információgyűjtés (IG)

Információs nyereség azt méri, hogy az egyes jellemzők mennyi információt nyújtanak az osztályról. Ez a döntő kulcs a döntési fa felépítéséhez. A legmagasabb információszükségletű attribútum először hasad. Tehát a döntési fa mindig maximalizálja az információszerzést. Ha egy csomópontot használunk az példányok kisebb részhalmazokra osztásához, akkor az entrópia megváltozik.

Entrópia: Ez egy bizonytalanság vagy szennyeződés mértéke egy véletlen változóban. Az Entrópia dönti el, hogy a döntési fa hogyan osztja az adatokat részhalmazokra.

Az információszerzés és az entrópia egyenlete a következő:

Információs nyereség = entrópia (szülő) - (súlyozott átlag * entrópia (gyermekek))

Entrópia: ∑p (X) log p (X)

P (X) itt a példák töredéke egy adott osztályban.

b. Gini Index

A Gini Index egy olyan mutató, amely eldönti, hogy egy véletlenszerűen kiválasztott elem milyen gyakran kerül helytelenül azonosításra. Világosan kijelenti, hogy az alacsony Gini indexű attribútum elsőbbséget élvez.

Gini index: 1-∑ p (X) 2

Osztott létrehozás

  1. Felosztás létrehozásához először ki kell számítanunk a Gini-pontszámot.
  2. Az adatokat felosztják egy sor listájával, amelyben egy attribútum indexe és az attribútum osztott értéke van. Miután megtaláltuk a jobb és a bal oldali adatkészletet, az első részből megkaphatjuk a split értéket a Gini-pontszám alapján. Most, a megosztott érték lesz az a dönto, ahol az attribútum tartózkodni fog.
  3. A következő rész az összes felosztás értékelését tartalmazza. A lehető legjobb értéket a felosztás költségeinek kiértékelésével számítják ki. A legjobb osztást a Döntési fa csomópontjaként használják.

Fa építése - döntési fa a gépi tanulásban

Két lépés van a döntési fa felépítésében.

1. Terminálcsomópont létrehozása

A terminálcsomópont létrehozásakor a legfontosabb dolog az észrevenni, hogy meg kell állítanunk a fák növekedését vagy tovább kell folytatnunk. A következő módszerek használhatók erre:

  • Maximális fa mélység: Amikor a fa eléri a csomópontok maximális számát, ott a végrehajtás megáll.
  • Minimális csomópontrekordok: Meghatározható minták minimumként, amelyekre a csomópontnak szüksége van. Ezután azonnal abbahagyhatjuk a terminálcsomópontok hozzáadását, és megkapjuk a minimális csomópont-rekordokat.

2. Rekurzív felosztás

Miután létrehozták a csomópontot, létrehozhatunk egy gyermekcsomópontot rekurzív módon az adatkészlet felosztásával és ugyanazon funkció többszöri meghívásával.

jóslás

Egy fa felépítése után az előrejelzés egy rekurzív funkcióval történik. Ugyanezt az előrejelzési folyamatot követjük újra a bal vagy a jobb oldali gyermekcsomópontokkal és így tovább.

A döntési fa előnyei és hátrányai

Az alábbiakban felsorolunk néhány előnyt és hátrányt:

Előnyök

A döntési fának van néhány előnye a gépi tanulásban, az alábbiak szerint:

  • Átfogó: Figyelembe veszi a döntés minden lehetséges eredményét, és az egyes csomópontokat ennek megfelelően vonja le a következtetéshez.
  • Konkrét: A döntési fák minden problémának, döntésnek és eredménynek adott értéket tulajdonítanak. Csökkenti a bizonytalanságot és a kétértelműséget, valamint növeli a tisztaságot.
  • Egyszerűség: A döntési fa az egyik könnyebb és megbízhatóbb algoritmus, mivel nincs bonyolult képlete vagy adatszerkezete. A számításhoz csak egyszerű statisztikákra és matematikai adatokra van szükség.
  • Sokoldalú: A döntési fák manuálisan készíthetőek a matematika segítségével, és felhasználhatók más számítógépes programokhoz.

hátrányok

A döntési fának van néhány hátránya a gépi tanulásban, az alábbiak szerint:

  • A döntési fák kevésbé alkalmasak becslésekre és pénzügyi feladatokra, ahol megfelelő érték (ek) re van szükségünk.
  • Ez egy hibára hajlamos osztályozási algoritmus, összehasonlítva a többi számítási algoritmussal.
  • Számítási szempontból drága. Mindegyik csomóponton a jelölt osztást meg kell válogatni, mielőtt a legjobbat megnéznék. Vannak más alternatívák is, amelyeket sok üzleti egység követ a pénzügyi feladatok elvégzése érdekében, mivel a döntési fa túl drága az értékeléshez.
  • A folyamatos változókkal való munkavégzés során a Döntési fa nem megfelelő a legjobb megoldás, mivel hajlamos az információ elvesztésére a változók kategorizálása során.
  • Ez néha instabil, mivel az adatkészlet kis variációi új fa kialakulásához vezethetnek.

Következtetés - döntési fa a gépi tanulásban

Mint az egyik legfontosabb és felügyelt algoritmus, a Döntésfa létfontosságú szerepet játszik a döntés elemzésében a valós életben. Prediktív modellként számos területen alkalmazzák megosztott megközelítésére, amely elősegíti a különböző körülmények közötti megoldások azonosítását osztályozási vagy regressziós módszerrel.

Ajánlott cikkek

Ez egy útmutató a Géptanulás döntési fajához. Itt tárgyaljuk a bevezetést, a Döntési fa típusait a gépi tanulásban, A felosztás létrehozását és a Fa felépítését. A további javasolt cikkeken keresztül további információkat is megtudhat -

  1. Python adattípusok
  2. Tableau adatkészletek
  3. Cassandra adatmodellezés
  4. Döntési táblázat tesztelése
  5. A gépi tanulás életciklusának 8 legfontosabb szakasza

Kategória: