Bevezetés a döntési fa algoritmusába

Ha olyan problémát kell megoldanunk, amely osztályozási vagy regressziós probléma, akkor a döntési fa algoritmus az egyik legnépszerűbb algoritmus, amelyet az osztályozási és regressziós modellek felépítéséhez használnak. A felügyelt tanulás kategóriájába tartoznak, azaz címkézett adatok.

Mi a döntési fa algoritmus?

A Döntési fa algoritmus egy felügyelt gépi tanulási algoritmus, ahol az adatokat folyamatosan osztják minden sorban bizonyos szabályok alapján, amíg a végső eredmény meg nem készül. Vegyünk egy példát, tegyük fel, hogy megnyit egy bevásárlóközpontot, és természetesen azt akarja, hogy ez az idővel növekedjen az üzleti életben. Tehát ebben az ügyben visszatérő ügyfelekre és új vásárlóira van szüksége a bevásárlóközpontban. Ehhez különféle üzleti és marketing stratégiákat készít, például e-mailek küldését a potenciális ügyfeleknek; ajánlatokat és ajánlatokat hozhat létre, új vásárlókat célozva, stb. Más szavakkal, hogyan lehet osztályozni az ügyfelek kategóriáját? Mint egyes ügyfelek hetente egyszer látogatnak, mások szeretnének havonta egyszer vagy kétszer, vagy mások pedig negyedévente látogatni. Tehát a döntési fák az egyik ilyen osztályozási algoritmus, amely az eredményeket csoportokba sorolja, amíg többé nem marad fenn hasonlóság.

Ilyen módon a döntési fa faszerkezetű formában csökken. A döntési fa fő alkotóelemei a következők:

  • Döntési csomópontok, ahol az adatokat osztják vagy mondják, ez egy hely az attribútum számára.
  • A döntési link, amely egy szabályt képvisel.
  • Döntési levelek, amelyek a végeredmény.

Döntési fa algoritmus működése

Számos lépés jár a döntési fa működésében:

1. Osztás - Az adatok részhalmazokra történő felosztásának folyamata. A felosztás különféle tényezőkön végezhető, az alábbiak szerint: nemek, magasság vagy osztály alapján.

2. Metszés - A döntési fa ágainak lerövidítésének folyamata, ezáltal korlátozva a fa mélységét

A metszés is kétféle:

  • Metszés előtti metszés - Itt állítjuk le a fa növekedését, ha egyetlen csomópontnál sem találunk statisztikailag szignifikáns kapcsolatot az attribútumok és az osztály között.
  • Vágás utáni metszés - A szilva utáni metszéshez ellenőrizni kell a tesztkészlet modell teljesítményét, majd levágni az ágakat, amelyek az edzőkészlet túlzott zajának következményei.

3. Fa kiválasztása - A harmadik lépés az adatokhoz illeszkedő legkisebb fa megtalálásának folyamata.

Példák és szemléltetések egy döntési fa felépítésére

Most, ahogy megtanultuk a döntési fa alapelveit. Megértjük és illusztráljuk ezt egy példa segítségével.

Tegyük fel, hogy egy bizonyos napon (például szombaton) szeretne krikettjét játszani. Milyen tényezők befolyásolják, hogy a játék megy-e vagy sem?

Nyilvánvaló, hogy a fő tényező az éghajlat, egyetlen más tényezőnek sincs annyira valószínűsége, mint amennyire az éghajlat okozza a játék megszakítását.

Összegyűjtöttük az elmúlt 10 nap adatait, amelyeket az alábbiakban mutatunk be:

NapIdőjárásHőfokpáratartalomSzélJáték?
1FelhősForróMagasGyengeIgen
2NaposForróMagasGyengeNem
3NaposEnyheNormálErősIgen
4EsősEnyheMagasErősNem
5FelhősEnyheMagasErősIgen
6EsősMenőNormálErősNem
7EsősEnyheMagasGyengeIgen
8NaposForróMagasErősNem
9FelhősForróNormálGyengeIgen
10EsősEnyheMagasErősNem

Építsük meg most a döntési fánkat a kapott adatok alapján. Tehát kétféle szintre osztottuk a döntési fát: az első az „Időjárás” attribútumon alapul, a második sor a „Páratartalom” és a „Szél” attribútumon alapul. Az alábbi képek a megtanult döntési fát szemléltetik.

Beállíthatunk néhány küszöbértéket is, ha a szolgáltatások folyamatosak.

Mi az entrópia a döntési fa algoritmusában?

Egyszerű szavakkal: az entrópia az adatok rendezetlenségének mértéke. Noha hallhatta ezt a kifejezést a matematika vagy a fizika óráiban, itt ugyanaz.

Az Entrópiát azért alkalmazzák a döntési fában, mert a döntési fa végső célja az, hogy hasonló adatcsoportokat hasonló osztályokba csoportosítson, azaz az adatokat megtisztítsa.

Nézzük meg az alábbi képet, ahol megvan a kezdeti adatkészlet, és döntési fa algoritmust kell alkalmaznunk a hasonló adatpontok egy kategóriába csoportosításához.

A döntés megosztása után, amint világosan láthatjuk, a legtöbb piros kör egy osztályba tartozik, míg a kék kereszt nagy része egy másik osztályba tartozik. Ezért döntés született az attribútumok osztályozásáról, amelyek különféle tényezőken alapulhatnak.

Most próbáljuk megcsinálni néhány matematikai módszert itt:

Tegyük fel, hogy megvan az elem „N” halmaza, és ezek az elemek két kategóriába sorolhatók, és most, hogy címkék alapján csoportosítsuk az adatokat, bevesszük az arányt:

Készletünk entrópiáját a következő egyenlet adja:

Nézzük meg az adott egyenlet grafikonját:

Kép felett (p = 0, 5 és q = 0, 5 esetén)

Előnyök

1. A döntési fa egyszerűen megérthető, és ha egyszer megértjük, felépíthetjük.

2. Meghozhatjuk a döntési fát numerikus és kategorikus adatokra is.

3. A döntési fa bizonyítottan robusztus modell, ígéretes eredményekkel.

4. Nagyobb adatokkal is időhatékonyak.

5. Kevesebb erőfeszítést igényel az adatok képzése.

hátrányok

1. Instabilitás - Csak akkor, ha az információ pontos és pontos, a döntési fa ígéretes eredményeket hoz. Még ha a bemeneti adatok is kissé megváltoznak, nagy változásokat okozhat a fában.

2. Komplexitás - Ha az adatkészlet hatalmas sok oszloppal és sorral, nagyon összetett feladat egy döntési fát megtervezni, amelyben sok ága van.

3. Költségek - A költségek néha továbbra is fő tényezõk, mert amikor egy összetett döntési fa felépítéséhez szükség van fejlett ismeretekre a kvantitatív és statisztikai elemzésben.

Következtetés

Ebben a cikkben megismertük a döntési fa algoritmust és annak felépítését. Láttuk azt a nagy szerepet is, amelyet az Entropy játszik a döntési fa algoritmusában, és végül láttuk a döntési fa előnyeit és hátrányait.

Ajánlott cikkek

Ez egy útmutató a döntési fa algoritmusához. Itt az Entrópia, a Munka, az Előnyök és a Hátrányok szerepét tárgyaltuk. A további javasolt cikkeken keresztül további információkat is megtudhat -

  1. Fontos adatbányászati ​​módszerek
  2. Mi az a webalkalmazás?
  3. Útmutató az adattudományhoz?
  4. Adatanalitikus interjú kérdései
  5. A döntési fa alkalmazása az adatbányászatban

Kategória: