A R döntési fa áttekintése

Az r döntési fa egy felügyelt tanulás egy formája, amelyet a besorolási és regressziós problémák orvoslására használnak. Ezek egy erős gépi tanulási algoritmus, amely nagyon összetett adatkészletekkel használható. A döntési fa mögött rejlő alapelv az adott adatkészlet felosztása. A cikk áttekintése érdekében javasolt, hogy legyen alapvető tanulási koncepciók a döntési fa algoritmusán.

Döntési fa R - ben

Ahhoz, hogy egy döntési fával R-ben vagy laikusban dolgozzunk, nagy adatkészletekkel kell dolgozni, és a beépített R-csomagok közvetlen használata megkönnyíti a munkát. A döntési fa nemlineáris feltételezési modell, amely egy faszerkezetet használ a kapcsolatok osztályozására. Az R-ben szereplő döntési fa kétféle változót használ: kategorikus változót (igen vagy nem) és folyamatos változókat. A döntési fa terminológiája, amely a gyökér csomópontról (osztálycímkét képez), döntési csomópontokról (alcsomópontok), terminál csomópontról (nem osztódik tovább). A gépi tanulási megközelítés mögött rejlő egyedi koncepció az, hogy az adott adatokat osztályokba sorolják, amelyek igen vagy nem áramlást képeznek (ha-más megközelítés), és az eredményeket egy faszerkezetben ábrázolják. Az R döntési fában használt algoritmus a Gini-index, információszerzés, entrópia. Különböző csomagok érhetők el döntési fa felépítéséhez R-ben: rpart (rekurzív), party, random Forest, CART (osztályozás és regresszió). Meglehetősen könnyű a döntési fa R-ben történő megvalósítása.

Az egyértelmű elemzés érdekében a fa csoportokra van osztva: edzőkészlet és tesztkészlet. A következő megvalósítás autó adatkészletet használ. Ez az adatkészlet 1727 obs és 9 változót tartalmaz, amellyel az osztályozási fa épül. Ebben a cikkben lehetővé válik a „party” csomag fája. A create () függvény feltételes fákat ad a plot függvénnyel.

Végrehajtás R segítségével

A cél egy autó adatkészletének tanulmányozása annak előrejelzése érdekében, hogy az autó értéke magas / alacsony és közepes-e.

i) Adatok előkészítése

A csomagok telepítése és a könyvtárak betöltése

Ez a modul az adatkészletet teljes adatkeretként olvassa be, és az adatok szerkezetét a következőképpen adjuk meg:

data<-car // Reading the data as a data frame
str(data) // Displaying the structure and the result shows the predictor values.

Kimenet:

Determining Factordata$vhigh View(car)
> data<-car

ii) Adatok particionálása

Az adatok felosztása edzési adatkészletek segítségével. A döntési fa alcsomópontokra oszlik a jó pontosság érdekében. A bonyolultságot a fa mérete és a hibaarány határozza meg. Itt reprodukálhatóságot végez, és számos sort generál.

set. Seed (1234)
dt<-sample (2, nrow(data), replace = TRUE, prob=c (0.8, 0.2))
validate<-data(dt==2, )

Ábra : Az adatértékek megjelenítése

Ezután az adatok értékét 2-re állítjuk

validate<-data(dt==2, )

Ábra : Az R konzol megjelenítése az R Studioban

Hozzon létre döntési fa R-ben a csomagpartnerrel

  • Kattintson a csomag-> telepítés -> parti elemre. Itt vettük az első három bemenetet az adathalmazok 1727 megfigyelésének mintájából. Modell létrehozása a magas, alacsony, közepes előrejelzésére a bemenetek között.

Végrehajtás:

library(party)
tree<-ctree(v~vhigh+vhigh.1+X2, data = train)
tree

Kimenet:

Telek a Ctree használatával

jóslat:

A Prob valószínűséget generál a pontozás során,

Végrehajtás:

predict(tree, validate, type="prob")
predict(tree, validate)

(1) vhigh vhigh vhigh vhigh vhigh vhigh vhigh vhigh

(12) vhigh vhigh vhigh vhigh vhigh vhigh vhigh vhigh

(23) vhigh vhigh vhigh vhigh vhigh vhigh vhigh vhigh

(34) vhigh vhigh vhigh vhigh vhigh vhigh vhigh vhigh

(45) vhigh vhigh vhigh vhigh vhigh vhigh vhigh vhigh

(56) vhigh vhigh vhigh vhigh vhigh vhigh vhigh vhigh

(67) vhigh vhigh vhigh vhigh vhigh vhigh vhigh vhigh

(78) vhigh vhigh vhigh magas magas magas magas magas magas magas magas magas

(89) magas magas magas magas magas magas magas magas magas magas magas

(100) magas magas magas magas magas magas magas magas magas magas magas

(111) magas magas magas magas magas magas magas magas magas magas magas

(122) magas magas magas magas magas magas magas magas magas magas magas

(133) magas magas magas magas magas magas magas magas magas magas magas

(144) magas magas magas magas magas magas magas magas magas magas magas

(155) magas magas magas magas magas magas magas magas magas magas magas

(166) magas magas magas magas magas magas magas magas magas magas magas

(177) magas magas magas magas magas med med med med med med

(188) med med med med med med med med med med med med

(199) med med med med med med med med med med med med

(210) med med med med med med med med med med med med

(221) med med med med med med med med med med med med

(232) med med med med med med med med med med med med

(243) med med med med med med med med med med med med

(254) med med med med med med med med med alacsony, alacsony

(265) alacsony alacsony alacsony alacsony alacsony alacsony alacsony alacsony alacsony alacsony alacsony alacsony alacsony alacsony

(276) alacsony alacsony alacsony alacsony alacsony alacsony alacsony alacsony alacsony alacsony alacsony alacsony alacsony alacsony

(287) alacsony alacsony alacsony alacsony alacsony alacsony alacsony alacsony alacsony alacsony alacsony alacsony alacsony alacsony

(298) alacsony alacsony alacsony alacsony alacsony alacsony alacsony alacsony alacsony alacsony alacsony alacsony alacsony alacsony

(309) alacsony alacsony alacsony alacsony alacsony alacsony alacsony alacsony alacsony alacsony alacsony alacsony alacsony alacsony

(320) alacsony alacsony alacsony alacsony alacsony alacsony alacsony alacsony alacsony alacsony alacsony alacsony alacsony alacsony

(331) alacsony alacsony alacsony alacsony alacsony alacsony

Szintek: magas alacsony és magas

Döntési fa az rpart használatával

Az osztály becslése az rpart () függvény használatával az osztály módszerhez. Az rpart () a Gini index mértéket használja a csomópontok felosztására.

library(rpart)
tr<-rpart (v~vhigh+vhigh.1+X2, train)
library (rpart. plot)
rpart. plot(tr)

rpart.plot(tr, extra=2)

Ez a sor ábrázolja a fát, és annak a valószínűségének megjelenítéséhez, amely extra funkciókat generál a 2. készlethez, és az eredményt az alábbiakban adjuk meg.

Téves osztályozási hiba

A hibaarány megakadályozza a túlzott felszerelést.

tbl<-table(predict(tree), train $v)
print(tbl)
tepre<-predict(tree, new=validate)

Kimenet:

print (tbl)

magas, alacsony med

magas 332 0 0 0

alacsony 0 359 0 0

med 0 0 350 0

vhigh 0 0 0 351

Következtetés

A döntési fa az R kulcsfontosságú kihívása, és a fa erőssége az, hogy könnyen érthetők és olvashatók, összehasonlítva más modellekkel. Ezeket népszerûen alkalmazzák az adattudomány problémáiban. Ezek az eszközök állítják elő a statisztikai elemzés során végrehajtott döntések hierarchiáját. A döntési fa logikai értelmezésének megértéséhez statisztikai ismeretekre van szükség. Mint láttuk, a döntési fa könnyen érthető, és az eredmények hatékonyak, ha kevesebb osztálycímkével rendelkezik, és a másik hátrányos része, amikor több osztálycímke van, a számítások összetettekké válnak. Ez a hozzászólás jósnővé teszi a prediktív és faalapú tanulási modellek felépítését.

Ajánlott cikkek

Ez egy útmutató az R. döntési fajához. Itt tárgyaljuk az R. bevezetését, hogyan kell használni és hogyan kell megvalósítani. További információkért áttekintheti a többi javasolt cikket is -

  1. Mi a bináris fa Java-ban?
  2. R programozási nyelv
  3. Mi a Visual Studio kód?
  4. Bevezetés a vonaldiagramon R-ben
  5. Útmutató a binomiális eloszláshoz R

Kategória: