A R döntési fa áttekintése
Az r döntési fa egy felügyelt tanulás egy formája, amelyet a besorolási és regressziós problémák orvoslására használnak. Ezek egy erős gépi tanulási algoritmus, amely nagyon összetett adatkészletekkel használható. A döntési fa mögött rejlő alapelv az adott adatkészlet felosztása. A cikk áttekintése érdekében javasolt, hogy legyen alapvető tanulási koncepciók a döntési fa algoritmusán.
Döntési fa R - ben
Ahhoz, hogy egy döntési fával R-ben vagy laikusban dolgozzunk, nagy adatkészletekkel kell dolgozni, és a beépített R-csomagok közvetlen használata megkönnyíti a munkát. A döntési fa nemlineáris feltételezési modell, amely egy faszerkezetet használ a kapcsolatok osztályozására. Az R-ben szereplő döntési fa kétféle változót használ: kategorikus változót (igen vagy nem) és folyamatos változókat. A döntési fa terminológiája, amely a gyökér csomópontról (osztálycímkét képez), döntési csomópontokról (alcsomópontok), terminál csomópontról (nem osztódik tovább). A gépi tanulási megközelítés mögött rejlő egyedi koncepció az, hogy az adott adatokat osztályokba sorolják, amelyek igen vagy nem áramlást képeznek (ha-más megközelítés), és az eredményeket egy faszerkezetben ábrázolják. Az R döntési fában használt algoritmus a Gini-index, információszerzés, entrópia. Különböző csomagok érhetők el döntési fa felépítéséhez R-ben: rpart (rekurzív), party, random Forest, CART (osztályozás és regresszió). Meglehetősen könnyű a döntési fa R-ben történő megvalósítása.
Az egyértelmű elemzés érdekében a fa csoportokra van osztva: edzőkészlet és tesztkészlet. A következő megvalósítás autó adatkészletet használ. Ez az adatkészlet 1727 obs és 9 változót tartalmaz, amellyel az osztályozási fa épül. Ebben a cikkben lehetővé válik a „party” csomag fája. A create () függvény feltételes fákat ad a plot függvénnyel.
Végrehajtás R segítségével
A cél egy autó adatkészletének tanulmányozása annak előrejelzése érdekében, hogy az autó értéke magas / alacsony és közepes-e.
i) Adatok előkészítése
A csomagok telepítése és a könyvtárak betöltése
Ez a modul az adatkészletet teljes adatkeretként olvassa be, és az adatok szerkezetét a következőképpen adjuk meg:
data<-car // Reading the data as a data frame
str(data) // Displaying the structure and the result shows the predictor values.
Kimenet:
Determining Factordata$vhigh View(car)
> data<-car
ii) Adatok particionálása
Az adatok felosztása edzési adatkészletek segítségével. A döntési fa alcsomópontokra oszlik a jó pontosság érdekében. A bonyolultságot a fa mérete és a hibaarány határozza meg. Itt reprodukálhatóságot végez, és számos sort generál.
set. Seed (1234)
dt<-sample (2, nrow(data), replace = TRUE, prob=c (0.8, 0.2))
validate<-data(dt==2, )
Ábra : Az adatértékek megjelenítése
Ezután az adatok értékét 2-re állítjuk
validate<-data(dt==2, )
Ábra : Az R konzol megjelenítése az R Studioban
Hozzon létre döntési fa R-ben a csomagpartnerrel
- Kattintson a csomag-> telepítés -> parti elemre. Itt vettük az első három bemenetet az adathalmazok 1727 megfigyelésének mintájából. Modell létrehozása a magas, alacsony, közepes előrejelzésére a bemenetek között.
Végrehajtás:
library(party)
tree<-ctree(v~vhigh+vhigh.1+X2, data = train)
tree
Kimenet:
Telek a Ctree használatával
jóslat:
A Prob valószínűséget generál a pontozás során,
Végrehajtás:
predict(tree, validate, type="prob")
predict(tree, validate)
Szintek: magas alacsony és magas
Döntési fa az rpart használatával
Az osztály becslése az rpart () függvény használatával az osztály módszerhez. Az rpart () a Gini index mértéket használja a csomópontok felosztására.
library(rpart)
tr<-rpart (v~vhigh+vhigh.1+X2, train)
library (rpart. plot)
rpart. plot(tr)
„
rpart.plot(tr, extra=2)
Ez a sor ábrázolja a fát, és annak a valószínűségének megjelenítéséhez, amely extra funkciókat generál a 2. készlethez, és az eredményt az alábbiakban adjuk meg.
Téves osztályozási hiba
A hibaarány megakadályozza a túlzott felszerelést.
tbl<-table(predict(tree), train $v)
print(tbl)
tepre<-predict(tree, new=validate)
Kimenet:
print (tbl)
magas, alacsony med
magas 332 0 0 0
alacsony 0 359 0 0
med 0 0 350 0
vhigh 0 0 0 351
Következtetés
A döntési fa az R kulcsfontosságú kihívása, és a fa erőssége az, hogy könnyen érthetők és olvashatók, összehasonlítva más modellekkel. Ezeket népszerûen alkalmazzák az adattudomány problémáiban. Ezek az eszközök állítják elő a statisztikai elemzés során végrehajtott döntések hierarchiáját. A döntési fa logikai értelmezésének megértéséhez statisztikai ismeretekre van szükség. Mint láttuk, a döntési fa könnyen érthető, és az eredmények hatékonyak, ha kevesebb osztálycímkével rendelkezik, és a másik hátrányos része, amikor több osztálycímke van, a számítások összetettekké válnak. Ez a hozzászólás jósnővé teszi a prediktív és faalapú tanulási modellek felépítését.
Ajánlott cikkek
Ez egy útmutató az R. döntési fajához. Itt tárgyaljuk az R. bevezetését, hogyan kell használni és hogyan kell megvalósítani. További információkért áttekintheti a többi javasolt cikket is -
- Mi a bináris fa Java-ban?
- R programozási nyelv
- Mi a Visual Studio kód?
- Bevezetés a vonaldiagramon R-ben
- Útmutató a binomiális eloszláshoz R