Színátmenet növelő algoritmus - Teljes útmutató a színátmenet-növelésről

Tartalomjegyzék:

Anonim

Bevezetés a gradiensnövelő algoritmusba

A heti tanulók erőteljes tanulóvá történő átalakításának technikáját Boosting-nak hívják. A gradiensnövelő algoritmus folyamata ezen a végrehajtási elmélen működik. Az Ada fokozó algoritmus ábrázolható, hogy megmagyarázza és könnyen megértse azt a folyamatot, amelyen keresztül a növelést az adatkészletekbe injektálják.

Döntési fa

A döntési fa olyan ítélet-támogató eszköz, amely meghatározza a döntéseket egy fa-szerű és azok valószínű következményeinek, valamint a lehetséges események kimeneteleinek, erőforrásköltségeinek stb. Bevonásával, ez a technika lehetővé teszi számukra a feltételes eredményekkel működő ellenőrző utasítások megjelenítését.

A kutatási tevékenységek széles körben használják ezeket a döntési fákat kifejezetten a döntés elemzésében. Ez lehetővé teszi számukra egy cél elérését, és szintén csodált eszköz a gépi tanulásban.

AdaBoost algoritmus

Az AdaBoost algoritmus egy döntési fa elkészítésével kezdődik, amelyben minden megfigyelés egyenértékű súlyt kap. Az elsődleges fa kiértékelése után növeljük ennek az értelmezésnek a súlyait, amelyek bonyolultak a kategorizáláshoz és alárendelésükhöz, azok számára, akik nem képesek kategorizálni. Ennek eredményeként a második fát ezen előítéleti adatok alapján fejlesztették ki. Itt a tervezés célja, hogy jobban megismerje az elsődleges fa próféciáját.

Ezután kiszámolja a kategorizálási hibát ettől az innovatív 2-fa gyűjtési modelltől, és ápolja a harmadik fát a módosított maradványok előrejelzésére. A fenti eljárást néhány esetben megismételjük. Azok a megfigyelések, amelyeket az előző fákban nem pontosan definiáltak, a következő fák felhasználásával határozzák meg. Következésképpen a befejező összeszerelési modell előrejelzései a korábbi fa modellekkel befejezett előrejelzések előre becsült alakja.

Képzési GBM modell

Annak érdekében, hogy egy gbm-modellt R nyelven lehessen utasítani, telepíteni kell a GBM könyvtárat, és a hívott programból a telepített GBM könyvtárba történő hívást meg kell valósítani. Ezenkívül meg kell határozni a szükséges argumentumokat, a legfontosabb érveket az alábbiakban soroljuk fel,

1. A képlet

2. A válaszváltozók eloszlása

3. Predictor változó

4. Válaszváltozó

A GBM modellekben alkalmazott szokásos disztribúciók a Bernoulli, Poisson stb.

Végül elvárják, hogy az adatok és az n.trees érvek kerüljenek meghatározásra. Alapértelmezés szerint a gbm modell magától értetõdõ 100 fának fog tekinteni, amely jó minõségû hozzávetést adhat a gbm koncertünkhöz.

1. mintakód

install.packages ("gbm")
library(gbm)
GBM <- gbm( formula = response,
distribution = " bernoulli ",
data = train
n.trees = 3000)

Ez a következő lépés: a tényleges adatkészlet fel van osztva a vonat és a teszt adatkészlet felosztására, és ezt a createDataPartition () függvény segítségével érjük el. Ez a fajta felosztás nagyban hasznos lesz a későbbi részben a tesztkészlet kiképzéséhez a kiképzett vonatkészlettel, és ennek tetején, amely meghatározza az eredeti adatokra vonatkozó tényleges előrejelzéseket.

2. mintakód

TRAIN <- read.csv("Train_dd.csv")
set.seed(77820)
intrain <- createDataPartition( y = Train$survived,
list = false )
Train <- Train(inTrain) Train <- Train(-inTrain)

Az ezt követő lépés egy gbm-modell edzése az edzésprofilunk segítségével. Bár az összes további érv pontosan megfelel annak, amit a fenti szakaszokban közöltek. két további érvet említenek: az interakció, a mélység és a zsugorodás.

1. Interakciós mélység határozza meg az egyes fák legnagyobb mélységét

2. Az értelmi arány mérését a zsugorodás segítségével érjük el. itt az alaptanuló fák összes kiegészítő értékét ezen zsugorodás alkalmazásával csökkentjük.

Ezenkívül ez a technika lehetővé teszi a feltételes eredményekkel működő ellenőrző utasítások megjelenítését. A kutatási tevékenységek széles körben használják ezeket a döntési fákat kifejezetten a döntés elemzésében. Ez lehetővé teszi számunkra a cél elérését, és szintén csodált eszköz a gépi tanulásban.

GBM modell kimenet

A GBM modell kimenete részleteket tartalmaz a végrehajtáshoz szükséges fák teljes számáról. Ez segít megjósolni a prediktív változó hatását a modellben, a változó fontossági táblázata és a modell ábrája levezethető a GBM kimenet összegző függvényéből.

Predikt () módszer GBM modell használatával

Tehát az itt szereplő kulcsfontosságú adatok tetején az előrejelzések megfogalmazásához a GBM modell, a többi modellhez hasonlóan, a prediktív módszert is magában foglalja. A használt döntési fák teljes számának számítását szintén manuálisan kell megemlíteni a módszer érvelési szakaszában.

Minta kód

predictions <- predict( object = simpleGBMmodel,
newdata = test,
n.trees = 1)

GBM modell fejlesztések

Fa korlátozások

  • Fontos, hogy a gyenge tanulók képességeket foglaljanak magukban, de gyenge maradjanak.

Súlyozott frissítések

  • Az egymást követő összeadást az egyes fák előrejelzései alapján alkalmazzák
  • Az összes fa ebből az összegből történő adományozásának tömegesnek kell lennie az algoritmus tanulásának lelassításához. ez a folyamat hívás-zsugorodás.

Sztochasztikus gradiensnövelő algoritmus

Ez az egyenértékű profit felhasználható a fák által határolt társulás csökkentésére.

Büntetett gradiensnövelő algoritmus

A paraméterezett fák további korlátozásokkal kitölthetők, a klasszikus döntési fa nem használható gyenge tanulóként. Ehelyett egy olyan regressziós fának nevezett testnevet használunk, amelynek numerikus értékei vannak a levél csomópontjain.

Ajánlott cikkek

Ez egy útmutató a Gradient Boosting Algorithm-hez. Itt tárgyalunk egy bevezetést, a döntési fát, az AdaBoost algoritmust, a képzési GBM modellt, a GBM modell fejlesztéseit, valamint néhány példakódot. A további javasolt cikkeken keresztül további információkat is megtudhat -
  1. Döntési fa algoritmus
  2. Gépi tanulási algoritmusok
  3. XGBoost algoritmus
  4. Adattudomány algoritmusai
  5. C ++ algoritmus | Példák a C ++ algoritmusra
  6. A Poisson regresszió végrehajtása R - ben