Bevezetés a mély tanulási algoritmusokba
A mély tanulás egy lépés ahhoz, hogy közelebb kerüljünk a mesterséges intelligenciához, amely olyan döntéseket hozhat, mint az emberi agy, azaz képesek próbálkozással és hibával tanulni, akárcsak az emberek. Az emberi agyban több milliárd neuron található (körülbelül 86 milliárd; forrás: Wikipedia). A mesterséges idegsejteknél a mély tanulás az emberi elme utánozását is segíti. Az információk feldolgozására és a döntés meghozatalára mesterséges neurális hálózatokon keresztül létezik néhány algoritmus, úgynevezett mély tanulási algoritmus. Az algoritmusok minden rétegben fokozatosan, azaz; további értéket adnak a következő réteg funkciói. A mély tanulási modell túlterhelhet, ha az adatok kicsik vagy hiányosak, vagy túl egyszerűek. A mély tanulási algoritmusok akkor hatékonyak, ha hatalmas az adat.
Mély tanulási algoritmusok
A mély tanulási modell létrehozásához több algoritmust kell írni, össze kell keverni, és létre kell hozni a neuronok hálózatát. A mély tanulás magas számítási költségeket jelent. A mély tanulási modellek támogatására léteznek olyan mély tanulási platformok, mint a Tensor flow, a Py-Torch, a Chainer, a Keras, stb. A mély tanulás során megpróbáltuk az emberi ideghálózatot replikálni egy mesterséges neurális hálózattal, az emberi neuront perceptronnak nevezzük a mély tanulási modell. Összekapcsoljuk ezeket az perceptron egységeket egy neurális hálózat létrehozása céljából, három részből áll:
- Bemeneti réteg
- Rejtett rétegek
- Kimeneti réteg
Az perceptronnak bemeneti csomópontjai vannak (dendritek az emberi agyban), egy működési funkcióval kis döntési és kimeneti csomópontokat hoznak létre (az agy axonja). Látjuk, hogyan működik egy perceptron, és összekapcsolva mély tanulási modellt hoznak létre. A bemeneti információkhoz (a bemeneti változók / jellemzők számához) hozzárendelnek némi súlyt, és továbbadják a működési funkcióhoz. Az indító funkció dönt és a kimenetet küldi. Ez az perceptron kimenet más neuronokba kerül. Miután a tételt feldolgozták, minden neuronon kiszámítják a visszatérési hibát, költségfüggvény / kereszt-entrópia segítségével. Ilyen módon a bemeneti súlyokat hozzárendeljük, és az egész folyamat addig folytatódik, amíg a kereszt-entrópia kielégíti a feltételt.
Különböző működési funkciókkal rendelkezünk, mint például a Sigmoid funkciók, a hiperbolikus érintő funkció, az egyenirányított lineáris egység (ReLU), hogy egy kis döntést meghozzunk. A mély tanulási modellnek hatalmas mennyiségű adat szükséges a jó modell felépítéséhez. Általában egy 3-nál több rejtett réteggel rendelkező modellt mély idegi hálózatnak tekintünk. Alapvetően a mély tanulás egy olyan neuronkészlet, amelynek paramétereinek száma minden réteghez meg van határozva. A Deep Learning modell létrehozásához a népszerű architektúrák az RNN, CNN stb.
A mély tanulási algoritmusok építészeti módszerei
Ennek az architektúrának a felépítéséhez a következő algoritmusokat kell használni:
1. Hátsó szaporodás
Ebben az algoritmusban kiszámoljuk a részleges származékokat. Általában a gradiens leszállási módszer az optimalizáláshoz, a származékokat (gradienseket) minden iterációnál kiszámítják. A mély tanulásban a funkciók nem egyszerűek, hanem a különböző funkciók összetételét jelentik. Ebben az esetben nehéz kiszámítani a színátmeneteket, ezért közelítő differenciálást alkalmazunk a derivációk kiszámításához. Minél több a paraméter, annál drágább lesz a hozzávetőleges differenciálás.
2. Sztochasztikus színátmenetel
A Gradient leszálláskor a cél globális minimumok vagy optimális megoldás megtalálása. De ahhoz, hogy ezt elérjük, figyelembe kell vennünk a helyi minimum megoldásokat is (nem kívánatos). Ha az objektív függvény konvex függvény, könnyű megtalálni a globális minimumokat. A függvény kezdeti értéke és a tanulási sebesség a globális minimumok meghatározására szolgáló paraméterek. Ez könnyen megérthető, ha figyelembe vesszük a folyót, amely a hegy tetejéről jön, és a lábát (globális minimumok) keresi. De egyébként vannak olyan emelkedések és hullámok (helyi minimumok), amelyeket el kell kerülni. A folyó kiindulási pontja és a sebesség (a mi esetünkben a kezdeti érték és a tanulási arány) döntő tényezők a globális minimumok megállapításához.
3. Tanulási sebesség
A tanulási arány olyan, mint a folyó sebessége, csökkentheti az edzési időt és növelheti a teljesítményt. Általánosságban elmondható, hogy bármilyen technika / sport megtanulásakor a tanulási ráta viszonylag magas, mint a végén, amikor elsajátítani kell. A közbenső szakasz után a tanulás lassú lesz, a hangsúly a finomításra kerül. Ugyanez vonatkozik a mély tanulásra is. A túl nagy változásokkal szemben a magasabb tanulási arány és a későbbi finomítás érdekében a tanulási arány lassú csökkentése révén oldódik meg.
4. A tétel normalizálása
A súlyos tanulás (véletlenszerűen választott) és a tanulás kezdeti értékében a sebességet egy mini-tételhez határozzák meg. Kezdetben sok lenne a túlmutatásoknak, és a visszapótlás során ezeket a kiugró értékeket kompenzálni kell, hogy kiszámítsák a súlyokat a kimenet eléréséhez. Ez a kompenzáció extra korszakot eredményez. Tehát annak elkerülése érdekében a kötegelt normalizálást használjuk.
5. Dobja ki
A mély tanulás során általában a túlfűtés problémájával szembesülünk. A nagy hálózatokban, több paraméterrel történő túlteljesítés megnehezíti a tesztadatok előrejelzését. Tehát annak elkerülése érdekében a kimaradás módszerét alkalmazzuk, amely véletlen egységeket ejti az edzés során, különféle „vékonyabb hálózatok” létrehozásával. Ezeknek a vékonyabb hálózatoknak a tesztelésekor átlagolják az előrejelzéseket, ami segít elkerülni a túlcsatlakozást.
6. Szavak szavak
Folyamatos szavakkal használjuk a következő szó előrejelzésére. Például, az e-mail írásban látjuk, hogy a mondat kitöltéséhez szükséges automatikus javaslat az NLP része. Ez sok mondat figyelembevételével történik, és a rögzített szavakat körülvevő szavakkal együtt. Ezeket a speciális szavakat és a környező szavakat az ideghálózat táplálja. Az edzési modell után előre tudja megjósolni az adott szót a környező szavak alapján.
7. Hosszú távú memória
Az LSTM nagyon hasznos a szekvencia-előrejelzési problémákban, például a nyelvi fordításban, az eladások előrejelzésében és a részvényár megállapításában. Az LSTM előnyei vannak más technikákkal szemben, mivel képes figyelembe venni a korábbi adatokat. Az LSTM módosítja a sejtállapot-mechanizmust. Emlékszik, hogy elfelejti a dolgokat. Az LSTM 3 fő szempontja különbözteti meg a többi mély tanulási technikától. Az első az, amikor a neuronnak bemenettel kell rendelkeznie, a második az, hogy mikor emlékszik a korábbi adatokra, és mit kell elfelejteni, a harmadik az, amikor át kell adni a kimenetet.
Következtetés
A mély tanulási modell egy lépés az emberi elme replikációja felé. A biológiai idegsejtek helyett a mély tanulás mesterséges idegi hálózatot használ. A mély tanulás magas számítási költségekkel jár, amelyeket csökkenteni lehet olyan mély tanulási keretrendszerek alkalmazásával, mint a Tensor flow és a Py-Torch stb. Az RNN, CNN építészeti módszerek a mély tanulási modellekhez. Az ezen architektúrákban alkalmazott különféle mély tanulási algoritmusokat tárgyaljuk ebben a cikkben.
Ajánlott cikkek
Ez egy útmutató a mély tanulási algoritmusokhoz. Itt a mély tanulási algoritmusok és rétegek építészeti módszereit tárgyaljuk. A további javasolt cikkeken keresztül további információkat is megtudhat -
- Bevezetés a gépi tanulási algoritmusokba
- A gépi tanulás 14 legfontosabb alkalmazása
- Mesterséges intelligencia vs gépi tanulás vs mély tanulás
- A 13 legnépszerűbb, mélyreható tanulással kapcsolatos interjúkérdés és válasz