Bevezetés a gépi tanulási modellekbe
A gyakorlatban alkalmazott különféle gépi tanulási modellek áttekintése. A meghatározás szerint a gépi tanulási modell egy matematikai konfiguráció, amelyet meghatározott gépi tanulási módszertan alkalmazása után kapunk. Az API-k széles skálájának felhasználásával manapság nagyjából egyértelmű a gépi tanulási modell felépítése, kevesebb kódsorral. Az alkalmazott tudományos szakemberek valódi képessége abban rejlik, hogy a problémamegfogalmazás és a kereszt-validálás alapján a helyes modellt választják meg, ahelyett, hogy az adatokat véletlenszerűen kitalálnák a képzeletbeli algoritmusokba. Ebben a cikkben különféle gépi tanulási modelleket fogunk megvitatni, és azt, hogy miként lehet hatékonyan felhasználni őket a megválaszolt problémák típusa alapján.
Gépi tanulási modellek típusai
A feladat típusa alapján a gépi tanulási modelleket a következő típusokba sorolhatjuk:
- Osztályozási modellek
- Regressziós modellek
- Klaszterek
- Dimenzió csökkentése
- Mély tanulás stb.
1) Besorolás
A gépi tanulás szempontjából az osztályozás feladata egy objektum típusának vagy osztályának megjóslása véges számú opción belül. A besorolás kimeneti változója mindig kategorikus változó. Például az e-mail spamként való előrejelzése szokásos bináris osztályozási feladat. Most vázoljuk fel az osztályozási problémák néhány fontos modelljét.
- K-Legközelebbi szomszédok algoritmusa - egyszerű, de számítási szempontból kimerítő.
- Naiv Bayes - a Bayes tétel alapján.
- Logistic Regression - Lineáris modell a bináris osztályozáshoz.
- SVM - használható bináris / többosztályú osztályozáshoz.
- Döntési fa - ' Ha más ' alapú osztályozó, robusztusabb a túlmutatókhoz képest.
- Együttesek - Több gépi tanulási modell kombinációja, a jobb eredmények elérése érdekében.
2) Regresszió
A gépen a regresszió tanulása olyan problémák halmaza, ahol a kimeneti változó folyamatos értékeket vehet fel. Például a légitársaság árának előrejelzése standard regressziós feladatnak tekinthető. Jegyezzük fel néhány, a gyakorlatban alkalmazott regressziós modellt.
- Lineáris regresszió - A regressziós feladat legegyszerűbb alapmodellje csak akkor működik, ha az adatok lineárisan elválaszthatók, és multicollinearitás nagyon kevés vagy nincs jelen.
- Lasso regresszió - Lineáris regresszió L2 normalizálással.
- Ridge regresszió - Lineáris regresszió L1 normalizálással.
- SVM regresszió
- Döntési fa regresszió stb.
3) Klaszterezés
Egyszerű szavakkal: a csoportosítás a hasonló objektumok csoportosítása. A gépi tanulási modellek segítenek a hasonló objektumok automatikus azonosításában kézi beavatkozás nélkül. Nem hozhatunk létre hatékony, felügyelt gépi tanulási modelleket (azokat a modelleket, amelyeket manuálisan kidolgozott vagy címkézett adatokkal kell kiképezni) homogén adatok nélkül. A klaszterezés segít okosabb módon ezt elérni. Az alábbiakban bemutatjuk a széles körben használt klaszterezési modelleket:
- K jelentése - egyszerű, de nagyon eltérő.
- K jelentése ++ - K jelentése módosított változata.
- K medoidok.
- Agglomerációs klaszterezés - Hierarchikus klaszterezési modell.
- DBSCAN - sűrűség alapú klaszterezési algoritmus stb.
4) A dimenzió csökkentése
A dimenziósság a prediktív változók száma, amellyel a valós világ adatsorokban a független változó vagy a target.often megjósolására használják a változók száma túl magas. A túl sok változó a túllépés átokhoz vezet a modellekhez is. A gyakorlatban a nagyszámú változó között nem minden változó járul hozzá egyformán a cél eléréséhez, és sok esetben valóban megőrizhetjük az eltéréseket kevesebb változóval. Soroljuk fel a dimenzió csökkentésének néhány általánosan használt modelljét.
- PCA - Nagyszámú előrejelzőből kevesebb új változót hoz létre. Az új változók függetlenek egymástól, de kevésbé értelmezhetők.
- TSNE - Biztosítja a magasabb dimenziós adatpontok alsó dimenziós beágyazását.
- SVD - A szinguláris érték bomlása a mátrix kisebb részekre bontására szolgál, a hatékony számítás érdekében.
5) Mély tanulás
A mély tanulás a gépi tanulás részhalmaza, amely idegi hálózatokkal foglalkozik. Az ideghálózatok architektúrája alapján soroljuk fel a fontos mély tanulási modelleket:
- Többrétegű perceptron
- Konvolúciós neurális hálózatok
- Ismétlődő neurális hálózatok
- Boltzmann gép
- Autoencoderek stb.
Melyik modell a legjobb?
Fentünk ötleteket vett fel sok gépi tanulási modellről. Most egy nyilvánvaló kérdés jut eszünkbe: "Melyik a legjobb modell köztük?" Attól függ, hogy milyen probléma merül fel a kezelt problémán, és más kapcsolódó jellemzőktől, mint például a kiugró értékektől, a rendelkezésre álló adatok mennyiségétől, az adatok minőségétől, a szolgáltatás tervezésétől stb. fokozatosan a megfelelő paraméterek hangolása és kereszt-validálás útján. Az adattudomány világában van közmondás: „A kereszt-érvényesítés megbízhatóbb, mint a domain ismerete”.
Hogyan készítsünk modellt?
Lássuk, hogyan lehet felépíteni egy egyszerű logisztikus regressziós modellt a python Scikit Learn könyvtára segítségével. Az egyszerűség kedvéért feltételezzük, hogy a probléma standard osztályozási modell, és a „vonat.csv” a vonat, a „test.csv” pedig a vonat és a tesztadatok.
Következtetés
Ebben a cikkben megvitattuk a gyakorlati célokra használt fontos gépi tanulási modelleket és azt, hogyan lehet egy egyszerű gépi tanulási modellt felépíteni a pythonban. Egy adott modellhez megfelelő modell kiválasztása nagyon fontos a gépi tanulási feladat megfelelő eredményének eléréséhez. A különféle modellek teljesítményének összehasonlítása érdekében meghatározási kritériumokat vagy KPI-ket határoznak meg az egyes üzleti problémákra, és a legjobb modellt választják a termeléshez a statisztikai teljesítmény-ellenőrzés alkalmazása után.
Ajánlott cikkek
Ez egy útmutató a gépi tanulási modellekhez. Itt tárgyaljuk a gépi tanulási modellek öt legfontosabb típusát és annak meghatározását. A további javasolt cikkeken keresztül további információkat is megtudhat -
- Gépi tanulási módszerek
- Gépi tanulás típusai
- Gépi tanulási algoritmusok
- Mi a gépi tanulás?
- Hiperparaméter gépi tanulás
- KPI a Power BI-ben
- Hierarchikus klaszterezési algoritmus
- Hierarchikus csoportosítás | Agglomerációs és megosztó csoportosulás