Bevezetés a gépi tanulási modellekbe

A gyakorlatban alkalmazott különféle gépi tanulási modellek áttekintése. A meghatározás szerint a gépi tanulási modell egy matematikai konfiguráció, amelyet meghatározott gépi tanulási módszertan alkalmazása után kapunk. Az API-k széles skálájának felhasználásával manapság nagyjából egyértelmű a gépi tanulási modell felépítése, kevesebb kódsorral. Az alkalmazott tudományos szakemberek valódi képessége abban rejlik, hogy a problémamegfogalmazás és a kereszt-validálás alapján a helyes modellt választják meg, ahelyett, hogy az adatokat véletlenszerűen kitalálnák a képzeletbeli algoritmusokba. Ebben a cikkben különféle gépi tanulási modelleket fogunk megvitatni, és azt, hogy miként lehet hatékonyan felhasználni őket a megválaszolt problémák típusa alapján.

Gépi tanulási modellek típusai

A feladat típusa alapján a gépi tanulási modelleket a következő típusokba sorolhatjuk:

  • Osztályozási modellek
  • Regressziós modellek
  • Klaszterek
  • Dimenzió csökkentése
  • Mély tanulás stb.

1) Besorolás

A gépi tanulás szempontjából az osztályozás feladata egy objektum típusának vagy osztályának megjóslása véges számú opción belül. A besorolás kimeneti változója mindig kategorikus változó. Például az e-mail spamként való előrejelzése szokásos bináris osztályozási feladat. Most vázoljuk fel az osztályozási problémák néhány fontos modelljét.

  1. K-Legközelebbi szomszédok algoritmusa - egyszerű, de számítási szempontból kimerítő.
  2. Naiv Bayes - a Bayes tétel alapján.
  3. Logistic Regression - Lineáris modell a bináris osztályozáshoz.
  4. SVM - használható bináris / többosztályú osztályozáshoz.
  5. Döntési fa - ' Ha más ' alapú osztályozó, robusztusabb a túlmutatókhoz képest.
  6. Együttesek - Több gépi tanulási modell kombinációja, a jobb eredmények elérése érdekében.

2) Regresszió

A gépen a regresszió tanulása olyan problémák halmaza, ahol a kimeneti változó folyamatos értékeket vehet fel. Például a légitársaság árának előrejelzése standard regressziós feladatnak tekinthető. Jegyezzük fel néhány, a gyakorlatban alkalmazott regressziós modellt.

  1. Lineáris regresszió - A regressziós feladat legegyszerűbb alapmodellje csak akkor működik, ha az adatok lineárisan elválaszthatók, és multicollinearitás nagyon kevés vagy nincs jelen.
  2. Lasso regresszió - Lineáris regresszió L2 normalizálással.
  3. Ridge regresszió - Lineáris regresszió L1 normalizálással.
  4. SVM regresszió
  5. Döntési fa regresszió stb.

3) Klaszterezés

Egyszerű szavakkal: a csoportosítás a hasonló objektumok csoportosítása. A gépi tanulási modellek segítenek a hasonló objektumok automatikus azonosításában kézi beavatkozás nélkül. Nem hozhatunk létre hatékony, felügyelt gépi tanulási modelleket (azokat a modelleket, amelyeket manuálisan kidolgozott vagy címkézett adatokkal kell kiképezni) homogén adatok nélkül. A klaszterezés segít okosabb módon ezt elérni. Az alábbiakban bemutatjuk a széles körben használt klaszterezési modelleket:

  1. K jelentése - egyszerű, de nagyon eltérő.
  2. K jelentése ++ - K jelentése módosított változata.
  3. K medoidok.
  4. Agglomerációs klaszterezés - Hierarchikus klaszterezési modell.
  5. DBSCAN - sűrűség alapú klaszterezési algoritmus stb.

4) A dimenzió csökkentése

A dimenziósság a prediktív változók száma, amellyel a valós világ adatsorokban a független változó vagy a target.often megjósolására használják a változók száma túl magas. A túl sok változó a túllépés átokhoz vezet a modellekhez is. A gyakorlatban a nagyszámú változó között nem minden változó járul hozzá egyformán a cél eléréséhez, és sok esetben valóban megőrizhetjük az eltéréseket kevesebb változóval. Soroljuk fel a dimenzió csökkentésének néhány általánosan használt modelljét.

  1. PCA - Nagyszámú előrejelzőből kevesebb új változót hoz létre. Az új változók függetlenek egymástól, de kevésbé értelmezhetők.
  2. TSNE - Biztosítja a magasabb dimenziós adatpontok alsó dimenziós beágyazását.
  3. SVD - A szinguláris érték bomlása a mátrix kisebb részekre bontására szolgál, a hatékony számítás érdekében.

5) Mély tanulás

A mély tanulás a gépi tanulás részhalmaza, amely idegi hálózatokkal foglalkozik. Az ideghálózatok architektúrája alapján soroljuk fel a fontos mély tanulási modelleket:

  1. Többrétegű perceptron
  2. Konvolúciós neurális hálózatok
  3. Ismétlődő neurális hálózatok
  4. Boltzmann gép
  5. Autoencoderek stb.

Melyik modell a legjobb?

Fentünk ötleteket vett fel sok gépi tanulási modellről. Most egy nyilvánvaló kérdés jut eszünkbe: "Melyik a legjobb modell köztük?" Attól függ, hogy milyen probléma merül fel a kezelt problémán, és más kapcsolódó jellemzőktől, mint például a kiugró értékektől, a rendelkezésre álló adatok mennyiségétől, az adatok minőségétől, a szolgáltatás tervezésétől stb. fokozatosan a megfelelő paraméterek hangolása és kereszt-validálás útján. Az adattudomány világában van közmondás: „A kereszt-érvényesítés megbízhatóbb, mint a domain ismerete”.

Hogyan készítsünk modellt?

Lássuk, hogyan lehet felépíteni egy egyszerű logisztikus regressziós modellt a python Scikit Learn könyvtára segítségével. Az egyszerűség kedvéért feltételezzük, hogy a probléma standard osztályozási modell, és a „vonat.csv” a vonat, a „test.csv” pedig a vonat és a tesztadatok.

Következtetés

Ebben a cikkben megvitattuk a gyakorlati célokra használt fontos gépi tanulási modelleket és azt, hogyan lehet egy egyszerű gépi tanulási modellt felépíteni a pythonban. Egy adott modellhez megfelelő modell kiválasztása nagyon fontos a gépi tanulási feladat megfelelő eredményének eléréséhez. A különféle modellek teljesítményének összehasonlítása érdekében meghatározási kritériumokat vagy KPI-ket határoznak meg az egyes üzleti problémákra, és a legjobb modellt választják a termeléshez a statisztikai teljesítmény-ellenőrzés alkalmazása után.

Ajánlott cikkek

Ez egy útmutató a gépi tanulási modellekhez. Itt tárgyaljuk a gépi tanulási modellek öt legfontosabb típusát és annak meghatározását. A további javasolt cikkeken keresztül további információkat is megtudhat -

  1. Gépi tanulási módszerek
  2. Gépi tanulás típusai
  3. Gépi tanulási algoritmusok
  4. Mi a gépi tanulás?
  5. Hiperparaméter gépi tanulás
  6. KPI a Power BI-ben
  7. Hierarchikus klaszterezési algoritmus
  8. Hierarchikus csoportosítás | Agglomerációs és megosztó csoportosulás

Kategória: