Bevezetés a besorolási algoritmusokba

A besorolási algoritmusokról szóló cikk áttekintést nyújt az adatbányászati ​​technikákban általánosan alkalmazott különböző osztályozási módszerekről, különféle elvekkel. A besorolás egy olyan módszer, amely az adatokat kategorizálja külön osztályokba, és az egyes osztályokhoz címkét rendelnek. A besorolás fő célja az új adatok elindításához szükséges osztály azonosítása az edzéskészlet elemzésével, a megfelelő határok látásával. Általánosságban a célosztály előrejelzését és a fenti folyamatot osztályozásnak nevezzük.

Például a kórház vezetősége rögzíti a beteg nevét, címét, életkorát, korábbi kórtörténetét a diagnosztizálásukig, ez segít a betegek osztályozásában. Két szakaszra bonthatók: tanulási szakaszra és értékelési szakaszra. A tanulási szakasz modellezi a megközelítési alapot képzési adatokkal, míg az értékelési szakasz előrejelzi az adott adatok kimenetét. Alkalmazásaikat az e-mail spamben, a bankhitel-előrejelzésben, a beszédfelismerésben, a hangulat-elemzésben találtuk meg. A technika magában foglalja az f matematikai függvényt X bemenettel és Y kimenettel.

Magyarázza el részletesen a besorolási algoritmusokat

Az osztályozás strukturált és strukturálatlan adatokra is elvégezhető. Az osztályozás kategóriákba sorolható

  1. Naiv Bayes osztályozó
  2. Döntési fák
  3. Támogatja a vektorgépet
  4. Véletlenszerű erdő
  5. K- Legközelebbi szomszédok

1) Naiv Bayes osztályozó

Ez egy Bayes-féle tétel alapú algoritmus, az egyik statisztikai osztályozás, és kevés mennyiségű képzési adatot igényel a paraméterek, más néven valószínűségi osztályozók néven történő becsléséhez. A leggyorsabb osztályozónak tekintik, erősen skálázható és diszkrét és folyamatos adatokat kezel. Ez az algoritmus előrejelzést készített valós időben. Különböző típusú naiv osztályozók léteznek: Multinomial Naiv Bayes, Bernoulli Naiv Bayes, Gauss naiv.

A Bayes-féle osztályozást a hátsó valószínűségekkel a

Ahol A, B események, P (A | B) - hátsó valószínűségek.

Ha két érték egymástól független, akkor

P (A, B) = P (A) P (B)

A naiv Bayes építhető a python könyvtár segítségével. A naiv prediktorok függetlenek, bár ajánlási rendszerekben használják őket. Számos valós idejű alkalmazásban használják, és tudatosan használják a dokumentumok osztályozásában.

Előnyök:

Előnyök, ha nagyon kevesebb számítási teljesítményt igényelnek, feltételezve a több osztályba sorolt ​​előrejelzési problémákat, és pontosan működnek nagy adatkészleteknél.

Hátrány:

Ennek az osztályozónak a fő hátránya, hogy nulla valószínűséget fognak kiosztani. És vannak olyan tulajdonságaik, amelyekkel függetlenek egymástól.

2) Döntési fa

Ez egy felülről lefelé mutató megközelítési modell, amelynek folyamatábrája a nagydimenziós adatokat kezeli. Az eredményeket az adott bemeneti változó alapján becsüljük meg. A következő elemekből álló döntési fa: Gyökér, sok csomópont, ág, levél. A gyökércsomópont a partíciót az osztály attribútumértéke alapján hajtja végre, a belső csomópont egy attribútumot vesz fel a további osztályozáshoz, az ágak döntési szabályt hoznak a csomópontok levélcsomópontokra történő felosztására, végül a levélcsomók adják a végső eredményt. A döntési fa időbeli összetettsége a rekordok számától, a képzési adatok jellemzőitől függ. Ha a döntési fa túl hosszú, nehéz elérni a kívánt eredményt.

Előny: A prediktív elemzéshez alkalmazzák a problémák megoldására, és a napi tevékenységek során használják a cél kiválasztására a döntési elemzés alapján. A forrásadatok alapján automatikusan épít egy modellt. A legjobb a hiányzó értékek kezelésében.

Hátrány: A fa mérete ellenőrizhetetlen, amíg nincs bizonyos megállási kritériuma. Hierarchikus szerkezetük miatt a fa instabil.

3) A Vector Machine támogatása

Ez az algoritmus létfontosságú szerepet játszik az osztályozási problémákban, és a legnépszerűbb a gépi tanulás által felügyelt algoritmusok. Ez egy fontos eszköz, amelyet a kutató és az adattudós használ. Ez az SVM nagyon egyszerű, folyamata egy hiper sík megtalálása egy N-dimenziós térbeli adatpontokban. A hiper sík döntési határok, amelyek osztályozzák az adatpontokat. Mindez a vektor közelebb esik a hipersíkhoz, maximalizálva az osztályozó margóját. Ha a margó maximális, akkor a legalacsonyabb az általánosítási hiba. Végrehajtásuk a kerneltel python használatával végezhető el, néhány képzési adatkészlettel. Az SVM fő célja egy objektum egy adott osztályozásba történő kiképzése. Az SVM nem korlátozódik arra, hogy lineáris osztályozóvá váljon. Az SVM-et jobban részesítik előnyben, mint bármely más osztályozási modellt a kernel funkciójuk miatt, amely javítja a számítási hatékonyságot.

Előny: Nagyon előnyösek a kevesebb számítási teljesítmény és a hatékony pontosság miatt. Hatékony nagyméretű térben, jó memóriahatékonyság.

Hátrány: A sebesség, a kernel és a méret korlátozása

4) Véletlenszerű erdő

Ez egy hatalmas gépi tanulási algoritmus, amely az Ensemble tanulási megközelítésén alapszik. A Random forest alapvető építőeleme a prediktív modellek felépítéséhez használt döntési fa. A munkabemutatás magában foglalja egy véletlenszerű döntésű fák erdőjének létrehozását, és a metszés folyamatát egy jobboldali eredmény elérése érdekében megállító hasítás beállításával hajtják végre. A véletlenszerű erdőt a csomagolásnak nevezett technikával valósítják meg a döntéshozatalhoz. Ez a zsákolás megakadályozza az adatok túlzott illeszkedését azáltal, hogy csökkenti az torzítást, hasonlóan ez a véletlenszerűség jobb pontosságot eredményezhet. A végső előrejelzést sok döntési fa átlaga veszi át, azaz a gyakori előrejelzések. A véletlenszerű erdő számos felhasználási esetet foglal magában, például tőzsdei előrejelzéseket, csalások felderítését, hírek előrejelzéseit.

Előnyök:

  • Nem igényel nagy adatfeldolgozást az adatkészletek feldolgozásához, és nagyon egyszerű modellt kell készíteni. Nagyobb pontosságot nyújt a prediktív problémák megoldásában.
  • Jól működik a hiányzó értékek kezelésében, és automatikusan felismeri a külső értékeket.

Hátrány:

  • Nagy számítási költségeket és nagy memóriát igényel.
  • Sokkal több időt igényel.

5) K- Legközelebbi szomszédok

Itt a K-NN algoritmust tárgyaljuk a CART felügyelt tanulásával. Használják a K pozitív kis egész számot; egy objektumot az osztályhoz rendelnek a szomszédok alapján, vagy azt mondjuk, hogy egy csoportot rendelünk hozzá, megfigyelve, hogy melyik csoportban fekszik a szomszéd. Ezt az Euklide-i távolság és a nyers erő határozza meg. K értéke megtalálható a hangolási folyamat segítségével. A KNN nem szívesen tanul semmilyen modellt új adatkészlet kiképzéséhez és az normalizáláshoz az adatok átméretezéséhez.

Előny: Hatékony eredményeket hoz, ha hatalmas a képzési adatok.

Hátrány: A legnagyobb probléma az, hogy ha a változó kicsi, akkor jól működik. Másodszor, a K tényező kiválasztása a besorolás során.

Következtetés

Összegezve, megvizsgáltuk a különféle osztályozási algoritmusok képességeit, amelyek továbbra is hatékony eszközként szolgálnak a szolgáltatástervezésben, a kép osztályozásban, amely nagyszerű forrást jelent a gépi tanuláshoz. A besorolási algoritmusok hatékony algoritmusok, amelyek megoldják a nehéz problémákat.

Ajánlott cikkek

Ez egy útmutató a gépi tanulás osztályozási algoritmusaihoz. Itt megvitatjuk, hogy az osztályozás strukturált és strukturálatlan adatokra is végrehajtható. Megnézheti más javasolt cikkeinket -

  1. Útválasztási algoritmusok
  2. Klaszterezési algoritmus
  3. Adatbányászati ​​folyamat
  4. Gépi tanulási algoritmusok
  5. Az együttesek tanulásának leggyakrabban használt technikái
  6. C ++ algoritmus | Példák a C ++ algoritmusra

Kategória: