Bevezetés a K-eszköz klaszterezési algoritmusba?

A K- eszközök csoportosítása a nem felügyelt tanulási algoritmushoz tartozik. Ezt akkor használják, ha az adatokat nem csoportokban vagy kategóriákban definiálják, azaz nem jelölik az adatokat. Ennek a klaszterezési algoritmusnak a célja az adatok csoportjainak keresése és megtalálása, ahol a K változó képviseli a csoportok számát.

A K- megértése azt jelenti, hogy a klaszterezési algoritmust

Ez az algoritmus egy iteratív algoritmus, amely az adatkészletet jellemzői szerint osztályozza K számú előre definiált, nem átfedő, különálló klaszterbe vagy alcsoportba. Ez a klaszterek adatpontjait a lehető legjobban hasonlítja, és megpróbálja a klasztereket a lehető legnagyobb mértékben megőrizni. Az adatpontokat egy klaszterre osztja, ha a klaszter középpontja és az adatpontok közötti négyzet távolságának összege legalább olyan, ahol a klaszter középpontja a fürtben lévő adatpontok számtani átlaga. A klaszter kisebb változása hasonló vagy homogén adatpontokat eredményez a fürtön belül.

Hogyan működik a K-eszköz klaszterezési algoritmus?

A K- azt jelenti, hogy a klaszterezési algoritmusnak a következő bemenetekre van szüksége:

  • K = alcsoportok vagy klaszterek száma
  • Minta vagy edzőkészlet = (x 1, x 2, x 3, ……… x n )

Tegyük fel, hogy van egy adatkészlet, amely nem címkézett, és klaszterekre kell osztanunk.

Most meg kell találnunk a klaszterek számát. Ezt két módszerrel lehet megtenni:

  • Könyök módszer.
  • Cél módszer.

Beszéljünk róluk röviden:

Könyök módszer

Ebben a módszerben egy görbe húzódik a „négyzetek összegén belül” (WSS) és a klaszterek száma között. Az ábrázolt görbe egy emberi karra hasonlít. Ezt nevezzük könyök módszernek, mert a könyöknek a görbe pontja adja meg az optimális klaszterek számát. A grafikonon vagy a görbén a könyökpont után a WSS értéke nagyon lassan változik, így a könyökpontot figyelembe kell venni a klaszterek számának végső értékének megadásához.

Cél-alapú

Ebben a módszerben az adatokat különféle mérőszámok alapján osztják fel, majd megítélik, hogy mennyire teljesítettek jól ebben az esetben. Például, az ingek elrendezését a bevásárlóközpontban a férfi ruházat-osztályon a méretek szempontjából kell meghatározni. Meg lehet csinálni az ár és a márkák alapján is. A legalkalmasabb a klaszterek optimális számának, azaz a K értékének a megadása.

Most térjünk vissza a megadott adatkészlethez. A fenti módszerek bármelyikével kiszámolhatjuk a klaszterek számát, azaz a K értékét.

Hogyan lehet használni a fenti módszereket?

Most nézzük meg a végrehajtási folyamatot:

1. lépés: Inicializálás

Először inicializáljon minden olyan véletlenszerű pontot, amelyet a klaszter központjának hívnak. Az inicializálás során ügyeljen arra, hogy a klaszter centridjainak kevesebbnek kell lenniük, mint az edzési adatpontok száma. Ez az algoritmus iteratív algoritmus, ezért a következő két lépést iteratívan hajtjuk végre.

2. lépés: Klaszter hozzárendelés

Az inicializálás után az összes adatpontot átjutják, és kiszámítják az összes központ és az adatpontok közötti távolságot. A klaszterek kialakulása a centridától mért minimális távolságtól függ. Ebben a példában az adatok két klaszterre oszlanak.

3. lépés: Mozgó centroid

Mivel a fenti lépésben kialakult klaszterek nem vannak optimalizálva, ezért optimalizált klasztereket kell létrehoznunk. Ehhez iteratíven kell áthelyezni a centridákat egy új helyre. Vegye ki egy fürt adatpontjait, kiszámolja az átlagot, majd mozgassa a fürt központját az új helyre. Ismételje meg ugyanazt a lépést az összes többi klaszter esetében.

4. lépés: Optimalizálás

A fenti két lépést iteratív módon hajtjuk végre, amíg a centridok nem mozognak, azaz már nem változtatják meg pozíciójukat, és statikussá válnak. Miután ez megtörtént, a k-mean algoritmust konvergenciának nevezik.

5. lépés: Konvergencia

Most ez az algoritmus konvergált, és különálló klaszterek alakulnak ki és jól láthatóak. Ez az algoritmus eltérő eredményeket adhat attól függően, hogy a klasztereket miként inicializálták az első lépésben.

A K-eszköz klaszterezési algoritmus alkalmazása

  • Piaci szegmentáció
  • Dokumentumok csoportosítása
  • Kép szegmentálása
  • Kép tömörítése
  • Vektor kvantálás
  • Klaszteranalízis
  • Feature tanulás vagy szótár tanulás
  • A bűnözésre hajlamos területek azonosítása
  • Biztosítási csalások felderítése
  • Tömegközlekedési adatok elemzése
  • Az informatikai eszközök csoportosítása
  • Ügyfélszegmentáció
  • A rákos adatok azonosítása
  • Használt keresőkben
  • Kábítószer-tevékenység előrejelzése

A K-eszköz klaszterezési algoritmus előnyei

  • Gyors
  • Erős
  • Könnyen érthető
  • Viszonylag hatékony
  • Ha az adatkészletek különböznek egymástól, akkor a legjobb eredményt nyújtja
  • Szűkebb klasztereket állíthat elő
  • Amikor a centridákat újraszámolják, a klaszter megváltozik.
  • Rugalmas
  • Könnyen értelmezhető
  • Jobb számítási költség
  • Fokozza a pontosságot
  • Gömb alakú klasztereknél jobban működik

A K-eszköz csoportosítási algoritmus hátrányai

  • A klaszterközpontok számának előzetes meghatározására van szükség
  • Ha két erősen átfedő adat van, akkor nem lehet megkülönböztetni, és nem lehet megmondani, hogy két klaszter létezik
  • Az adatok eltérő ábrázolása esetén az elért eredmények szintén eltérőek
  • Az euklideszi távolság egyenlőtlenül súlyozhatja a tényezőket
  • Ez megadja a négyzetes hibafüggvény helyi optimáját
  • A centridok véletlenszerű kiválasztása nem eredményez eredményes eredményeket
  • Csak akkor használható, ha a jelentése meghatározva van
  • Nem lehet kezelni a külső értékeket és a zajos adatokat
  • Ne használja a nemlineáris adatkészletet
  • Hiányzik az állag
  • Érzékeny a skálara
  • Ha nagyon nagy adathalmazok találkoznak, akkor a számítógép összeomolhat.
  • Jóslás kérdései

Ajánlott cikkek

Ez egy útmutató a K-Eszköz klaszterezési algoritmushoz. Itt tárgyaltuk a K-Eszköz klaszterezési algoritmus működését, alkalmazását, előnyeit és hátrányait. A további javasolt cikkeken keresztül további információkat is megtudhat -

  1. Mi az idegháló?
  2. Mi az adatbányászat? | Az adatbányászat szerepe
  3. Adatbányászati ​​interjú kérdése
  4. Gépi tanulás vs neurális hálózat
  5. Fürtözés a gépi tanulásban

Kategória: