Bevezetés a K-eszköz klaszterezési algoritmusba?
A K- eszközök csoportosítása a nem felügyelt tanulási algoritmushoz tartozik. Ezt akkor használják, ha az adatokat nem csoportokban vagy kategóriákban definiálják, azaz nem jelölik az adatokat. Ennek a klaszterezési algoritmusnak a célja az adatok csoportjainak keresése és megtalálása, ahol a K változó képviseli a csoportok számát.
A K- megértése azt jelenti, hogy a klaszterezési algoritmust
Ez az algoritmus egy iteratív algoritmus, amely az adatkészletet jellemzői szerint osztályozza K számú előre definiált, nem átfedő, különálló klaszterbe vagy alcsoportba. Ez a klaszterek adatpontjait a lehető legjobban hasonlítja, és megpróbálja a klasztereket a lehető legnagyobb mértékben megőrizni. Az adatpontokat egy klaszterre osztja, ha a klaszter középpontja és az adatpontok közötti négyzet távolságának összege legalább olyan, ahol a klaszter középpontja a fürtben lévő adatpontok számtani átlaga. A klaszter kisebb változása hasonló vagy homogén adatpontokat eredményez a fürtön belül.
Hogyan működik a K-eszköz klaszterezési algoritmus?
A K- azt jelenti, hogy a klaszterezési algoritmusnak a következő bemenetekre van szüksége:
- K = alcsoportok vagy klaszterek száma
- Minta vagy edzőkészlet = (x 1, x 2, x 3, ……… x n )
Tegyük fel, hogy van egy adatkészlet, amely nem címkézett, és klaszterekre kell osztanunk.
Most meg kell találnunk a klaszterek számát. Ezt két módszerrel lehet megtenni:
- Könyök módszer.
- Cél módszer.
Beszéljünk róluk röviden:
Könyök módszer
Ebben a módszerben egy görbe húzódik a „négyzetek összegén belül” (WSS) és a klaszterek száma között. Az ábrázolt görbe egy emberi karra hasonlít. Ezt nevezzük könyök módszernek, mert a könyöknek a görbe pontja adja meg az optimális klaszterek számát. A grafikonon vagy a görbén a könyökpont után a WSS értéke nagyon lassan változik, így a könyökpontot figyelembe kell venni a klaszterek számának végső értékének megadásához.
Cél-alapú
Ebben a módszerben az adatokat különféle mérőszámok alapján osztják fel, majd megítélik, hogy mennyire teljesítettek jól ebben az esetben. Például, az ingek elrendezését a bevásárlóközpontban a férfi ruházat-osztályon a méretek szempontjából kell meghatározni. Meg lehet csinálni az ár és a márkák alapján is. A legalkalmasabb a klaszterek optimális számának, azaz a K értékének a megadása.
Most térjünk vissza a megadott adatkészlethez. A fenti módszerek bármelyikével kiszámolhatjuk a klaszterek számát, azaz a K értékét.
Hogyan lehet használni a fenti módszereket?
Most nézzük meg a végrehajtási folyamatot:
1. lépés: Inicializálás
Először inicializáljon minden olyan véletlenszerű pontot, amelyet a klaszter központjának hívnak. Az inicializálás során ügyeljen arra, hogy a klaszter centridjainak kevesebbnek kell lenniük, mint az edzési adatpontok száma. Ez az algoritmus iteratív algoritmus, ezért a következő két lépést iteratívan hajtjuk végre.
2. lépés: Klaszter hozzárendelés
Az inicializálás után az összes adatpontot átjutják, és kiszámítják az összes központ és az adatpontok közötti távolságot. A klaszterek kialakulása a centridától mért minimális távolságtól függ. Ebben a példában az adatok két klaszterre oszlanak.
3. lépés: Mozgó centroid
Mivel a fenti lépésben kialakult klaszterek nem vannak optimalizálva, ezért optimalizált klasztereket kell létrehoznunk. Ehhez iteratíven kell áthelyezni a centridákat egy új helyre. Vegye ki egy fürt adatpontjait, kiszámolja az átlagot, majd mozgassa a fürt központját az új helyre. Ismételje meg ugyanazt a lépést az összes többi klaszter esetében.
4. lépés: Optimalizálás
A fenti két lépést iteratív módon hajtjuk végre, amíg a centridok nem mozognak, azaz már nem változtatják meg pozíciójukat, és statikussá válnak. Miután ez megtörtént, a k-mean algoritmust konvergenciának nevezik.
5. lépés: Konvergencia
Most ez az algoritmus konvergált, és különálló klaszterek alakulnak ki és jól láthatóak. Ez az algoritmus eltérő eredményeket adhat attól függően, hogy a klasztereket miként inicializálták az első lépésben.
A K-eszköz klaszterezési algoritmus alkalmazása
- Piaci szegmentáció
- Dokumentumok csoportosítása
- Kép szegmentálása
- Kép tömörítése
- Vektor kvantálás
- Klaszteranalízis
- Feature tanulás vagy szótár tanulás
- A bűnözésre hajlamos területek azonosítása
- Biztosítási csalások felderítése
- Tömegközlekedési adatok elemzése
- Az informatikai eszközök csoportosítása
- Ügyfélszegmentáció
- A rákos adatok azonosítása
- Használt keresőkben
- Kábítószer-tevékenység előrejelzése
A K-eszköz klaszterezési algoritmus előnyei
- Gyors
- Erős
- Könnyen érthető
- Viszonylag hatékony
- Ha az adatkészletek különböznek egymástól, akkor a legjobb eredményt nyújtja
- Szűkebb klasztereket állíthat elő
- Amikor a centridákat újraszámolják, a klaszter megváltozik.
- Rugalmas
- Könnyen értelmezhető
- Jobb számítási költség
- Fokozza a pontosságot
- Gömb alakú klasztereknél jobban működik
A K-eszköz csoportosítási algoritmus hátrányai
- A klaszterközpontok számának előzetes meghatározására van szükség
- Ha két erősen átfedő adat van, akkor nem lehet megkülönböztetni, és nem lehet megmondani, hogy két klaszter létezik
- Az adatok eltérő ábrázolása esetén az elért eredmények szintén eltérőek
- Az euklideszi távolság egyenlőtlenül súlyozhatja a tényezőket
- Ez megadja a négyzetes hibafüggvény helyi optimáját
- A centridok véletlenszerű kiválasztása nem eredményez eredményes eredményeket
- Csak akkor használható, ha a jelentése meghatározva van
- Nem lehet kezelni a külső értékeket és a zajos adatokat
- Ne használja a nemlineáris adatkészletet
- Hiányzik az állag
- Érzékeny a skálara
- Ha nagyon nagy adathalmazok találkoznak, akkor a számítógép összeomolhat.
- Jóslás kérdései
Ajánlott cikkek
Ez egy útmutató a K-Eszköz klaszterezési algoritmushoz. Itt tárgyaltuk a K-Eszköz klaszterezési algoritmus működését, alkalmazását, előnyeit és hátrányait. A további javasolt cikkeken keresztül további információkat is megtudhat -
- Mi az idegháló?
- Mi az adatbányászat? | Az adatbányászat szerepe
- Adatbányászati interjú kérdése
- Gépi tanulás vs neurális hálózat
- Fürtözés a gépi tanulásban