K - Klaszterezési algoritmus Hogyan működik - Elemzés és végrehajtás

Bevezetés a K-eszköz klaszterezési algoritmusba?

A K- eszközök csoportosítása a nem felügyelt tanulási algoritmushoz tartozik. Ezt akkor használják, ha az adatokat nem csoportokban vagy kategóriákban definiálják, azaz nem jelölik az adatokat. Ennek a klaszterezési algoritmusnak a célja az adatok csoportjainak keresése és megtalálása, ahol a K változó képviseli a csoportok számát.

A K- megértése azt jelenti, hogy a klaszterezési algoritmust

Ez az algoritmus egy iteratív algoritmus, amely az adatkészletet jellemzői szerint osztályozza K számú előre definiált, nem átfedő, különálló klaszterbe vagy alcsoportba. Ez a klaszterek adatpontjait a lehető legjobban hasonlítja, és megpróbálja a klasztereket a lehető legnagyobb mértékben megőrizni. Az adatpontokat egy klaszterre osztja, ha a klaszter középpontja és az adatpontok közötti négyzet távolságának összege legalább olyan, ahol a klaszter középpontja a fürtben lévő adatpontok számtani átlaga. A klaszter kisebb változása hasonló vagy homogén adatpontokat eredményez a fürtön belül.

Hogyan működik a K-eszköz klaszterezési algoritmus?

A K- azt jelenti, hogy a klaszterezési algoritmusnak a következő bemenetekre van szüksége:

K = alcsoportok vagy klaszterek száma
Minta vagy edzőkészlet = (x ₁, x ₂, x ₃, ……… x _n )

Tegyük fel, hogy van egy adatkészlet, amely nem címkézett, és klaszterekre kell osztanunk.

Most meg kell találnunk a klaszterek számát. Ezt két módszerrel lehet megtenni:

Könyök módszer.
Cél módszer.

Beszéljünk róluk röviden:

Könyök módszer

Ebben a módszerben egy görbe húzódik a „négyzetek összegén belül” (WSS) és a klaszterek száma között. Az ábrázolt görbe egy emberi karra hasonlít. Ezt nevezzük könyök módszernek, mert a könyöknek a görbe pontja adja meg az optimális klaszterek számát. A grafikonon vagy a görbén a könyökpont után a WSS értéke nagyon lassan változik, így a könyökpontot figyelembe kell venni a klaszterek számának végső értékének megadásához.

Cél-alapú

Ebben a módszerben az adatokat különféle mérőszámok alapján osztják fel, majd megítélik, hogy mennyire teljesítettek jól ebben az esetben. Például, az ingek elrendezését a bevásárlóközpontban a férfi ruházat-osztályon a méretek szempontjából kell meghatározni. Meg lehet csinálni az ár és a márkák alapján is. A legalkalmasabb a klaszterek optimális számának, azaz a K értékének a megadása.

Most térjünk vissza a megadott adatkészlethez. A fenti módszerek bármelyikével kiszámolhatjuk a klaszterek számát, azaz a K értékét.

Hogyan lehet használni a fenti módszereket?

Most nézzük meg a végrehajtási folyamatot:

1. lépés: Inicializálás

Először inicializáljon minden olyan véletlenszerű pontot, amelyet a klaszter központjának hívnak. Az inicializálás során ügyeljen arra, hogy a klaszter centridjainak kevesebbnek kell lenniük, mint az edzési adatpontok száma. Ez az algoritmus iteratív algoritmus, ezért a következő két lépést iteratívan hajtjuk végre.

2. lépés: Klaszter hozzárendelés

Az inicializálás után az összes adatpontot átjutják, és kiszámítják az összes központ és az adatpontok közötti távolságot. A klaszterek kialakulása a centridától mért minimális távolságtól függ. Ebben a példában az adatok két klaszterre oszlanak.

3. lépés: Mozgó centroid

Mivel a fenti lépésben kialakult klaszterek nem vannak optimalizálva, ezért optimalizált klasztereket kell létrehoznunk. Ehhez iteratíven kell áthelyezni a centridákat egy új helyre. Vegye ki egy fürt adatpontjait, kiszámolja az átlagot, majd mozgassa a fürt központját az új helyre. Ismételje meg ugyanazt a lépést az összes többi klaszter esetében.

4. lépés: Optimalizálás

A fenti két lépést iteratív módon hajtjuk végre, amíg a centridok nem mozognak, azaz már nem változtatják meg pozíciójukat, és statikussá válnak. Miután ez megtörtént, a k-mean algoritmust konvergenciának nevezik.

5. lépés: Konvergencia

Most ez az algoritmus konvergált, és különálló klaszterek alakulnak ki és jól láthatóak. Ez az algoritmus eltérő eredményeket adhat attól függően, hogy a klasztereket miként inicializálták az első lépésben.

A K-eszköz klaszterezési algoritmus alkalmazása

Piaci szegmentáció
Dokumentumok csoportosítása
Kép szegmentálása
Kép tömörítése
Vektor kvantálás
Klaszteranalízis
Feature tanulás vagy szótár tanulás
A bűnözésre hajlamos területek azonosítása
Biztosítási csalások felderítése
Tömegközlekedési adatok elemzése
Az informatikai eszközök csoportosítása
Ügyfélszegmentáció
A rákos adatok azonosítása
Használt keresőkben
Kábítószer-tevékenység előrejelzése

A K-eszköz klaszterezési algoritmus előnyei

Gyors
Erős
Könnyen érthető
Viszonylag hatékony
Ha az adatkészletek különböznek egymástól, akkor a legjobb eredményt nyújtja
Szűkebb klasztereket állíthat elő
Amikor a centridákat újraszámolják, a klaszter megváltozik.
Rugalmas
Könnyen értelmezhető
Jobb számítási költség
Fokozza a pontosságot
Gömb alakú klasztereknél jobban működik

A K-eszköz csoportosítási algoritmus hátrányai

A klaszterközpontok számának előzetes meghatározására van szükség
Ha két erősen átfedő adat van, akkor nem lehet megkülönböztetni, és nem lehet megmondani, hogy két klaszter létezik
Az adatok eltérő ábrázolása esetén az elért eredmények szintén eltérőek
Az euklideszi távolság egyenlőtlenül súlyozhatja a tényezőket
Ez megadja a négyzetes hibafüggvény helyi optimáját
A centridok véletlenszerű kiválasztása nem eredményez eredményes eredményeket
Csak akkor használható, ha a jelentése meghatározva van
Nem lehet kezelni a külső értékeket és a zajos adatokat
Ne használja a nemlineáris adatkészletet
Hiányzik az állag
Érzékeny a skálara
Ha nagyon nagy adathalmazok találkoznak, akkor a számítógép összeomolhat.
Jóslás kérdései

Ajánlott cikkek

Ez egy útmutató a K-Eszköz klaszterezési algoritmushoz. Itt tárgyaltuk a K-Eszköz klaszterezési algoritmus működését, alkalmazását, előnyeit és hátrányait. A további javasolt cikkeken keresztül további információkat is megtudhat -

Mi az idegháló?
Mi az adatbányászat? | Az adatbányászat szerepe
Adatbányászati interjú kérdése
Gépi tanulás vs neurális hálózat
Fürtözés a gépi tanulásban

K - Klaszterezési algoritmus Hogyan működik - Elemzés és végrehajtás

Tartalomjegyzék:

Bevezetés a K-eszköz klaszterezési algoritmusba?

A K- megértése azt jelenti, hogy a klaszterezési algoritmust

Hogyan működik a K-eszköz klaszterezési algoritmus?

Könyök módszer

Cél-alapú

Hogyan lehet használni a fenti módszereket?

1. lépés: Inicializálás

2. lépés: Klaszter hozzárendelés

3. lépés: Mozgó centroid

4. lépés: Optimalizálás

5. lépés: Konvergencia

A K-eszköz klaszterezési algoritmus alkalmazása

A K-eszköz klaszterezési algoritmus előnyei

A K-eszköz csoportosítási algoritmus hátrányai

Ajánlott cikkek

Készítse el saját Photoshop egyedi alakját

Kiválasztás a Photoshop toll eszközével

Készítse el saját Photoshop egyedi alakját

Az egyéni alakú eszköz használata a Photoshop CS6 alkalmazásban

Szöveg kombinálása formákkal a Photoshopban

6 Hatékony tipp a toxikus főnök munkájának túléléséhez eduCBA

Összetett idő az Excelben Hogyan használhatunk egy Excel képletet az időértékek összegezéséhez?

FELÜGYELET Excelben (képlet, példák) A SUMPRODUCT használata

SUMPRODUCT képlet Excelben - Hogyan kell használni a SUMPRODUCT képletet?

Ellátási lánc menedzsment folyamata a kkv-kban: Legjobb bevezetés

Hogyan lehet egyesíteni a rétegeket a Photoshop-ban a kép lelapítása nélkül

A Photoshop ecset eszközében rejtett tippek és trükkök

Állítsa vissza a Legacy Free Transform parancsot a Photoshop CC 2019 alkalmazásban

Hozzon létre egy arany szöveghatást a Photoshop CC és CS6 alkalmazásban

Hogyan lehet a Photoshop kefét radírmá változtatni