Bevezetés a KNN algoritmusba R
Az R-ben lévő KNN algoritmusban a KNN a K legközelebbi szomszéd algoritmusát jelenti, és R egy programozási nyelv. Azt állítják, hogy a gépi tanulási algoritmus legegyszerűbb. A KNN egy felügyelt algoritmus, amely az adatpontokat célcsoportba sorolja, összehasonlítva a szolgáltatásokat a legközelebbi szomszédjával.
Példa: Tegyük fel, hogy osztályozni szeretne egy érintőképernyőt és egy billentyűzet telefont. Különböző tényezők befolyásolják mindkét telefon megkülönböztetését. A két telefont megkülönböztető tényező azonban a billentyűzet. Tehát, amikor adatpontot (vagyis telefonot) kapunk. Összehasonlítottuk a szomszédos adatpontok hasonló tulajdonságaival, hogy billentyűzetként vagy érintőképernyőként osztályozzuk.
A KNN algoritmus jellemzői
Itt tanulmányozzuk a KNN algoritmus jellemzőit:
- A KNN algoritmus bemeneti adatokat használ a kimeneti beállított adatpontok előrejelzésére.
- Az algoritmus különféle problémákra alkalmazható.
- Az adatok osztályozására összpontosít a szolgáltatás hasonlóságára.
- A KNN algoritmus reális adatokat kezeli, és nem tesz feltételezéseket az adatpontokkal kapcsolatban.
- A KNN inkább az intuitív oktatás helyett megjegyzi az edzési adatkészletet. Azt is elmondhatjuk, hogy lusta megközelítéssel rendelkezik.
- Meg tudja oldani az osztályozási és regressziós problémákat.
Problémamegoldás a KNN algoritmusban R - ben
A probléma megoldása után:
1. Besorolási probléma
Az osztályozási probléma esetében az értékek diszkrétek, csakúgy, mint tetszik pizzát enni öntettel vagy anélkül. Van közös álláspont. A KNN algoritmus segít egy ilyen probléma megoldásában.
2. Regressziós probléma
A regressziós probléma akkor lép fel a képbe, ha van függő és független változónk. Pl .: BMI-index. Általában minden sor tartalmaz megfigyelési vagy adatpontot és egy példát.
A KNN algoritmus R
Nézzük meg a követendő algoritmus lépéseit:
1. lépés: Töltse be a bemeneti adatokat.
2. lépés: Inicializálja a K-ot a legközelebbi szomszédok számával.
3. lépés: Az adatok kiszámítása (azaz az aktuális és a legközelebbi szomszéd közötti távolság)
4. lépés: A távolság hozzáadása az aktuálisan rendezett adatkészlethez.
5. lépés: A K bejegyzés felvétele és címkézése.
6. lépés: Adja meg a regressziós probléma átlagértékét.
7. lépés: Visszaadja az üzemmód értékét az osztályozási problémákhoz.
Emlékeztet arra, hogy miként hajtja végre a KNN algoritmust
- Gondoskodnunk kell arról, hogy a K-érték nagyobb, mint egy, akadályozza a pontos előrejelzést.
- Minél több a K érték, annál pontosabb lehet az előrejelzés a többség miatt.
- Kívánatos, hogy P legyen páratlan számként. Ellenkező esetben a nyakkendő megszakítóhoz vezethet.
KNN álnév
Az alábbi képletben: ábrázolja a változókat és az adatpontokat, ahol (i = 1, 2, 3….)
Set(, )
Használjon tokot
Az alábbiakban olvashatjuk a használati eseteket a KNN algoritmusában R-ben:
1. A termékek összehasonlítása és a vásárlási ajánlások segítése
Amikor laptopot vagy számítógépet vásárolunk egy online e-kereskedelemről szóló webhelyről, vásárlási ajánlásokat is látunk, például antivírus szoftver vagy hangszórók vásárlását. Mindez azért van, mert amikor egy korábbi ügyfél laptopot vásárol, azt általában antivírusokkal vagy hangszórókkal együtt vásárolják. A gépi tanulás segít az e-kereskedelemmel kapcsolatos ajánlásokban.
2. Élelmezési ajánlások
A gépi tanulás segít a korábban megrendelt ételeken alapuló ajánlásokban, és ennek megfelelően javasolja az éttermeket.
Példa a KNN algoritmusra
Az alábbiakban bemutatjuk a KNN algoritmus példáit:
1. Adatok importálása
Vegyük magunkról a próbabábukat, amelyek megjósolják egy srác póló méretét magasság és súly alapján.
Magasság (cm) | Súly (kg) | Méret |
140 | 58 | S |
140 | 59 | S |
140 | 63 | S |
150 | 59 | M |
152 | 60 | M |
153 | 60 | M |
154 | 61 | M |
155 | 64 | M |
156 | 64 | M |
157 | 61 | M |
160 | 62 | L |
161 | 65 | L |
162 | 62 | L |
163 | 63 | L |
163 | 66 | L |
165 | 63 | L |
165 | 64 | L |
165 | 68 | L |
2. A hasonlóságok megtalálása a távolság kiszámításával
Használhatjuk mind a manhattani, mind az euklideszi távolságot, mivel az adatok folyamatosak. Kiszámoljuk az új minta és az edzési adatkészlet közötti távolságot, majd megkeressük a legközelebbi K-t.
Példa: Tegyük fel, hogy a „Raj” magassága 165 cm, súlya 63 kg. Az euklideszi távolságot az első megfigyelés alapján számoljuk ki az új mintával: SQRT ((165-140) 2 + (63-58) 2)
3. K-legközelebbi szomszédok keresése
Tegyük fel, hogy K = 4. 4 olyan ügyfél van, amelyek közül 3 közepes méretű és 1 nagy méretű. A legjobb előrejelzés a közepes méretű ruhák Raj számára.
Különbség a KNN és a K-középérték között
Az alábbiakban látható a különbség:
- A KNN egy felügyelt algoritmus (függő változó), míg a K-átlag egy felügyelet nélküli algoritmus (nincs függő változó).
- A K-középcsoport egy klaszterezési technikát alkalmaz az adatpontok felosztására, amelyek K-klasztereket képeznek.
A KNN előnyei és hátrányai
A következő előnyök vannak:
- A KNN algoritmus sokoldalú, osztályozási és regressziós problémákra használható.
- Nincs szükség korábbi modellre a KNN algoritmus felépítéséhez.
- Egyszerű és könnyen megvalósítható.
A következő hátrányok vannak:
- Az algoritmus a minták számának növekedésével (azaz a változók száma)
Ajánlott cikkek
Ez egy útmutató az R. KNN algoritmushoz. Itt tárgyaljuk a funkciókat, példákat, álkódot, a KNN algoritmusban követendő lépéseket. Megnézheti más kapcsolódó cikkeinket, hogy többet megtudjon-
- Adattudomány algoritmusai
- Mi a genetikai algoritmus?
- Útválasztási algoritmusok
- Neurális hálózati algoritmusok
- C ++ algoritmus | Példák a C ++ algoritmusra