Bevezetés az R grafikonokba
A grafikon olyan eszköz, amely jelentős különbséget jelent az elemzésben. A ritka grafikonok fontosak, mivel segítenek az eredmények bemutatásában a leginkább interaktív módon. Az R statisztikai programozási csomagként széles körű lehetőségeket kínál különféle grafikonok előállításához.
Az R-ben szereplő grafikonok egy része az alap-telepítésben elérhető, mások pedig a szükséges csomagok telepítésével használhatók. Az R grafikonok egyedülálló tulajdonsága az, hogy vizualizációkkal magyarázzák a bonyolult statisztikai eredményeket. Tehát alapvetően ez olyan, mintha egy lépést helyeznénk az adatok megjelenítésének hagyományos módja felett. Az R tehát egy beépített megközelítést kínál a meghajtóelemzéshez.
Grafikonok típusai R-ben
Különböző grafikonok érhetők el R-ben, és a felhasználást kizárólag a kontextus szabályozza. A feltáró elemzéshez azonban szükség van bizonyos gráfok használatára R-ben, amelyeket az adatok elemzéséhez kell használni. Most megvizsgáljuk néhány ilyen fontos grafikont R-ben.
Különböző diagramok bemutatására az alaptelepítésben elérhető „fák” adatkészletet fogjuk használni. Az adatkészlettel kapcsolatos további részleteket a? fák parancsnoka R-ben
1. Hisztogram
A hisztogram egy grafikus eszköz, amely egyetlen változón működik. Számos változó értéket tálcákba csoportosítanak, és kiszámítják a frekvencianek nevezett értékeket. Ezt a számítást ezután a frekvenciatartományok ábrázolásához használják a megfelelő babban. A rudak magasságát a frekvencia jelöli.
R- ben a hist () függvényt az alább látható módon használhatjuk a hisztogram létrehozásához. Az alábbiakban bemutatjuk a fa magasságának egyszerű hisztogramját.
Kód:
hist(trees$Height, breaks = 10, col = "orange", main = "Histogram of Tree heights", xlab = "Height Bin")
Kimenet:
A frekvencia tendenciájának megértéséhez a fenti hisztogram fölé hozzáadhatunk egy sűrűségábrát. Ez további betekintést nyújt az adat eloszlásába, a ferde helyzetbe, a kurtózisba stb. Az alábbi kód teszi ezt, és a kimenet a kódot mutatja.
Kód:
hist(trees$Height, breaks = 10, col = "orange",
+ main = "Histogram of Tree heights with Kernal Denisty plot",
+ xlab = "Height Bin", prob = TRUE)
Kimenet:
2. Scatterplot
Ez a grafikon egyszerű diagramtípus, de nagyon fontos, óriási jelentőséggel bír. A diagram felvázolja a változók közötti korrelációt, és hasznos eszköz egy feltáró elemzésben.
Az alábbi kód létrehoz egy egyszerű Scatterplot diagramot. Hozzáadtunk egy trendvonalat ahhoz, hogy a trend megértése érdekében az adatok képviselik.
Kód:
attach(trees)
plot(Girth, Height, main = "Scatterplot of Girth vs Height", xlab = "Tree Girth", ylab = "Tree Height")
abline(lm(Height ~ Girth), col = "blue", lwd = 2)
Kimenet:
A következő kód által létrehozott ábra azt mutatja, hogy jó a korreláció a fa kerülete és a fa mennyisége között.
Kód:
plot(Girth, Volume, main = "Scatterplot of Girth vs Volume", xlab = "Tree Girth", ylab = "Tree Volume")
abline(lm(Volume ~ Girth), col = "blue", lwd = 2)
Kimenet:
Scatterplot mátrixok
Az R lehetővé teszi több változó összehasonlítását egyszerre, mert scatterplot mátrixokat használ. A megjelenítés megvalósítása meglehetősen egyszerű, és a párok () függvény segítségével érhető el, az alább látható módon.
Kód:
pairs(trees, main = "Scatterplot matrix for trees dataset")
Kimenet:
Scatterplot3d
Három dimenzióban teszik lehetővé a megjelenítést, amely segít megérteni a több változó közötti kapcsolatot. Tehát ahhoz, hogy a scatterplotok elérhetőek legyenek a 3D-ben, először a scatterplot3d csomagot kell telepíteni. Tehát a következő kód létrehoz egy 3D-s gráfot a kód alatt.
Kód:
library(scatterplot3d)
attach(trees)
scatterplot3d(Girth, Height, Volume, main = "3D Scatterplot of trees dataset")
Kimenet:
Felvehetünk cseppvonalakat és színeket az alábbi kód használatával. Most kényelmesen megkülönböztethetjük a különféle változókat.
Kód:
scatterplot3d(Girth, Height, Volume, pch = 20, highlight.3d = TRUE,
+ type = "h", main = "3D Scatterplot of trees dataset")
Kimenet:
3. Boxplot
A Boxplot az adatok megjelenítésének egyik módja a dobozokon és a pofaszakaszokon keresztül. Először a változó értékeket növekvő sorrendbe rendezik, majd az adatokat negyedre osztják.
A grafikon mezője az adatok középső 50% -át jelenti, IQR néven ismert. A dobozban lévő fekete vonal jelzi a mediánt.
Kód:
boxplot(trees, col = c("yellow", "red", "cyan"), main = "Boxplot for trees dataset")
Kimenet:
A boxplot változata, bevágásokkal, az alább látható.
Kód:
boxplot(trees, col = "orange", notch = TRUE, main = "Boxplot for trees dataset")
Kimenet:
4. Vonaldiagram
A vonaldiagramok hasznosak több változó összehasonlításakor. Segítenek bennünket a több változó közötti kapcsolat kialakításában egyetlen grafikonon. A következő ábrán megpróbáljuk megérteni a három fajellemző trendjét. Tehát, amint az az alábbi kódból látható, kezdetben és a Girth vonaldiagramját a plot () függvény segítségével ábrázoljuk. Ezután a Magasság és a Hangerő vonaldiagramjait ugyanazon a grafikonon ábrázolják a sorok () függvény használatával.
A plot () függvényben az „ylim” paraméter az volt, hogy mindhárom vonaldiagramot megfelelően elférjen. A legenda ismerete itt fontos, mivel segít megérteni, melyik vonal melyik változót képviseli. A jelmagyarázatban az „lty = 1: 1” paraméter azt jelenti, hogy minden változóhoz azonos vonaltípus van, a „cex” pedig a pontok méretét jelöli.
Kód:
plot(Girth, type = "o", col = "red", ylab = "", ylim = c(0, 110),
+ main = "Comparison amongst Girth, Height, and Volume of trees")
lines(Height, type = "o", col = "blue")
lines(Volume, type = "o", col = "green")
legend(1, 110, legend = c("Girth", "Height", "Volume"),
+ col = c("red", "blue", "green"), lty = 1:1, cex = 0.9)
Kimenet:
5. Pont telek
Ez a megjelenítő eszköz akkor hasznos, ha több kategóriát szeretnénk összehasonlítani egy bizonyos mértékkel. Az alábbi ábrahez az mtcars adatkészlet került felhasználásra. A pontchart () függvény az alábbiak szerint ábrázolja a különféle autós modellek elmozdulását.
Kód:
attach(mtcars)
dotchart(disp, labels = row.names(mtcars), cex = 0.75,
+ main = "Displacement for various Car Models", xlab = "Displacement in Cubic Inches")
Kimenet:
Tehát most az adatkészletet rendezzük az elmozdulási értékek alapján, majd különféle fogaskerekekkel ábrázoljuk őket a dotchart () függvény segítségével.
Kód:
m <- mtcars(order(mtcars$disp), ) m$gear <- factor(m$gear)
m$color(m$gear == 3) <- "darkgreen"
m$color(m$gear == 4) <- "red"
m$color(m$gear == 5) <- "blue"
dotchart(m$disp, labels = row.names(m), groups = m$gear, color = m$color, cex = 0.75, pch = 20,
+ main = "Displacement for Car Models", xlab = "Displacement in cubic inches")
Kimenet:
Következtetés
Az Analytics valódi értelemben csak a vizualizációk révén kerül felhasználásra. Az R, mint statisztikai eszköz, nagyszerű megjelenítési képességeket kínál. Tehát a grafikonokhoz kapcsolódó számos lehetőség teszi őket különlegessé. Mindegyik diagramnak megvan a maga alkalmazása, és a diagramot meg kell tanulmányozni, mielőtt azt egy problémára alkalmaznák.
Ajánlott cikkek
Ez egy útmutató az R. grafikonjaihoz. Itt tárgyaljuk az R grafikonok bevezetését és típusait, például a hisztogramot, a scatterplotot, a boxplotot és még sok másat, valamint példákat és megvalósítást. A következő cikkeket is megnézheti további információkért -
- R adattípusok
- R csomagok
- Bevezetés a Matlabba
- Grafikonok és táblázatok