namai - Mobilieji įrenginiai
Metodinis vadovas "Duomenų statistinė analizė ir vizualizavimas naudojant R." Metodinis vadovas „Duomenų statistinė analizė ir vizualizacija naudojant R“ R yra daug specialių objektų

Kurso programa

Programavimo elementai R

  • Aprašomoji statistika ir vizualizacija
  • Pavyzdžiui, kas svarbiau: vidutinis čekis ar tipinis čekis?

Klasterinė analizė

  • Kokia problema sprendžiama? Padalinkite objektų grupę į pogrupius.
  • Užduoties pavyzdys. Aikštelių segmentavimas, panašių aikštelių identifikavimas.
  • Ištirti metodai. Hierarchinė klasterinė analizė, k-means metodas, K-medoid metodas.

Statistinių hipotezių tikrinimas

  • Kokia problema sprendžiama? Palyginkite dvi objektų grupes.
  • Užduoties pavyzdys. Įjungtas naudotojo elgsenos A/B testavimas skirtingos versijos svetainės puslapiai.
  • Ištirti metodai. Proporcijų testas, Studento t testas, Livigne testas, Wilcoxon-Mann-Whitney testas

Tiesinės regresijos analizė.

  • Užduoties pavyzdys. Įvertinkite, kiek nukrito naudotų automobilių kainos padidinus muitus.
  • Ištirti metodai. Kintamųjų pasirinkimas, kolineariškumas, įtakingi stebėjimai, likučių analizė. Neparametrinė regresija (branduolių išlyginimas). Trumpų eilučių su sezoniniu komponentu prognozavimas naudojant tiesinę regresiją

Prognozavimas

  • Kokia problema sprendžiama? Sukurkite laiko eilutės prognozę
  • Užduoties pavyzdys. Numatykite svetainės srautą 6 mėnesiams iš anksto.
  • Tiriamas metodas. Eksponentinis išlyginimas

Mašininis mokymasis (modelio atpažinimas)

  • Užduoties pavyzdys. Atpažinkite kiekvieno svetainės lankytojo lytį ir amžių
  • Ištirti metodai. K-artimiausio kaimyno klasifikavimo medžių (CART) metodas. Atsitiktiniai miškai. Gradiento didinimo mašina

Kurso pažymiai

Klausytojams bus suteikta 14 laboratoriniai darbai. Kursas vertinamas pagal šią taisyklę:

  • Puiku – visi darbai priimti;
  • Gerai – visi darbai priimti, išskyrus vieną?;
  • Patenkinama – priimami visi darbai, išskyrus du;
  • Nepatenkinama – kitais atvejais.

Laboratorinis darbas toks

  • klausytojui pateikiamas duomenų rinkinys ir klausimas;
  • klausytojas atsako į klausimą, savo teiginius pagrįsdamas lentelėmis, grafikais ir raštu, parašytu R kalba;
  • Klausytojas atsako į papildomus klausimus.

Klausimo pavyzdys. Pasiūlykite parametrus, kurie užtikrins optimalų Random Forest algoritmo veikimą atpažįstant vyno prekės ženklą pagal cheminės analizės rezultatus.

Ką reikia žinoti norint lankyti kursą

Daroma prielaida, kad kurso dalyviai jau yra išklausę tikimybių teorijos kursą.

Literatūra

  • Šipunovas, Baldinas, Volkova, Korobeinikovas, Nazarova, Petrovas, Sufijanovas Vizuali statistika. Naudojant R
  • Masticsky, Shitikov Statistinė analizė ir duomenų vizualizacija naudojant R
  • Vyskupo modelių atpažinimas ir mašininis mokymasis.
  • Jamesas, Wittenas, Hastie, Tibshiranis. Statistikos mokymosi įvadas. Su paraiškomis R.
  • Hastie, Tibshiranis, Friedmanas. Statistinio mokymosi elementai_duomenų gavyba, išvados ir numatymas 2+ed
  • Crawley. R knyga.
  • Kabacoff R veikia. Duomenų analizė ir grafika su R.

Mokytojai

Paskaitų sąrašas

Įvadas į R: Pagrindinės komandos. Mediana, kvantiliai ir kvartiliai. Juostinė diagrama. Juostinė diagrama. Skritulinė diagrama. Sklaidos diagrama. Sklaidos matrica. Spalvų naudojimas grafikoje. Dėžutės su ūsais (dėžutės diagrama). Tipiškas imties stebėjimas: aritmetinis vidurkis, mediana arba apkarpytas vidurkis. Tipinės reikšmės apibūdinimo būdo pasirinkimas, adekvatus analizuojamiems duomenims. Lognormalus pasiskirstymas. Nukrypimai ir ekstremalūs pastebėjimai.

Hierarchinė klasterių analizė. Klasteris, atstumai tarp objektų, atstumai tarp klasterių. Dendrogramos konstravimo algoritmas. Grindjuostė/alkūnė. Duomenų standartizavimas. Tipiškos klaidos rengiant duomenis. Rezultatų interpretacija.

K reiškia metodas. Atsitiktinių skaičių jutikliai, jutiklio grūdėtumas. K-means metodo algoritmo vizualizacija. Klasterių skaičiaus nustatymo metodai. NbClust biblioteka. Grindjuostė/alkūnė. Daugiamatis mastelio keitimas klasterio vizualizavimui.

Statistinių hipotezių tikrinimas. Sutarimo, homogeniškumo, nepriklausomumo hipotezės, hipotezės apie pasiskirstymo parametrus.

Statistinių hipotezių tikrinimas. I ir II tipo paklaidos, p reikšmė ir reikšmingumo lygis, statistinių hipotezių tikrinimo algoritmas ir rezultatų interpretacija. Normaliojo pasiskirstymo hipotezė. Shapiro-Wilk ir Kolmogorovo-Smirnov testai. Nereikšmingi nukrypimai nuo normalumo. Mėginių palyginimas. Nepriklausomi ir suporuoti pavyzdžiai. Pasirinkimas tarp Studento t testo, Mann-Whitney-Wilcoxon testo ir Mood testo. Stjudento t-testų atmainos ir dispersijų palyginimas. Vizualizacija palyginimams. Vienpusiai ir dvipusiai testai.

Statistinių hipotezių tikrinimas. Mėginių palyginimas. Nepriklausomi ir suporuoti pavyzdžiai. Pasirinkimas tarp Studento t testo, Mann-Whitney-Wilcoxon testo ir Mood testo. Stjudento t-testų atmainos ir dispersijų palyginimas. Vizualizacija palyginimams. Vienpusiai ir dvipusiai testai. Nepriklausomybė. Pearson, Kendall ir Spearman koreliacijos koeficientai, tipines klaidas tiriant ryšį tarp dviejų reiškinių. Vizuali radinių apžiūra.

Tiesinės regresijos analizė Modelis, koeficientų įverčių interpretavimas, daugkartinis determinacijos koeficientas. Daugialypės determinacijos koeficiento aiškinimas, jo taikymo srities apribojimai. Svarbiausių prognozių nustatymas ir kiekvieno prognozuotojo indėlio įvertinimas. Sukonstruotų modelių koregavimo algoritmai. Kolineariškumas.

Tiesinės regresijos analizė: trumpų laiko eilučių prognozavimas.

Prognozavimas remiantis regresijos modeliu su sezoniniais rodikliais (fiktyviais, struktūriniais) kintamaisiais. Tendencija, sezoniniai komponentai, serijos pobūdžio pokyčiai, išskirtiniai rodikliai. Logaritmizavimas yra būdas paversti multiplikacinį sezoniškumą į papildomą sezoniškumą. Rodiklio kintamieji. Perkvalifikavimas.

Tiesinė regresija – likučių analizė. Gauso-Markovo teoremos modelio apribojimų pažeidimai. Likučių analizė. Specifikacijos klaida. Daugiakolineariškumas, tolerancija ir VIF. Likučių dispersijų pastovumo tikrinimas. Modelių taisymas esant likučių pasiskirstymo nuokrypiams nuo normalumo. Kuko atstumas ir svertas. Durbin-Watson statistika. Sezoninių koregavimų skaičiaus mažinimas.

Eksponentinio išlyginimo Holt-Winters metodas. Vietinė tendencija, vietinis sezoniškumas.

Terminija: mašininis mokymasis, dirbtinis intelektas, duomenų gavyba ir modelių atpažinimas.

K-artimiausio kaimyno metodas. Metodo nuoseklumas. Tingus mokymasis (tinginys mokymasis). Funkcijos pasirinkimas. Kryžminis patvirtinimas. k-karto kryžminis patvirtinimas. Pernelyg pritaikymas. Mokymo ir bandymo pavyzdžiai.

K-artimiausio kaimyno metodas Pavyzdžiai. Artimiausių kaimynų skaičiaus nustatymas. Nenumatytų atvejų lentelė metodo kokybei nustatyti.

CART klasifikavimo medžiai. Geometrinis vaizdavimas. Vaizdavimas kaip loginių taisyklių rinkinys. Medžio vaizdas. Mazgai, tėvai ir vaikai, lapų mazgai. Slenkstinės reikšmės. rpart biblioteka. Priemaišų priemonės. Grynumo matavimo metodai: Gini, entropija, klasifikavimo paklaidos. Medžio mokymosi taisyklės. Bibliotekos rpart.sklypas.

Paskutinį kartą (2014 m. lapkritį; man labai gėda, kad taip ilgai užtrukau su tęsiniu!) kalbėjau apie pagrindines R kalbos galimybes. Nepaisant visų įprastų valdymo konstrukcijų, tokių kaip kilpos ir sąlyginiai blokai, klasikinis požiūris į duomenų apdorojimą, pagrįstą iteracija, toli gražu nėra Geriausias sprendimas, kadangi ciklai R neįprastai lėtas. Taigi dabar aš jums pasakysiu, kaip iš tikrųjų reikia dirbti su duomenimis, kad skaičiavimo procesas nepriverstų jūsų išgerti per daug puodelių kavos laukiant rezultato. Be to, skirsiu šiek tiek laiko pakalbėjimui apie tai, kaip naudotis šiuolaikinėmis duomenų vizualizavimo priemonėmis R. Kadangi duomenų apdorojimo rezultatų pateikimo praktikoje patogumas yra ne mažiau svarbus nei patys rezultatai. Pradėkime nuo kažko paprasto.

Vektorinės operacijos

Kaip prisimename, pagrindinis tipas R yra visai ne skaičius, o vektorius, o pagrindinės aritmetinės operacijos atliekamos su vektoriais po elemento:

>x<- 1:6; y <- 11:17 >x + y 12 14 16 18 20 22 18 > x > 2 NETEISINGA NETIESA TEISINGA TEISINGA TEISINGA > x * y 11 24 39 56 75 96 17 > x / y 0.09090909 0.09090909 0.09090909 0.09090909 0.09090909 0.09090909 0.09090909 0.16090909 0.6090909 0.6090909 0.6090909 0.6090909 0.6090909 0.6090909 9 0. 33333333 0,37500000 0,05882353

Viskas čia gana paprasta, bet visai logiška užduoti klausimą: kas bus, jei vektorių ilgiai nesutaps? Jeigu mes, tarkime, rašome k<- 2, то будет ли x * k соответствовать умножению вектора на число в математическом смысле? Короткий ответ - да. В более общем случае, когда длина векторов не совпадает, меньший вектор просто продолжается повторением:

>z<- c(1, 0.5) >x * z 1 1 3 2 5 3

Su matricomis situacija yra maždaug tokia pati.

>x<- matrix(1:4, 2, 2); y <- matrix(rep(2,4), 2, 2) >x * y [,1] [,2] 2 6 4 8 > x / y [,1] [,2] 0,5 1,5 1,0 2,0

Šiuo atveju „normalus“, o ne bitinės matricos daugyba atrodys taip:

> x %*% y [,1] [,2] 8 8 12 12

Visa tai, žinoma, labai gerai, bet ką daryti, kai vektorių ar matricų elementams reikia pritaikyti savo funkcijas, tai yra, kaip tai padaryti be kilpos? Metodas, kurį R taiko spręsdamas šią problemą, yra labai panašus į tą, prie kurio esame įpratę funkcinėse kalbose – tai primena žemėlapio funkciją Python arba Haskell.

Naudinga funkcija lapply ir jo draugai

Pirmoji funkcija šioje šeimoje yra lapply. Tai leidžia pritaikyti nurodytą funkciją kiekvienam sąrašo ar vektoriaus elementui. Be to, rezultatas bus tiksliai nurodytas sąraše, neatsižvelgiant į argumento tipą. Paprasčiausias pavyzdys naudojant lambda funkcijas:

>q<- lapply(c(1,2,4), function(x) x^2) >1 4 16 k

Jei funkcijai, kurią norite taikyti sąrašui arba vektoriui, reikia daugiau nei vieno argumento, tada tuos argumentus galima perduoti per lapply.

>q<- lapply(c(1,2,4), function(x, y) x^2 + y, 3)

Funkcija veikia panašiai su sąrašu:

>x<- list(a=rnorm(10), b=1:10) >lapply (x, reiškia)

Čia funkcija rnorm nurodo normalųjį skirstinį (šiuo atveju dešimt normaliai paskirstytų skaičių nuo 0 iki 1), o vidurkis apskaičiuoja vidutinę reikšmę. „Sapply“ funkcija yra lygiai tokia pati kaip „lapply“ funkcija, išskyrus tai, kad ji bando supaprastinti rezultatą. Pavyzdžiui, jei kiekvienas sąrašo elementas yra 1 ilgio, vietoj sąrašo bus grąžintas vektorius:

> taikyti(c(1,2,4), funkcija(x) x^2) 1 4 16

Jei rezultatas yra tokio pat ilgio vektorių sąrašas, tada funkcija grąžins matricą, bet jei nieko neaišku, tada tiesiog sąrašą, pavyzdžiui, lapply.

>x<- list(1:4, 5:8) >sapply(x, funkcija(x) x^2) [,1] [,2] 1 25 4 36 9 49 16 64

Norėdami dirbti su matricomis, patogu naudoti taikymo funkciją:

>x<- matrix(rnorm(50), 5, 10) >taikyti (x, 2, vidutinis) > taikyti (x, 1, suma)

Čia pirmiausia sukuriame penkių eilučių ir dešimties stulpelių matricą, tada pirmiausia apskaičiuojame stulpelių vidurkį, o tada eilučių sumą. Norėdami užbaigti vaizdą, reikia pažymėti, kad eilučių vidurkio ir sumos skaičiavimo užduotis yra tokia įprasta, kad R pateikia specialias šiam tikslui skirtas funkcijas rowSums, rowMeans, colSums ir colMeans.
Taikyti funkciją taip pat galima naudoti daugiamačiams masyvams:

> arr<- array(rnorm(2 * 2 * 10), c(2, 2, 10)) >taikyti (arr, c(1,2), vidurkis)

Paskutinis skambutis gali būti pakeistas lengviau skaitoma parinktimi:

> eilutės vidurkis (arr, dim = 2)

Pereikime prie mapply funkcijos, kuri yra daugiamatis lapply analogas. Pradėkime nuo paprasto pavyzdžio, kurį galima rasti tiesiogiai standartinėje R dokumentacijoje:

> maply(rep, 1:4, 4:1) 1 1 1 1 2 2 2 3 3 4

Kaip matote, čia atsitinka taip, kad rep funkcija taikoma parametrų rinkiniui, sugeneruotam iš dviejų sekų. Pati funkcija rep tiesiog pakartoja pirmąjį argumentą tiek kartų, kiek nurodyta kaip antrasis argumentas. Taigi ankstesnis kodas tiesiog atitinka šį:

> sąrašas(pakartojimas(1,4), rep(2,3), rep(3,2), rep(4,1))

Kartais reikia pritaikyti funkciją kuriai nors masyvo daliai. Tai galima padaryti naudojant tapply funkciją. Pažvelkime į tokį pavyzdį:

>x<- c(rnorm(10, 1), runif(10), rnorm(10,2)) >f<- gl(3,10) >bakstelėti (x, f, vidutinis)

Pirmiausia sukuriame vektorių, kurio dalys sudaromos iš atsitiktinių dydžių su skirtingais pasiskirstymais, tada sugeneruojame faktorių vektorių, kuris yra ne daugiau kaip dešimt vienetų, tada dešimt dviejų ir tiek pat trijų. Tada apskaičiuojame atitinkamų grupių vidurkį. Pagal numatytuosius nustatymus bakstelėjimo funkcija bando supaprastinti rezultatą. Šią parinktį galima išjungti kaip parametrą nurodant simplify=FALSE.

> tapply(x, f, diapazonas, supaprastinti = FALSE)

Kai žmonės kalba apie taikymo funkcijas, jie paprastai kalba ir apie padalijimo funkciją, kuri padalija vektorių į dalis, panašiai kaip tapply . Taigi, jei iškviesime split(x, f), gausime trijų vektorių sąrašą. Taigi, lapply/split pora veikia taip pat kaip ir tapp, kai supaprastinimo reikšmė nustatyta į FALSE:

> lapply (skilimas (x, f), vidurkis)

Padalijimo funkcija naudinga ne tik dirbant su vektoriais: ją taip pat galima naudoti dirbant su duomenų rėmeliais. Apsvarstykite šį pavyzdį (pasiskolinau jį iš Coursera kurso R programavimas):

> biblioteka(duomenų rinkiniai) > galva(oro kokybė) Ozonas Saulė.R Vėjo temp. Mėnuo 1 41 190 7,4 67 5 1 2 36 118 8,0 72 5 2 3 12 149 12,6 74 5 3 4 18 NA 5 43 3 4 56 5 5 6 28 NA 14,9 66 5 6 > s<- split(airquality, airquality$Month) >lapply(s, function(x) colMeans(x[, c("Ozonas", "Solar.R", "Wind")])))

Čia dirbame su duomenų rinkiniu, kuriame yra informacijos apie oro sąlygas (ozonas, saulės spinduliuotė, vėjas, temperatūra Farenheitais, mėnuo ir diena). Mes galime lengvai pranešti apie mėnesio vidurkius naudodami split ir lapp, kaip parodyta kode. Tačiau naudodami sapply gausime rezultatą patogesne forma:

> taikyti(s, funkcija(x) colMeans(x[, c("Ozonas", "Saulė.R", "Vėjas")])) 5 6 7 8 9 Ozonas NA NA NA NA NA Solar.R NA 190.16667 216.483871 NA 167,4333 Vėjas 11,62258 10,26667 8,941935 8,793548 10,1800

Kaip matote, kai kurios reikšmių reikšmės nėra apibrėžtos (ir tam naudojama rezervuota vertė NA). Tai reiškia, kad kai kurios (bent viena) reikšmės stulpeliuose „Ozone“ ir „Solar.R“ taip pat buvo neapibrėžtos. Šia prasme funkcija colMeans veikia visiškai teisingai: jei yra kokių nors neapibrėžtų reikšmių, tai vidurkis yra neapibrėžtas. Problemą galima išspręsti priverčiant funkciją ignoruoti NA reikšmes naudojant parametrą na.rm=TRUE:

> taikyti Saulės.R 181.29630 190.16667 216.483871 171.857143 167.43333 Vėjas 11.62258 10.26667 8.941935 8.793548 00.00.

Kodėl jums reikia tiek daug funkcijų, kad išspręstumėte labai panašias problemas? Manau, šį klausimą užduos kas antras visa tai perskaitęs žmogus. Visos šios funkcijos iš tikrųjų bando išspręsti vektorinių duomenų apdorojimo problemą nenaudojant kilpų. Tačiau vienas dalykas yra pasiekti didelį duomenų apdorojimo greitį, o visai kas kita – įgyti bent šiek tiek lankstumo ir valdymo, kurį suteikia valdymo konstrukcijos, tokios kaip kilpos ir sąlyginiai sakiniai.

Duomenų vizualizacija

R sistemoje yra neįtikėtinai daug duomenų vizualizavimo įrankių. Ir štai aš susidūriau su nelengvu pasirinkimu – apie ką kalbėti, jei plotas toks didelis. Jei programavimo atveju yra koks nors pagrindinis funkcijų rinkinys, be kurio nieko negalima padaryti, tai vizualizacijoje yra daugybė skirtingų užduočių ir kiekvieną iš jų (paprastai) galima išspręsti keliais būdais, kiekvieną iš jų. kuri turi savų pliusų ir minusų. Be to, visada yra daug galimybių ir paketų, leidžiančių įvairiais būdais išspręsti šias problemas.
Apie standartinėmis priemonėmis Apie vizualizaciją R kalba rašyta daug, tad čia norėčiau pakalbėti apie kai ką įdomesnio. Pastaraisiais metais paketas tapo vis populiaresnis ggplot2, todėl pakalbėkime apie jį.

Norėdami pradėti dirbti su ggplot2, turite įdiegti biblioteką naudodami komandą install.package("ggplot2"). Tada mes prijungiame jį naudojimui:

> biblioteka("ggplot2") > galva(deimantai) karatų pjūvio spalvos skaidrumo gylis lentelė kaina x y z 1 0.23 Idealus E SI2 61.5 55 326 3.95 3.98 2.43 2 0.21 Premium E SI1 59.8 61 326 .3 VS 59.8 61 326 .3 .389 .3 56 .9 65 327 4,05 4,07 2,31 4 0,29 Premium I VS2 62,4 58 334 4,20 4,23 2,63 5 0,31 Geras J SI2 63,3 58 335 4,34 VS 4,5 6 2075 4,35 6,2 . 336 3. 94 3.96 2.48 > galva(mtcars) mpg cyl disp AG drat wt qsec vs am grear carb Mazda RX4 21.0 6 160 110 3.90 2.620 16.46 0 1 4 4 Mazda RX4 Wag 21.0 6 160 110 3.90 2.80720 471 .tsu 4 108 93 3,85 2 ,320 18,61 1 1 4 1 Širšė 4 Važiuoti 21,4 6 258 110 3,08 3,215 19,44 1 0 3 1 Hornet Sportapie 18,7 8 360 175 3,15 3,440 17,02 0 0 3 2 Valant 18,25660 2 1 0 3 1

Deimantų ir mtcars duomenys yra ggplot2 paketo dalis, todėl dabar dirbsime su jais. Su pirmuoju viskas aišku – tai duomenys apie deimantus (skaidrumas, spalva, kaina ir pan.), o antrasis – pagamintų automobilių kelių bandymų duomenys (mylių skaičius galone, cilindrų skaičius...) 1973-1974 metais iš Amerikos žurnalo Motor Trends . Išsamesnę informaciją apie duomenis (pavyzdžiui, matmenis) galite gauti įvedę ?diamonds arba ?mtcars .

Vizualizacijai paketas suteikia daug funkcijų, iš kurių dabar mums svarbiausia bus qplot. Funkcija „ggplot“ suteikia daug daugiau galimybių valdyti procesą. Viskas, ką galima padaryti naudojant qplot, taip pat gali būti padaryta naudojant ggplot. Pažiūrėkime į tai paprastas pavyzdys:

> qplot(aiškumas, duomenys = deimantai, užpildymas = iškirpimas, geom="juosta")

Tą patį efektą galima pasiekti naudojant ggplot funkciją:

> ggplot(deimantai, aes(aiškumas, užpildymas = iškirpti)) + geom_bar()

Tačiau skambinti qplot atrodo paprasčiau. Fig. 1 matote, kaip pavaizduota skirtingos pjovimo kokybės deimantų skaičiaus priklausomybė nuo aiškumo.

Dabar pavaizduokime automobilių ridos, tenkančios vienam kuro vienetui, priklausomybę nuo jų masės. Gauta sklaidos diagrama (arba taškinė diagrama sklaidos sklypas) pateikta
pav. 2.

> qplot(wt, mpg, data=mtcars)

Taip pat galite pridėti spalvotą ketvirčio mylios pagreičio laiko (qsec) ekraną:

> qplot(wt, mpg, data=mtcars, color=qsec)

Vizualizuodami duomenis taip pat galite transformuoti:

> qplot(log(wt), mpg – 10, data=mtcars)

Kai kuriais atvejais atskiri spalvų skyriai atrodo labiau reprezentatyvūs nei ištisiniai. Pavyzdžiui, jei norime spalvomis rodyti informaciją apie cilindrų skaičių, o ne pagreičio laiką, tuomet turime nurodyti, kad reikšmė yra diskrečio pobūdžio (3 pav.):

> qplot(wt, mpg, data=mtcars, color=factor(cyl))

Taip pat galite pakeisti taškų dydį naudodami, pavyzdžiui, dydis=3 . Jei ketinate spausdinti grafikus nespalvotu spausdintuvu, geriau nenaudoti spalvų, o pakeisti žymeklio formą priklausomai nuo faktoriaus. Tai galima padaryti pakeičiant color=factor(cyl) į shape=factor(cyl) .
Sklypo tipas nurodomas naudojant geom parametrą, o sklaidos brėžinių atveju šio parametro reikšmė yra "taškai" .

Tarkime, kad mes tiesiog norime sukurti automobilių skaičiaus histogramą su atitinkama cilindro verte:

> qplot(factor(cyl), data=mtcars, geom="bar") > qplot(factor(cyl), data=mtcars, geom="bar", spalva =faktorius(cyl)) > qplot(faktorius(cil) , data=mtcars, geom="bar", fill=factor(cyl))

Pirmuoju skambučiu paprasčiausiai nubrėžiamos trys skirtingų cilindrų verčių histogramos. Reikia pasakyti, kad pirmasis bandymas papildyti histogramą spalvomis neduos laukiamo rezultato – juodos juostos vis tiek bus juodos, bet turės tik spalvotą kontūrą. Tačiau paskutinis iškvietimas į qplot sukurs gražią histogramą, kaip parodyta Fig. 4.

Čia turėtume būti aiškūs. Faktas yra tas, kad dabartinis mūsų pastatytas objektas nėra histograma griežtąja to žodžio prasme. Paprastai histograma yra panašus nuolatinių duomenų ekranas. IN Anglų kalba Juostinė diagrama(tai ką tik padarėme) ir histograma- tai dvi skirtingos sąvokos (žr. atitinkamus straipsnius Vikipedijoje). Čia su tam tikru sunkumu vartosiu žodį „histograma“ abiem sąvokoms, manydamas, kad pati duomenų prigimtis kalba pati už save.

Jei grįšime į pav. 1, tada ggplot2 pateikia keletą naudingų brėžinių padėties nustatymo parinkčių (numatytasis yra position="stack"):

> qplot(skaidrumas, duomenys=deimantai, geom="juosta", užpildymas=supjaustymas, padėtis="kiekis") > qplot(skaidrumas, duomenys = deimantai, geom="juosta", užpildymas = iškirpimas, padėtis = "užpildymas") > qplot(aiškumas, duomenys = deimantai, geom="juosta", užpildymas = iškirpimas, padėtis = tapatybė")

Pirmajame iš siūlomų variantų diagramos pateikiamos viena šalia kitos, kaip parodyta Fig. 5, antroji rodo skirtingos pjovimo kokybės deimantų dalis bendrame tam tikro grynumo deimantų skaičiuje (6 pav.).

Dabar pažiūrėkime į tikrosios histogramos pavyzdį:

> qplot(karatas, duomenys = deimantai, geom="histograma", juostos plotis = 0,1) > qplot(karatas, duomenys = deimantai, geom="histograma", juostos plotis = 0,05)

Čia pralaidumo parametras tik parodo, kiek plati juosta yra histogramoje. Histograma rodo, kiek duomenų yra kokiame diapazone. Rezultatai pateikti fig. 7 ir 8.

Kartais, kai mums reikia nubraižyti modelį (tiesinį arba, tarkime, daugianarį), galime tai padaryti tiesiogiai qplot ir pamatyti rezultatą. Pavyzdžiui, mpg ir masė wt galime pavaizduoti tiesiai sklaidos diagramos viršuje:

> qplot(wt, mpg, data=mtcars, geom=c("taškas", "lygus"))

Pagal numatytuosius nustatymus vietinė daugianario regresija (method="loess") bus naudojama kaip modelis. Darbo rezultatas atrodys taip, kaip parodyta pav. 9, kur tamsiai pilka juosta yra standartinė klaida. Jis rodomas pagal numatytuosius nustatymus, galite jį išjungti parašydami se=FALSE .

Jei norime šiuos duomenis pritaikyti tiesiniam modeliui, tai galima padaryti tiesiog nurodant method=lm (10 pav.).

Ir galiausiai, žinoma, turime parodyti, kaip sudaryti skritulines diagramas:

> t<- ggplot(mtcars, aes(x=factor(1), fill=factor(cyl))) + geom_bar(width=1) >t + coord_polar(theta="y")

Čia naudosime lankstesnę ggplot funkciją. Tai veikia taip: pirmiausia sudarome grafiką, kuriame rodomos automobilių, turinčių skirtingą cilindrų skaičių, dalis bendroje masėje (11 pav.), tada grafiką konvertuojame į polines koordinates (12 pav.).

Vietoj išvados

Dabar mums patogu naudoti R. Kas toliau? Akivaizdu, kad čia pateikiamos pagrindinės ggplot2 galimybės ir aptariami su vektorizavimu susiję klausimai. Yra keletas gerų knygų apie R, kurias verta paminėti, ir jas tikrai verta pasikonsultuoti dažniau nei į labai įkyraus gėrio korporacijos paslaugas. Pirma, tai yra Normano Matloffo (Normano Matloffo) knyga „R programavimo menas“. Jei jau turite patirties programuojant R, tuomet jums pravers P. Burnso parašytas The R Inferno. Klasikinė Johno Chamberso knyga „Programinė įranga duomenų analizei“ taip pat yra gana tinkama.

Jei kalbėtume apie vizualizaciją R, yra gera W. Chango (Winston Chang) knyga R Graphics Cookbook. Šiame straipsnyje esantys ggplot2 pavyzdžiai buvo paimti iš mokymo programos: ggplot2. Susitiksime kitame straipsnyje: Duomenų analizė ir mašininis mokymasis R!

"STATISTINĖ ANALIZĖ IR DUOMENŲ VIZUALIZAVIMAS NAUDOJANT R žolę, vaisius, vaisius Heidelbergas - Londonas - Toljatis 2014 m., ..."

-- [ Puslapis 1 ] --

S.E. Mastitsky, V.K. Šitikovas

STATISTINĖ ANALIZĖ IR

DUOMENŲ VIZUALIZAVIMAS SU R

žolės šaknys vaisiai lapija

Heidelbergas – Londonas – Toljatis

2014 m., Sergejus Eduardovičius Mastitskis, Vladimiras Kirillovičius Šitikovas

Svetainė: http://r-analytics.blogspot.com

Šis darbas platinamas pagal licenciją

„Creative Commons“ priskyrimas – nekomercinis

naudojimas – tomis pačiomis sąlygomis 4.0 visame pasaulyje. Pagal šią licenciją galite laisvai kopijuoti, platinti ir modifikuoti šį darbą, jei tiksliai nurodote jo autorius ir šaltinį. Jei modifikuojate šį kūrinį arba naudojate jį savo darbuose, rezultatą galite platinti tik pagal tą pačią ar panašią licenciją. Draudžiama naudoti šį kūrinį komerciniais tikslais be autorių leidimo. Norėdami gauti daugiau informacijos apie licenciją, apsilankykite www.creativecommons.com

Cituokite šią knygą taip:

Mastitsky S.E., Šitikovas V.K. (2014) Statistinė analizė ir duomenų vizualizacija naudojant R.

– Elektroninė knyga, prieigos adresas:

http://r-analytics.blogspot.com

5 PRATARMĖ

1. PAGRINDINĖS R 8 STATISTINĖS APLINKOS KOMPONENTAI


1.1. R aplinkos atsiradimo istorija ir pagrindiniai organizavimo principai 8

1.2. Dirbti su komandų konsolė sąsaja R11

1.3. Darbas su R Commander 13 meniu

1.4. Objektai, paketai, funkcijos, įrenginiai 17

2. KALBOS APRAŠYMAS R 23

2.1. R 23 duomenų tipai

2.2. Vektoriai ir matricos 24

2.3. Veiksniai 29

2.4. Sąrašai ir lentelės 31

2.5. Duomenų importavimas į R 37

2.6. Datos ir laiko vaizdavimas; laiko eilutė 40

2.7. Skaičiavimų organizavimas: funkcijos, šakos, kilpos 46

2.8. Vektorizuoti skaičiavimai R, naudojant taikyti-50 funkcijas

3. PAGRINDINĖS GRAFIKOS GALIMYBĖS R 58

3.1. Scatterplots plot() ir grafiko parinktys 58 funkcijos

3.2. Histogramos, branduolio tankio funkcijos ir 66 cdplot() funkcija

3.3. Diapazono diagramos 74

3.4. Skritulinės ir juostinės diagramos 77

3.5. Klivlendo diagramos ir vienmatės sklaidos diagramos 84

4. APRAŠOMOJI STATISTIKA IR TINKAMUMAS 97

PLATINIMAS

–  –  –

PRATARMĖ

Vienas iš pagrindinių pasaulio supratimo įrankių yra duomenų, kuriuos žmogus gauna iš įvairių šaltinių, apdorojimas. Šiuolaikinės statistinės analizės esmė – interaktyvus procesas, susidedantis iš gaunamų informacijos srautų tyrinėjimo, vizualizavimo ir interpretavimo.

Pastarųjų 50 metų istorija yra ir duomenų analizės technologijos raidos istorija.

Vienas iš autorių su malonumu prisimena šeštojo dešimtmečio pabaigą ir savo pirmąją porų koreliacijos skaičiavimo programą, kuri buvo įvesta metaliniais kaiščiais 150 daugiau nei 200 kg sveriančio asmeninio kompiuterio „Promin-2“ celių „darbo lauke“.

Šiais laikais didelio našumo kompiuteriai ir įperkami programinė įranga leidžia įgyvendinti visą informacinių technologijų proceso ciklą, kurį paprastai sudaro šie žingsniai:

° prieigą prie apdorotų duomenų (atsisiunčiant juos iš skirtingų šaltinių ir sudarant tarpusavyje susijusių šaltinių lentelių rinkinį);

° įkeltų rodiklių redagavimas (trūkstamų reikšmių pakeitimas ar pašalinimas, charakteristikų konvertavimas į patogesnę formą);

° duomenų anotavimas (kad atsimintų, ką reiškia kiekviena duomenų dalis);

° gavimas Bendra informacija apie duomenų struktūrą (aprašomosios statistikos skaičiavimas, siekiant apibūdinti analizuojamus rodiklius);

° grafinis vaizdavimas duomenys ir skaičiavimo rezultatai pateikiami aiškia, informatyvia forma (viena nuotrauka kartais verta tūkstančio žodžių);

° duomenų modeliavimas (priklausomybių radimas ir statistinių hipotezių tikrinimas);

° rezultatų pristatymas (priimtinos publikacijos kokybės lentelių ir diagramų parengimas).

Aplinkoje, kurioje vartotojui prieinamos dešimtys taikomosios programinės įrangos paketų, aktuali pasirinkimo (kartais tragiška, jei prisiminsime Buridano asilą) problema: kokiai duomenų analizės programinei įrangai reikėtų teikti pirmenybę atliekant praktinį darbą? Čia dažniausiai atsižvelgiama į sprendžiamos problemos specifiką, apdorojimo algoritmų nustatymo efektyvumą, programų pirkimo išlaidas, taip pat analitiko skonį ir asmeninius pageidavimus. Tuo pačiu metu, pavyzdžiui, šablonas Statistica su mechaniniu meniu mygtukų rinkiniu ne visada gali patenkinti kūrybingą tyrinėtoją, kuris nori savarankiškai kontroliuoti skaičiavimo proceso eigą. Sujungti Įvairių tipų analizuoti, turėti prieigą prie tarpinių rezultatų, valdyti duomenų rodymo stilių, pridėti savo programinės įrangos modulių plėtinius ir sudaryti reikiamos formos galutines ataskaitas, leisti komercinėms kompiuterinėms sistemoms, apimančioms aukšto lygio komandų kalbos įrankius, pvz., Matlab, SPSS. tt Puiki alternatyva jiems yra nemokama programinė įranga R aplinka yra moderni ir nuolat tobulėjanti bendrosios paskirties statistikos platforma.



Šiandien R yra neabejotinas lyderis tarp laisvai platinamų statistinės analizės sistemų, ką liudija, pavyzdžiui, tai, kad 2010 metais R sistema laimėjo kasmetinį atvirą programinės įrangos konkursą „Bossie Awards“ keliose kategorijose. Pirmaujantys pasaulio universitetai, didžiųjų įmonių ir tyrimų centrų analitikai nuolat naudoja R atlikdami mokslinius ir techninius skaičiavimus bei kurdami didelius informacinius projektus. Plačiai paplitęs šios aplinkos paketais pagrįstos statistikos mokymas ir visapusiška mokslo bendruomenės parama lėmė tai, kad R raštų mažinimas pamažu tampa visuotinai priimtu „standartu“ tiek žurnalų publikacijose, tiek neformaliame mokslininkų bendraujant. pasaulis.

Žinoma, pagrindinė kliūtis rusakalbiams vartotojams įsisavinant R yra ta, kad beveik visa šios aplinkos dokumentacija yra anglų kalba. Tik nuo 2008 m. A. V. pastangomis. Šipunova, E.M. Baldina, S.V. Petrova, I.S. Zaryadova, A.G. Buchovetai ir kiti entuziastai, metodiniai vadovai ir knygos pasirodė rusų kalba (nuorodas į juos rasite literatūros sąraše šios knygos pabaigoje; taip pat yra nuorodų į mokomuosius išteklius, kurių autoriai įneša įmanomą indėlį į reklamą R tarp rusakalbių vartotojų).

Šiame vadove apibendrinamas metodinių pranešimų rinkinys, kurį vienas iš autorių paskelbė nuo 2011 m. tinklaraštyje „R: Duomenų analizė ir vizualizacija“

(http://r-analytics.blogspot.com). Mums atrodė, kad skaitytojų patogumui patartina visą šią šiek tiek nenuoseklią medžiagą pateikti koncentruota forma, taip pat išplėsti kai kurias dalis, kad pristatymas būtų išsamus.

Pirmuosiuose trijuose skyriuose pateikiamos išsamios darbo su R interaktyviais komponentais instrukcijos, išsamus kalbos aprašymas ir pagrindinės aplinkos grafinės galimybės.

Ši knygos dalis yra gana prieinama pradedantiesiems programuoti, nors skaitytojai, jau susipažinę su R kalba, gali rasti įdomių kodo fragmentų arba naudoti pateiktus grafinių parinkčių aprašymus kaip nuorodą.

Tolesniuose skyriuose (4–8) pateikiamas bendrų duomenų apdorojimo ir statistinių modelių kūrimo procedūrų aprašymas, iliustruotas keliomis dešimtimis pavyzdžių. Jie apima Trumpas aprašymas analizės algoritmai, pagrindiniai gauti rezultatai ir galima jų interpretacija. Jei įmanoma, stengėmės išvengti piktnaudžiavimo „ritualinėmis“ frazėmis, būdingomis daugeliui taikomosios statistikos vadovų, cituodami gerai žinomas teoremas ir daugiapakopes skaičiavimo formules. Visų pirma buvo akcentuojamas praktinis pritaikymas – kad skaitytojas, vadovaudamasis tuo, ką perskaitė, galėtų analizuoti savo duomenis ir pristatyti rezultatus kolegoms.

Šios dalies sekcijos sudaromos atsižvelgiant į pateiktos medžiagos sudėtingumą.

4 ir 5 skyriai skirti skaitytojams, kurie domisi statistika tik kaip įvadinio universiteto kurso dalis. 6 ir 7 skyriuose, remiantis vieninga bendrųjų tiesinių modelių teorija, pateikiamos dispersinės ir regresinės analizės bei pateikiami įvairūs modelių tyrimo ir struktūrinio identifikavimo algoritmai. 8 skyrius yra skirtas kai kuriems šiuolaikiniams apibendrintų regresijos modelių kūrimo ir analizės metodams.

Kadangi erdvinė analizė ir rezultatų rodymas geografiniuose žemėlapiuose ir diagramose nuolat domina tyrėjus, 9 skyriuje pateikiami keli tokių vizualizavimo metodų pavyzdžiai.

Mūsų vadovas skirtas studentams, magistrantams, taip pat jauniems ir žinomiems mokslininkams, norintiems įvaldyti duomenų analizę ir vizualizavimą naudojant R aplinką. Tikimės, kad perskaitę šį vadovą šiek tiek suprasite, kaip veikia R, kur galite gauti daugiau informacijos, taip pat kaip atlikti paprastas ir gana sudėtingas duomenų analizės užduotis.

Failai su visų knygos skyrių R kodo scenarijais, taip pat jų vykdymui reikalingos šaltinio duomenų lentelės yra laisvai prieinami atsisiųsti iš GitHub saugyklos https://github.com/ranalytics/r-tutorials, taip pat iš Volgos baseino ekologijos instituto svetainės RAS nuoroda http://www.ievbras.ru/ecostat/Kiril/R/Scripts.zip.

Pažymėtina, kad šio vadovo tekstas yra pateiktas autoriaus leidime, todėl, nepaisant visų mūsų pastangų, yra tikimybė, kad jame gali būti rašybos klaidų, gramatinių netikslumų ir nelaimingų frazių. Būsime dėkingi jums, Skaitytojau, kad pranešate apie šiuos ir kitus aptiktus defektus paštu [apsaugotas el. paštas]. Taip pat būsime dėkingi už visas kitas pastabas ir pasiūlymus dėl šio darbo.

–  –  –

1. PAGRINDINĖS STATISTINĖS APLINKOS KOMPONENTAI R

1.1. R aplinkos atsiradimo istorija ir pagrindiniai organizavimo principai Statistinės analizės ir duomenų vizualizavimo sistema R susideda iš šių pagrindinių dalių:

° aukšto lygio programavimo kalba R, leidžianti vienoje eilutėje įgyvendinti įvairias operacijas su objektais, vektoriais, matricomis, sąrašais ir pan.;

° didelis duomenų apdorojimo funkcijų rinkinys, surinktas į atskirus paketus;

° sukurta pagalbos sistema, apimanti aplinkos komponentų atnaujinimą, interaktyvią pagalbą ir įvairius mokomuosius išteklius, skirtus tiek pirminiam R tyrimui, tiek vėlesnėms konsultacijoms dėl kylančių sunkumų.

Kelionės pradžia siekia 1993 m., kai du jauni Naujosios Zelandijos mokslininkai Rossas Ihaka ir Robertas Gentlemanas paskelbė apie savo naują plėtrą, kurią pavadino R. Jie rėmėsi sukurtos komercinės statistinių duomenų apdorojimo sistemos S-PLUS programavimo kalba. ir sukūrė nemokamą, nemokamą įgyvendinimą, kuris nuo pirmtako skiriasi lengvai išplečiama moduline architektūra. Netrukus atsirado paskirstyta R paketų saugojimo ir platinimo sistema, žinoma santrumpa „CRAN“ (Comprehensive R Archive Network – http://cran.r-project.org), kuri yra pagrindinė organizacijos idėja. iš kurių yra nuolatinis taikomų duomenų apdorojimo įrankių plėtra, kolektyvinis testavimas ir operatyvus platinimas.

Paaiškėjo, kad toks nuolatinių ir gerai koordinuotų tūkstančių nesavanaudiškų intelektualių kūrėjų galingos „kolektyvinės žvalgybos“ pastangų produktas pasirodė esąs daug efektyvesnis nei komercinės statistikos programos, kurių licencijos kaina gali siekti kelis tūkstančius. dolerių. Kadangi R yra mėgstamiausia profesionalių statistikų kalba, visi naujausi statistikos mokslo pasiekimai greitai tampa prieinami R vartotojams visame pasaulyje papildomų bibliotekų pavidalu. Jokia komercinės statistinės analizės sistema šiandien taip greitai nesivysto. R turi didelę armiją vartotojų, kurie informuoja papildomų bibliotekų autorius ir pačią R sistemą apie aptiktas klaidas, kurios operatyviai ištaisomos.

R skaičiavimo kalba, nors ir reikalauja tam tikrų pastangų, puikių paieškos įgūdžių ir enciklopedinės atminties, leidžia greitai atlikti skaičiavimus, kurie savo įvairove yra praktiškai „neišsenkami kaip atomas“. 2014 m. liepos mėn. entuziastai iš viso pasaulio parašė 6 739 papildomas bibliotekas R, įskaitant 137 506 funkcijas (žr.

http://www.rdocumentation.org), kurios žymiai išplečia pagrindines sistemos galimybes. Labai sunku įsivaizduoti kokią nors klasę statistiniais metodais, kuri šiandien dar neįdiegta R paketų pavidalu, įskaitant, žinoma, visą „džentelmenų rinkinį“: tiesinius ir apibendrintus tiesinius modelius, netiesinės regresijos modelius, eksperimentinį dizainą, laiko eilučių analizę, klasikinius parametrinius ir neparametrinius testus, Bajeso statistika, klasterių analizė ir išlyginimo metodai. Galingų vizualizacijos įrankių pagalba analizės rezultatus galima apibendrinti įvairių grafikų ir diagramų pavidalu. Be tradicinės statistikos, sukurtas funkcionalumas apima daugybę skaitinių matematikos algoritmų, optimizavimo metodų, sprendimų diferencialines lygtis, modelio atpažinimas ir kt. Genetikai ir sociologai, kalbininkai ir psichologai, chemikai ir gydytojai, GIS ir žiniatinklio technologijų specialistai gali atrasti savo specifinius duomenų apdorojimo metodus R paketuose.

„Patentuota“ R dokumentacija yra labai didelė ir ne visada gerai parašyta (pagal keistą anglų kalbos literatūros tradiciją išleidžiama per daug žodžių, apibūdinant nereikšmingas tiesas, o svarbius punktus bėgti per šabloną). Tačiau, be to, pirmaujantys pasaulio leidėjai (Springer, Cambridge University Press ir Chapman & Hall / CRC) arba tiesiog atskiros entuziastų komandos yra išleidusios daugybę knygų, kuriose aprašomi įvairūs duomenų analizės R aspektai (žr., pvz. , literatūros sąrašas svetainėje „Psychodiagnostics Encyclopedia“, http://psylab.info/R:Literature). Be to, yra keletas aktyvių tarptautinių ir Rusijos R vartotojų forumų, kuriuose kiekvienas gali paprašyti pagalbos iškilus problemai. Literatūros sąraše pateikiame porą šimtų knygų ir internetinių nuorodų, į kurias patariame atkreipti ypatingą dėmesį mokantis R.

Tiesioginis praktinio darbo mokymas R susideda iš a) R kalbos konstrukcijų įsisavinimo ir susipažinimo su duomenų analizę atliekančių iškvietimo funkcijų ypatumais ir b) įgūdžių dirbant su programomis, įgyvendinančiomis specifinius duomenų analizės ir vizualizavimo metodus. .

R vartotojo sąsajos įrankių pasirinkimas yra prieštaringas ir labai priklauso nuo vartotojo skonio. Net autoritetingi ekspertai neturi bendro sutarimo.

Vieni mano, kad nėra nieko geresnio už standartinę R konsolės sąsają. Kiti mano, kad patogiam darbui verta įdiegti vieną iš turimų integruotų kūrimo aplinkų (IDE) su gausiu mygtukų meniu rinkiniu. Pavyzdžiui, nemokama RStudio integruota kūrimo aplinka yra puiki galimybė.

Žemiau daugiausia dėmesio skirsime konsolinės versijos aprašymui ir darbui su R Commander, tačiau skaitytojui tolimesniems tyrinėjimams gali padėti įvairių IDE versijų apžvalga, pateikta Shipunov ir kt. knygos priede. (2014).

Vienas R ekspertas Josephas Rickertas mano, kad mokymosi R procesą galima suskirstyti į šiuos etapus (daugiau informacijos žr.

jo straipsnis inside-r.org):

1. Susipažinimas su bendraisiais R bendruomenės kultūros principais ir programine aplinka, kurioje buvo kuriama ir veikia R kalba Pagrindinių ir pagalbinių išteklių lankymas ir gero įvadinio vadovėlio įsisavinimas. Įdiegti R vartotojo kompiuteryje ir vykdyti pirmuosius bandomuosius scenarijus.

2. Duomenų skaitymas iš standartinių operacinės sistemos failų ir užtikrintas R funkcijų naudojimas, siekiant atlikti ribotą vartotojui žinomų statistinės analizės procedūrų rinkinį.

3. Pagrindinių R kalbos struktūrų naudojimas paprastoms programoms rašyti.

Savo funkcijų rašymas. Susipažinimas su duomenų struktūromis, su kuriomis R gali dirbti, ir sudėtingesnėmis kalbos ypatybėmis. Darbas su duomenų bazėmis, tinklalapiais ir išoriniais duomenų šaltiniais.

4. Rašymas sudėtingos programos R kalba Savarankiškas vystymasis ir gilus vadinamųjų S3 ir S4 klasių objektų struktūros supratimas.

5. Vystymasis profesionalias programas R kalba. Savarankiškas papildomų bibliotekos modulių kūrimas R.

Dauguma vidutinių R vartotojų sustoja ties 3 etapu, nes...

Iki to laiko įgytų žinių jiems visiškai pakanka pagrindinės profesinės veiklos profilio statistinėms užduotims atlikti.

Tai yra maždaug tiek, kiek mes aprašome R kalbą šiame vadove.

Įdiegti ir konfigūruoti bazinę R statistinę aplinką yra gana paprasta. 2014 m. liepos mėn. dabartinė versija yra R 3.1.1, skirta 32 ir 64 bitų „Windows“ (galimi ir visų kitų įprastų operacinių sistemų platinimai). Sistemos platinimo rinkinį kartu su baziniu 29 paketų rinkiniu (54 megabaitais) galite atsisiųsti visiškai nemokamai iš pagrindinės projekto svetainės http://cran.r-project.org arba rusiško „veidrodžio“ http://cran .gis-lab.info. Sistemos diegimo procesas iš atsisiųsto platinimo nesukelia jokių sunkumų ir nereikalauja jokių specialių komentarų.

Scenarijų, šaltinio duomenų ir skaičiavimo rezultatų saugojimo patogumui verta pasirinkti specialų darbo katalogą vartotojo kompiuteryje. Labai nepageidautina darbo katalogo pavadinime naudoti kirilicos simbolius.

Patartina patalpinti kelią į darbo katalogą ir kai kurias kitas parametrų parinktis, pakeičiant bet kurią teksto redaktorius sistemos failas C:\Program Files\R\Retc\Rprofile.site (ji gali būti kitoje jūsų kompiuterio vietoje). Toliau pateiktame pavyzdyje pakeistos eilutės pažymėtos žaliai.

Be to, kad nurodomas darbo katalogas, šiose eilutėse nurodoma nuoroda į Rusijos šaltinį, skirtą R paketams atsisiųsti ir automatiškai paleisti R Commander.

Rprofile.site failo sąrašas # Viską, kas po komentaro simbolio "#", aplinka nepaiso # options(papersize="a4") # options(editor="notepad") # options(pager="internal") # nustatyti ekrano tipą informacinė informacija# options(help_type="text") options(help_type="html") # nustatyti vietinės bibliotekos vietą #.Library.site - file.path(chartr("\\", "/", R.home()) , "site-library") # Įkeldami aplinką paleiskite R Commander meniu # Pridėkite "#" ženklus, jei paleisti Rcmdr nereikia local(( old - getOption("defaultPackages") options(defaultPackages = c(old, "Rcmdr ") ) )) # Apibrėžkite veidrodinį CRAN local((r - getOption("repos") r["CRAN"] - "http://cran.gis-lab" options(repos=r))) # Apibrėžkite kelias į darbo katalogą (bet kurį kitą jūsų kompiuteryje esantį katalogą) setwd("D:/R/Process/Resampling") Kalbant apie "gerą įvadinį vadovėlį", bet kuri mūsų rekomendacija bus subjektyvi. Tačiau verta paminėti oficialiai pripažintą W. Venableso ir D. Smitho R įvadą (Venables, Smith, 2014) ir R. Kabakovo knygą (Kabaco, 2011), iš dalies dėl to, kad yra jų vertimas į rusų kalbą. Taip pat atkreipkime dėmesį į tradicinį „manekenų vadovą“ (Meys, Vries, 2012) ir vadovą (Lam, 2010), parašytą su pavydėtinu olandišku pedantiškumu. Iš rusų kalbos įvadinių kursų išsamiausios yra I. Zaryadovo (2010a) ir A. Šipunovo ir kt. (2014).

1.2. Darbas su R sąsajos komandų konsole R statistinė aplinka vykdo bet kokį reikšmingų R kalbos komandų rinkinį, esantį scenarijaus faile arba pavaizduotą kaip komandų seka, išleista iš konsolės. Šiuolaikiniams vartotojams, pripratusiems prie mygtukų meniu, darbas su konsole gali atrodyti sudėtingas, nes būtina atsiminti atskirų komandų sintaksę. Tačiau, įgijus tam tikrų įgūdžių, paaiškėja, kad daugelį duomenų apdorojimo procedūrų galima atlikti greičiau ir lengviau nei, tarkime, tame pačiame Statistica pakete.

R konsolė yra dialogo langas, kuriame vartotojas įveda komandas ir mato jų vykdymo rezultatus. Šis langas pasirodo iškart paleidus aplinką (pavyzdžiui, darbalaukyje paspaudus R spartųjį klavišą). Be to, standartinėje R grafinėje vartotojo sąsajoje (RGui) yra scenarijaus redagavimo langas ir iššokantys langai su grafine informacija (paveikslėliais, diagramomis ir kt.)

Komandų režimu R gali veikti, pavyzdžiui, kaip įprastas skaičiuotuvas:

Dešinėje raginimo simbolio pusėje vartotojas gali įvesti savavališką aritmetinę išraišką, paspausti klavišą Enter ir iš karto gauti rezultatą.

Pavyzdžiui, antroje komandoje aukščiau esančiame paveikslėlyje naudojome faktorių ir sinuso funkcijas, taip pat įtaisytąjį p. Teksto forma gautus rezultatus galima pasirinkti pele ir per mainų sritį nukopijuoti į bet kurį operacinės sistemos tekstinį failą (pavyzdžiui, Word dokumentą).

Dirbant su RGui, visais atvejais rekomenduojame sukurti failą su scenarijumi (t.y. R kalbos komandų seka, atliekančia tam tikrus veiksmus). Paprastai tai yra įprastas tekstinis failas bet kokiu pavadinimu (bet, kad būtų aiškumo, geriau su plėtiniu *.r), kurį galima sukurti ir redaguoti naudojant įprastą redaktorių, pvz., Notepad. Jei šis failas yra, geriausia jį įdėti į darbo katalogą, o tada paleidus R ir pasirinkus meniu punktą „File Open Script“, šio failo turinys atsiras „R Editor“ lange. Galite vykdyti scenarijaus komandų seką iš meniu elemento „Redaguoti Vykdyti viską“.

Taip pat galite pele pasirinkti prasmingą fragmentą iš bet kurios paruošto scenarijaus vietos (nuo vieno kintamojo pavadinimo iki viso turinio) ir paleisti šį bloką vykdyti. Tai galima padaryti keturiais būdais: iš pagrindinio ir kontekstinis meniu, klavišų kombinaciją Ctrl+R arba mygtuką įrankių juostoje.

Pateiktame paveikslėlyje buvo atlikti šie veiksmai:

° R-objekto gadm su duomenimis apie Baltarusijos Respublikos teritorinį padalijimą atsisiųsta iš nemokamo interneto šaltinio Global Administrative Areas (GADM);

° Lotynizuoti miestų pavadinimai pakeičiami įprastai vartojamais atitikmenimis;

° naudojant sp paketo funkciją spplot() grafiniame lange rodomas administracinis respublikos žemėlapis, kurį naudojant meniu galima nukopijuoti į mainų sritį arba išsaugoti kaip standartinį meta- ar rastrinį grafinį failą.

Atskirų operatorių reikšmę plačiau panagrinėsime tolesniuose skyriuose, tačiau čia atkreipsime dėmesį, kad scenarijuje pasirinkę ir paleisdami simbolių kombinaciją Regions@data, pulto lange gausime visus duomenų rinkinio duomenis objektas ir komanda, sudaryta iš pasirinktų simbolių gadm, Regionai @data$NAME_1 pateiks mums administracinių centrų pavadinimų sąrašą prieš ir po jo modifikavimo.

Taigi R redaktorius leidžia lengvai naršyti po scenarijų, redaguoti ir vykdyti bet kokį komandų derinį bei rasti ir pakeisti konkrečias kodo dalis. Aukščiau minėtas RStudio priedas leidžia papildomai atlikti kodo sintaksės paryškinimą, automatinį kodo užbaigimą, komandų seką „supakuoti“ į funkcijas, skirtas tolesniam jų naudojimui, dirbti su Sweave ar TeX dokumentais ir kitas operacijas, kurios bus naudingos pažengusiam vartotojui. .

R turi didelę integruotą informacinę medžiagą, kurią galima pasiekti tiesiogiai iš RGui.

Jei paleisite komandą help.start() iš konsolės, jūsų interneto naršyklėje atsidarys puslapis, kuriame galėsite pasiekti visus pagalbos išteklius: pagrindinius vadovus, autoriaus medžiagą, atsakymus į dažniausiai užduodamus klausimus, pakeitimų sąrašus, nuorodas į pagalbą kituose dalykuose. R objektai ir kt. .d.:

Pagalbą dėl konkrečių funkcijų galima gauti naudojant šias komandas:

° pagalba („foo“) ar? foo – pagalba dėl foo funkcijos (kabutės neprivalomos);

° help.search("foo") arba ?? foo – ieškokite visų pagalbos failų, kuriuose yra foo;

° example("foo") – funkcijos foo naudojimo pavyzdžiai;

° RSiteSearch("foo") – nuorodų paieška internetiniuose vadovuose ir laiškų archyvuose;

° apropos("foo", mode="function") – visų funkcijų su kombinacija foo sąrašas;

° vinjetė("foo") – pamokų sąrašas tema foo.

1.3. Darbas su R Commander paketo meniu Patogus įrankis pradedantiesiems vartotojui įvaldyti R skaičiavimus yra R Commander - nuo platformos nepriklausoma grafinė sąsaja mygtuko meniu stiliaus, įdiegta Rcmdr pakete. Tai leidžia atlikti daugybę statistinės analizės procedūrų, nesinaudojant išankstiniu funkcijų įsiminimu komandų kalba, tačiau netyčia prie to prisideda, nes visos vykdomos instrukcijos rodomos specialiame lange.

Rcmdr, kaip ir kitus plėtinius, galite įdiegti iš R konsolės meniu „Paketai Įdiegti paketą“, tačiau geriau paleisti komandą:

install.packages("Rcmdr", dependencies=TRUE), kur įjungus priklausomybių parinktį bus įdiegtas visas kitų paketų, kurių gali prireikti apdorojant duomenis per Rcmdr meniu, rinkinys.

„R Commander“ paleidžiamas, kai „Rcmdr“ paketas įkeliamas per meniu „Paketų įgalinimas paketą“ arba su komanda library(Rcmdr). Jei dėl kokių nors priežasčių buvo nuspręsta analizuoti duomenis tik naudojant „R Commander“, tada automatinis atsisiuntimasšį grafinį apvalkalą, paleidžiant R, reikia redaguoti failą Rprofile.site, kaip parodyta 1.1 skyriuje.

Pažiūrėkime, kaip dirbti „R Commander“, naudodami pavyzdį koreliacinė analizė duomenys apie dvigeldžių moliuskų Dreissena polymorpha užsikrėtimo blakstiena Conchophthirus acuminatus laipsnį trijuose Baltarusijos ežeruose (Mastitsky S.E. // BioInvasions Records.

2012. V. 1. P 161–169). Lentelėje su pradiniais duomenimis, kuriuos atsisiunčiame iš figshare svetainės, mus sudomins du kintamieji: moliusko kiauto ilgis (ZMilgis, mm) ir moliuske rastų blakstienų skaičius (CAnumber). Šis pavyzdys bus išsamiai aptartas 4 ir 5 skyriuose, todėl čia mes nesigilinsime į analizės prasmę, o sutelksime dėmesį į darbo su Rcmdr techniką.

Toliau iššokančiuosiuose languose apibrėžiame duomenų įkėlimo režimą ir interneto nuorodos adresą. Nesunku suprasti, kad galime lengvai įkelti tuos pačius duomenis iš vietinio tekstinio failo, „Excel“ darbaknygės ar duomenų bazės lentelės. Norėdami įsitikinti, kad mūsų duomenys įkelti teisingai (arba, jei reikia, juos redaguoti), spustelėkite mygtuką „Peržiūrėti duomenis“.

Duomenų organizavimo apibrėžimo langas Įkeltos lentelės fragmentas

Antrame etape meniu „Statistika“ pasirinkite „Koreliacijos testas“:

Parenkame porą koreliuojančių kintamųjų ir išvesties lange gauname Pearson koreliacijos koeficientą (R = 0,467), pasiektą statistinio reikšmingumo lygį (p reikšmė 2,2e-16) ir 95% pasikliovimo ribas.

–  –  –

Gautus rezultatus galima lengvai nukopijuoti iš išvesties lango per mainų sritį.

Dabar gauname grafinį koreliacijos priklausomybės vaizdą. Pasirinkime CAnumerio priklausomybės nuo ZMilgio sklaidos diagramą ir pateikime jai kraštinių diapazono diagramas, tiesinę tendencijos liniją mažiausiųjų kvadratų metodu (žalia spalva), liniją, išlygintą vietinės regresijos metodu (raudona), pateiktą su patikimumu. regionas (punktyrinė linija). Kiekvieno iš trijų ežerų (ežero kintamasis) eksperimentiniai taškai bus pavaizduoti skirtingais simboliais.

–  –  –

Grafikas nukopijuotas iš R Commander grafinio lango Spustelėjus visus R Commander meniu mygtukus, scenarijaus lange pasirodo instrukcijos R kalba.

Mūsų atveju jie atrodo taip:

Shellfish read.table("http://figshare.com/media/download/98923/97987", header=TRUE, sep="\t", na.strings="NA", dec=".", juostelė. white=TRUE) cor.test(Clams$CAnumber, Clams$ZMlength, alternative="dvipusis",metodas="pearson")scatterplot(CAnumber ~ ZMlength | Lake, reg.line=lm, smooth=TRUE, spread= TRUE, boxplots="xy", span=0.5, ylab="Blakstienos skaičius", xlab="Shell ilgis", by.groups=FALSE, data=Mollusks) Pats scenarijus arba išvesties rezultatai (taip pat abu kartu ) gali būti išsaugotas failuose ir kartojamas bet kuriuo metu. Tą patį rezultatą galite gauti nepaleidę R Commander, įkeldami išsaugotą failą per R konsolę.

Apskritai, nežinodami R kalbos konstrukcijų (arba tiesiog nenorėdami apkrauti savo atminties jas atsimindami), naudodami Rcmdr galite apdoroti duomenis naudodami beveik visus pagrindinius statistinius metodus. Pateikiami parametriniai ir neparametriniai testai, įvairių nuolatinių ir diskrečių skirstinių pritaikymo metodai, daugiamatių nenumatytų atvejų lentelių analizė, vienamatė ir daugiamatė dispersijos analizė, pagrindinių komponentų analizė ir klasterizavimas, įvairios apibendrintų regresijos modelių formos ir kt. Sukurtas aparatas analizei ir Išbandyti gautus modelius verta kruopštaus tyrimo.

Išsamų darbo su R Commander technikų aprašymą bei duomenų apdorojimo algoritmų diegimo ypatybes galima rasti vadovuose (Larson-Hall, 2009; Karp, 2014).

Tačiau kaip gestų kalba negali pakeisti žmogaus bendravimo natūralia kalba, taip ir R kalbos žinios gerokai praplečia vartotojo galimybes ir bendravimą su R aplinka daro malonų ir įdomų. Ir čia automatinė generacija Scenarijų rašymas naudojant R Commander gali būti puikus būdas skaitytojui susipažinti su R kalbos operatoriais ir išmokti atskirų funkcijų iškvietimo specifiką. Tolesnius vadovo skyrius skirsime duomenų apdorojimo procedūrų aptarimui tik kalbos konstrukcijų lygmeniu.

1.4. Objektai, paketai, funkcijos, įrenginiai R kalba priklauso vadinamųjų aukšto lygio objektinio programavimo kalbų šeimai. Ne specialistui griežtas „objekto“ sąvokos apibrėžimas yra gana abstraktus. Tačiau dėl paprastumo galime vadinti viską, kas buvo sukurta dirbant su R objektais.

Yra du pagrindiniai objektų tipai:

1. Objektai, skirti duomenims saugoti („duomenų objektai“) – tai atskiri kintamieji, vektoriai, matricos ir masyvai, sąrašai, faktoriai, duomenų lentelės;

2. Funkcijos („funkciniai objektai“) yra pavadintos programos, skirtos kurti naujus objektus arba atlikti su jais tam tikrus veiksmus.

R aplinkos objektai, skirti kolektyviniam ir laisvam naudojimui, sujungiami į paketus, kuriuos vienija panašios temos ar duomenų apdorojimo metodai. Yra tam tikras skirtumas tarp terminų paketas ("paketas") ir biblioteka ("biblioteka"). Terminas „biblioteka“ apibrėžia katalogą, kuriame gali būti vienas ar daugiau paketų. Sąvoka „paketas“ reiškia funkcijų rinkinį, HTML vadovo puslapius ir duomenų objektų pavyzdžius, skirtus testavimui ar mokymui.

Paketai įdiegiami tam tikrame operacinės sistemos kataloge arba pašalintoje formoje gali būti saugomi ir platinami archyvuotuose *.zip failuose Windows failai(paketo versija turi atitikti konkrečią jūsų R versiją).

Visą informaciją apie paketą (versiją, pagrindinę teminę sritį, autorius, pakeitimų datas, licencijas, kitus funkciniu požiūriu susijusius paketus, visą funkcijų sąrašą, nurodantį jų paskirtį ir kt.) galite gauti komanda

biblioteka(help=paketo_pavadinimas), pvz.:

biblioteka(help=Matrix) Visi R paketai skirstomi į vieną iš trijų kategorijų: bazinis („bazinis“), rekomenduojamas („rekomenduojamas“) ir kitas vartotojo įdiegtas.

Galite gauti jų sąrašą konkrečiame kompiuteryje išleisdami komandą library() arba:

install.packages(priority = "base") install.packages(priority = "rekomenduojama") # Gauti visas sąrašas paketų paketų sąrašas - rownames(installed.packages()) # Išvesti informaciją į mainų sritį Excel formatu write.table(packlist,"clipboard",sep="\t", col.names=NA) Paprastai įtraukiami pagrindiniai ir rekomenduojami paketai į R diegimo failą.

Žinoma, nereikia iš karto įdiegti daug skirtingų paketų rezerve.

Norėdami įdiegti paketą, R Console komandos lange tiesiog pasirinkite meniu elementą „Paketai Įdiegti paketą (-us)“ arba įveskite, pavyzdžiui, komandą:

install.packages(c("vegan", "xlsReadWrite", "automobilis"))

Paketus galima atsisiųsti, pavyzdžiui, iš rusiško „veidrodžio“ http://cran.gis-lab.info, kuriam patogu naudoti Rprofile.site failo leidimą, kaip parodyta 1.1 skyriuje.

Kitas paketų diegimo variantas yra nueiti į svetainę http://cran.gis-lab.info/web/packages, pasirinkti norimą paketą kaip zip failą ir atsisiųsti į pasirinktą aplanką kompiuteryje.

Tokiu atveju galite peržiūrėti visą pakuotėje esančią informaciją, ypač jame esančių funkcijų aprašymą, ir nuspręsti, kiek jos jums reikia. Tada turite vykdyti komandų meniu elementą „Paketai Įdiekite paketus iš vietinių ZIP failų“.

Kai paleidžiate RGui konsolę, įkeliami tik kai kurie pagrindiniai paketai. Norėdami inicijuoti bet kurį kitą paketą, prieš tiesiogiai naudodami jo funkcijas turite išleisti bibliotekos (paketo_pavadinimas) komandą.

Galite nustatyti, kurie paketai įkeliami kiekvienu seanso momentu, išduodami komandą:

sessionInfo() R versija 2.13.2 (2011-09-30) Platforma: i386-pc-mingw32 / i386 (32 bitų)

–  –  –

kitos pridedamos pakuotės:

Veganiškas_2,0-2 permutas_0,6-3

įkelta per vardų erdvę (ir neprisegta):

Grid_2.13.2 lattice_0.19-33 tools_2.13.2 Šioje lentelėje pateikiame paketų, kurie buvo naudojami šioje knygoje pateiktuose scenarijuose, sąrašą (galbūt ne iki galo):

R paketai Paskirtis „Pagrindiniai“ paketai Pagrindinės konstrukcijos R bazė Paketų kompiliatorius R kompiliatorius Lentelių su duomenimis, skirtomis funkcijų testavimui ir demonstravimui duomenų rinkiniai Pagrindinės grafikos funkcijos grafika Grafikos įrenginių tvarkyklės, spalvų paletės, šriftai grĮrenginiai Grafinių sluoksnių tinklelio kūrimo funkcijos Objektinis programavimas komponentai (klasės , metodai metodai) Funkcijos darbui su regresijos splainais skirtingi tipai splainai Pagrindinės statistinės analizės statistikos funkcijos S4 klasės statistinių funkcijų metodai stats4 Vartotojo sąsajos komponentai (meniu, pasirinkimo langeliai ir kt.) tcltk Informacijos palaikymo, administravimo ir dokumentavimo įrankiai Įvairios derinimo, I/O, archyvavimo ir kt.

Utils "Rekomenduojami" paketai Įvairių įkrovos ir jackknife procedūrų funkcijos įkrovimas Įvairūs algoritmai nehierarchinei klasifikacijai ir atpažinimo klasei Skirstymo ir hierarchinių klasterijų algoritmai Kodų analizė ir tikrinimas R kodų įrankiai Įvairių formatų failų skaitymas ir rašymas (DBF, SPSS, DTA, SPSS, DTA). , Stata) užsienio Funkcijos, palaikančios branduolio išlyginimo optimizavimą KernSmooth Išplėstinio funkcionalumo grafinės funkcijos (Sarkar, 2008) gardelė Duomenų ir statistinių funkcijų rinkinys (Venables, Ripley, 2002) MASS Operacijos su matricomis ir vektoriais Matrica Apibendrinta priedų ir mišrių efektų modeliai ir netiesiniai modeliai su mišriais efektais nlme Neuroniniai tinklai tiesioginio sklidimo nnet Klasifikacinių ir regresijos medžių rpart konstravimas Krigingo funkcijos ir taškų erdvinio pasiskirstymo analizė erdvinė Išlikimo analizė (Cox modelis ir kt.) išlikimas Darbo metu įdiegti paketai adegenet Genetinių atstumų analizės algoritmai arm Regresijos modelių analizė - priedas į knygą (Gelman, Hill , 2007) automobilis Procedūros, susijusios su taikomąja regresine analize corrplot Koreliacijos matricų atvaizdavimas grafine forma fitdistrplus Statistinių skirstinių parametrų parinkimas FWDselect, Informacinių kintamųjų rinkinio parinkimas regresijos modelių pakete gamair Duomenų rinkiniai testavimui priediniai geosferos modeliai Geografinių atstumų įvertinimas ggplot2 Pažangus grafikos paketas su dideliu funkcionalumu DAAG Duomenų analizė ir knygos grafinės funkcijos (Maindonald, Braun, 2010) Hmisc Harrell funkcijų rinkinys HSAUR2 Knygos priedas (Everitt, Hothorn) statistinis ISw01 Primary analizė R jpeg. Darbas su grafiniais failais jpeg lars Specialūs regresijos tipai (LARS, Lasso ir kt.) lavaan Patvirtinimo analizė ir struktūrinių lygčių modeliai lmodel2 I ir II tipų (MA, SMA, RMA) regresijos modelių įgyvendinimas maptools Darbo įrankiai su geografiniais žemėlapiais pelėmis Trūkstamų reikšmių analizės ir užpildymo procedūros momentai Pavyzdžių momentų skaičiavimo funkcijos šiaurės rytų Hipotezės tikrinimo kriterijai normalus skirstinys išskyrimai Išskirtinių duomenų analizė pastecs Erdvinių ir laiko eilučių analizė ekologijoje pls Regresija ant pagrindinių komponentų pwr Hipotezių performavimo statistinės galios įvertinimas Lanksti duomenų lentelių transformacija robustbase Tvirti regresijos modelių kūrimo metodai rootSolve Funkcijos su keliais kintamaisiais šaknų radimas svarstyklės Spalvų skalių parinkimas sem Struktūrinių lygčių modeliai semPlot Struktūrinių ryšių vizualizacija sm Pasiskirstymo tankio įvertinimas ir išlyginimo metodai sp Klasės ir metodai prieigai prie erdvinių duomenų spatstat Erdvinės statistikos metodai, modelių parinkimas spdep Erdvinės priklausomybės: geostatistiniai metodai ir išvesties informacija starga apie statistinius modelius skirtingais formatais vcd Kategorinių duomenų vizualizavimas Aplinkos skaičiavimų atlikimas bendruomenės (panašumo, įvairovės ir veganų lizdų, ordinacijos ir daugiamatės analizės matavimai) Jei bandome įkelti paketą, kuris dar neįdiegtas R, arba bandome naudoti dar neatsisiųsto paketo funkcijas, gausime sistemos pranešimus:

sem(model, data=Politinė demokratija) Klaida: nepavyksta rasti funkcijos "sem" library(lavaan) Klaida bibliotekoje(lavaan) : nėra paketo pavadinimu "lavaan" Ši funkcija, kurią pristatė K. Cichini, kaip įvestį priima naudotų paketų naudotojų sąrašą ir išsiaiškinkite, kuriuos iš jų reikia atsisiųsti, o kuriuos reikia iš anksto įdiegti. Norint suprasti scenarijų, reikia žinoti kitame skyriuje aprašytas R kalbos konstrukcijas, tačiau susidomėjęs skaitytojas gali grįžti prie šių komandų vėliau.

instant_pkgs - function(pkgs) ( pkgs_miss - pkgs)] # Įdiekite paketus, kurie nėra paruošti atsisiųsti:

if (length(pkgs_miss) 0) ( install.packages(pkgs_miss) ) # Atsisiųskite dar neatsisiųstus paketus:

Attached - search() attach_pkgs - added need_to_attach - pkgs if (ilgis(reikia_pridėti) 0) ( for (i in 1:length(need_to_tattach)) Reikalauti

instant_pkgs(c("base", "jpeg", "vegan"))

Galite gauti kiekvieno paketo funkcijų sąrašą, pavyzdžiui, vykdydami komandą:

ls(pos = "paketas:vegan") Pastaba: ls() yra bendros paskirties funkcija, skirta objektams tam tikroje aplinkoje išvardyti. Aukščiau pateikta komanda įdiegia veganų paketą kaip tokią aplinką. Jei šią komandą išduosime be parametrų, gausime objektų, sukurtų dabartinės sesijos metu, sąrašą.

Galite gauti bet kurios įkelto paketo funkcijos įeinančių parametrų argumentų sąrašą, išleisdami komandą args ().

Pavyzdžiui, paleidžiant linijinį modelį, gaunantį funkciją lm(), kurią vėliau plačiai naudojame, nustatomi parametrai:

Funkcija Args(lm) (formulė, duomenys, poaibis, svoriai, na.veiksmas, metodas = "qr", modelis = TRUE, x = FALSE, y = FALSE, qr = TRUE, singular.ok = TRUE, kontrastai = NULL, poslinkis,...) Jei įvesite komandą, susidedančią tik iš funkcijos santrumpos (pavyzdžiui, apskaičiuojant IQR tarpkvartilinį diapazoną), galite gauti funkcijos šaltinio tekstą R kalbos kodais:

IQR funkcija (x, na.rm = FALSE) diff(quantile(as.numeric(x), c(0,25, 0,75), na.rm = na.rm, names = FALSE)) Pažangus vartotojas gali atlikti šio parametro pakeitimus kodą ir „peradresuokite“ standartinės funkcijos iškvietimą į savo versiją.

Tačiau jei taip pat norime pažvelgti į prognozės () funkcijos kodą, kuris naudojamas apskaičiuoti linijinio modelio numatomas reikšmes, gausime:

numatyti funkcija (objektas,...) UseMethod("prognozuoti") Šiuo atveju numatyti() yra "universali" funkcija: priklausomai nuo to, kuris modelio objektas pateikiamas į jo įvestį (lm tiesinei regresijai, glm Puasono arba logistinei regresija, mišrių efektų modelio lme ir kt.), atnaujinamas tinkamas numatomų verčių gavimo metodas.

Tiksliau, ši funkcija naudojama įgyvendinant šiuos metodus:

metodai("prognozuoti") numatyti.ar* prognozuoti.Arima* prognozuoti.arima0* prognozuoti.glm prognozuoti.HoltWinters* prognozuoti.lm prognozuoti.loesas* prognozuoti.mlm prognozuoti.nls* prognozuoti.poli prognozuoti.ppr* prognozuoti.prcomp* ennusta.princomp* expect.smooth.spline* expect.smooth.spline.fit* ennusta.StructTS* Nematomos funkcijos pažymėtos žvaigždute Šis pavyzdys yra susijęs su objektinio programavimo (OOP) idėjomis, kuriomis grindžiama R sistema. S3 stilius, metodas, griežtai kalbant, yra funkcija, kurią iškviečia kita bendroji funkcija, pvz., print(), plot() arba summary(), priklausomai nuo įvestyje pateikto objekto klasės. Šiuo atveju klasės atributas yra atsakingas už „objekto orientaciją“, kuri užtikrina teisingą išsiuntimą ir reikiamo metodo iškvietimą tam tikram objektui. Taigi „metodo funkcija“, skirta apibendrinto tiesinio modelio prognozuojamoms reikšmėms gauti, turės iškvietimą prognozuoti.glm(), kai išlyginama splainais – prognoz.smooth.spline() ir kt. Detali informacija S3 OOP modelį rasite S3Methods pagalbos skiltyje, o pažangesnį S4 modelį – Metodų skiltyje.

Galiausiai pažvelkime į keletą paprastų metodų, kaip išsaugoti darbą, atliktą per R sesiją:

° sink(failas= failo pavadinimas) – realiuoju laiku išveda sekančių komandų vykdymo rezultatus į failą su nurodytu pavadinimu; Norėdami nutraukti šią komandą, turite paleisti komandą sink() be parametrų;

° save(failas= failo pavadinimas, išsaugotų objektų sąrašas) – išsaugo nurodytus objektus dvejetainiame XDR formato faile, su kuriuo galima dirbti bet kokiu Operacinė sistema;

° load(failas= failo pavadinimas) – atkuria išsaugotus objektus esamoje aplinkoje;

° save.image(failas= failo pavadinimas) – išsaugo visus darbo metu sukurtus objektus kaip R specifinį rda failą.

Sukurtos lentelės su duomenimis perkėlimo į mainų sritį pavyzdys su struktūra suderinamu formatu Excel lapas, buvo pateikta aukščiau šiame skyriuje. 6 skyriuje bus pateiktas duomenų perdavimo iš linijinio modelio objekto į Word failą pavyzdys.

R aplinka gali generuoti reikiamos kokybės pikselių vaizdus beveik bet kokiai ekrano raiškai ar spausdinimo įrenginiui, o taip pat išsaugoti gautus grafinius langus įvairių formatų failuose. Kiekvienam grafikos išvesties įrenginiui yra tvarkyklės funkcija: galite įvesti komandą help(Devices), kad gautumėte visą tvarkyklių sąrašą.

Tarp grafikos įrenginių dažniausiai yra:

° windows() – Windows grafinis langas (ekranas, spausdintuvas arba metafailas).

° png(), jpeg(), bmp(), tiff() – išvestis į atitinkamo formato rastrinį failą;

° pdf(),postscript() – išvestis grafinę informaciją V PDF failas arba PostScript.

Baigę dirbti su išvesties įrenginiu, turėtumėte išjungti jo tvarkyklę naudodami komandą dev.off(). Galima vienu metu aktyvuoti kelis grafikos išvesties įrenginius ir juos perjungti: žr., pavyzdžiui, atitinkamą skyrių Shipunov ir kt. knygoje. (2012, p. 278).

1. R KALBOS APRAŠYMAS

2.1. R kalbos duomenų tipai Visi R duomenų objektai (taigi ir kintamieji) gali būti suskirstyti į šias klases (t. y. objektų tipus):

° skaitiniai – objektai, kuriuose yra sveikieji skaičiai (sveikasis skaičius) ir realieji skaičiai (dubliai);

° loginiai – loginiai objektai, turintys tik dvi reikšmes: FALSE (sutrumpintai F) ir TRUE (T);

° simbolis – simbolių objektai (kintamųjų reikšmės nurodomos dvigubomis arba viengubomis kabutėmis).

R kalboje galite kurti įvairių objektų (funkcijų ar kintamųjų) pavadinimus tiek lotynų, tiek kirilika, tačiau atkreipkite dėmesį, kad a (kirilica) ir a (lotynų kalba) yra du skirtingi objektai. Be to, R aplinkoje skiriamos didžiosios ir mažosios raidės, t.y. mažosios ir didžiosios raidės skiriasi. Kintamųjų pavadinimai (identifikatoriai) R turi prasidėti raide (arba tašku) ir susideda iš raidžių, skaičių, taškų ir apatinių brūkšnių.

Su komandos pagalba? pavadinimą, galite patikrinti, ar egzistuoja kintamasis arba funkcija nurodytu pavadinimu.

Patikrinimas, ar kintamasis priklauso konkrečiai klasei, tikrinama naudojant funkcijas is.skaitmenis(objekto_pavadinimas), is.integer(pavadinimas), is.logical(pavadinimas), is.character(pavadinimas) ir konvertuoti objektą į kitą tipą. galite naudoti funkcijas as.numeric (vardas), as.integer(name), as.logical(name), as.character(name).

R yra keletas specialių objektų:

° Inf – teigiama arba neigiama begalybė (dažniausiai realaus skaičiaus dalijimo iš 0 rezultatas);

° NA – „trūksta reikšmė“ (neprieinamas);

° NaN – „ne skaičius“.

Galite patikrinti, ar kintamasis priklauso kuriam nors iš šių specialių tipų, naudodami atitinkamai funkcijas is.nite(name), is.na(name) ir is.nan(name).

R išraiška yra elementų, tokių kaip priskyrimo operatorius, aritmetiniai arba loginiai operatoriai, objektų pavadinimai ir funkcijų pavadinimai, derinys. Išraiškos vykdymo rezultatas paprastai iš karto rodomas komandos arba grafiniame lange. Tačiau, kai atliekama priskyrimo operacija, rezultatas išsaugomas atitinkamame objekte ir nerodomas ekrane.

Kaip priskyrimo operatorius R, galite naudoti simbolį „=“ arba simbolių porą „-“ (priskiriant konkrečią reikšmę objektui kairėje) arba „-“ (priskiriant reikšmę objektui, esančiam teisingai). Manoma, kad geras programavimo stilius naudojamas „-“.

R kalbos posakiai yra išdėstyti scenarijaus eilutė po eilutės. Vienoje eilutėje galite įvesti kelias komandas, atskirdami jas simboliu „;“. Viena komanda taip pat gali būti dedama į dvi (ar daugiau) eilutes.

skaitiniai objektai gali sudaryti išraiškas naudojant tradicines aritmetines operacijas + (sudėtis), – (atimtis), * (daugyba), / (dalyba), ^ (eksponentiškumas), %/% (sveiko skaičiaus padalijimas), %% (likutis) iš padalijimo) . Operacijos turi įprastą prioritetą, t.y. Pirmiausia atliekamas eksponentinis koeficientas, tada daugyba arba padalijimas, tada sudėjimas arba atėmimas. Išraiškose gali būti naudojami skliaustai, o operacijos juose turi didžiausią prioritetą.

Būlio išraiškos gali būti sudarytas naudojant šiuos loginius operatorius:

° "Lygi" == ° "Nelygus" != ° "Mažiau nei" ° "Didesnis nei" ° "Mažiau arba lygus" = ° "Didesnis nei arba lygus" = ° "Loginis IR" & ° "Loginis ARBA" | ° "Logiška NE"!

PAGALBA, AU ATSAKOMYBĖS PASLAUGOS G&A FONDŲ ADMINISTRAVIMAS 2-osios AMICORP GRUPĖS BENDROVĖS VEIKLOS SRITIS IŠSKIRTI IŠ MINIOS w w w.am icor p. c om AMICORP GROUP BENDROVĖS VEIKLOS SRITYS TURINYS APIE ĮMONĘ MŪSŲ PASLAUGOS Paslaugos verslo klientams Paslaugos instituciniam pardavimui Kūrimas ir valdymas...“

„Federalinė valstybinė mokomoji biudžetinė aukštojo profesinio mokymo įstaiga „Finansų universitetas prie Rusijos Federacijos Vyriausybės“ „Marketingo“ katedra ŠIUOLAIKINĖS RINKODAROS KRYPTYS: TEORIJA, METODIKA, PRAKTIKA KOLEKTYVINĖ MONOGRAFIJA Pagal generalinę redakciją S.V. Karpova Maskva 2011 Recenzentai: N.S. Perekalina – ekonomikos mokslų daktarė, profesorė, vadovė. Rinkodaros katedra "MATI" - Rusijos valstybinis technologijos universitetas pavadintas. K. E. Ciolkovskis S. S. Solovjovas...

„Mažas skaitmeninis informacinis biuletenis, skirtas KAVINĖMS ir ARBATOS RAKTIMAS: Ch. Redaktorius: Vesela Dabova Br.4, 2011 m. gruodžio 4 už namalyavane on tegloto e redovnata consummation už puodelį arbatos. Yra įvairių nuomonių dėl teorijos patikimumo, tačiau labai mažai faktų įrodo, kad kiekvienas arbatos puodelis derinamas su nustatytu režimu...“

„TARPTAUTINĖ TARPDISCIPLININĖ MOKSLINĖ KONFERENCIJA RADICAL Space In BETWEEN DISCIPLINES RCS 2015 KONFERENCIJOS SANTRAUKŲ KNYGA REDAKTORIAUS Romana Bokovi Miljana Zekovi Slaana Milievi NOVI SAD / SERBIJA / RUGSĖJO 1 knyga / Abcipalens 2012 m. knyga ištraukos Redaktoriai: Romana Bokovi Miljana Zekovi Slaana Milievi ISBN: 978-86-7892-733-1 Maketas: Maja Momirov Viršelio dizainas: Stefan Vuji Išleido Technikos mokslų fakulteto Architektūros ir urbanistikos katedra,...“

„VALSTYBINIS SANKTS PETERBURGO UNIVERSITETAS Geografijos ir geoekologijos fakultetas Geomorfologijos katedra DIPLOMO DALIS (baigiamasis kvalifikacinis darbas) tema: „Arkties ežerų geomorfologiniai ypatumai ir paleoklimatas (naudojant Rusijos Arkties centrinio sektoriaus ežerų pavyzdį)“ autorė: vakaro studentė Elena Aleksandrovna Morozova Moksliniai vadovai: geografijos mokslų daktarė, prof. Bolšijanovas Dmitrijus Jurjevičius mokslų daktaras, vyr mokytoja Saveljeva Larisa Anatolyevna Recenzentas: daktaras, vadovas...“

„Apacer M811 pelė yra lazerinis mini visureigis, skirtas rinkiniui. http://news.kosht.com/computer/mouse/2009/11/26/mysh_apacer_m811. kasdieninių kainų paieškos papildinys KOSHT.com Firefox naršyklė. Įdiekite vienu paspaudimu. Vienas kilobaitas. Pagrindinis puslapis Naujienos Kainos Skelbimai Darbai Forumai Įmonės Mobi Rasti Rasti naujienas Visos KOSTA naujienos Kompiuteriai ir komponentai Pelės Kompiuteriai ir komponentai Pelės Visos KOSTA naujienos Geriausios žaidimų kompiuteriai Internetinis skaičiavimas UltraPrice.by Mouse Apacer M811 – lazerinis mini visureigis [...»

„FEDERALINĖ ŠVIETIMO AGENTŪRA VALSTYBINĖ AUKŠTO PROFESINIO MOKYMO ĮSTAIGA MASKAVOS VALSTYBINIO PRAMONĖS UNIVERSITETAS (GOU MGIU) „INFORMACIJOS SISTEMOS IR TECHNOLOGIJOS“ LAIPSNIO DARBO DEPARTAMENTAS „Matinio palaikymo ir administravimo TA pagal specialybę“ Informacinės sistemos» studentė Tatjana Andrevna Chumakova tema „Atskirtų srautų apskaičiavimas už prastai sutvarkyto kūno“ Darbo vadovas: Prof., fizikos ir matematikos mokslų daktaras. n. Aleksinas Vladimiras Adamovičius...

„R PINO A/45/3 ORIGINALAS: anglų kalba DATA: 2008 m. rugpjūčio 15 d. PASAULINĖ INTELEKTINĖS NUOSAVYBĖS ORGANIZACIJA ŽENEVOS VALSTYBIŲ NARIŲ Asamblėja PINO Keturiasdešimt penktoji susitikimų serija Ženevoje, 2008 m. rugsėjo 22–30 d. I. TARPTAUTINIŲ NEVYRIAUSYBINIŲ ORGANIZACIJŲ PRIĖMIMAS STEBĖTOJOMIS 1. Ankstesnėse savo sesijose Asamblėjos priėmė keletą principų, kurie turi būti taikomi kreipdamiesi į tarptautines nevyriausybines organizacijas...“

„1 Olegas Sanajevas. KETURIS METUS TRUKSIANTIS IR ŠIMTĄ DOLERIŲ KAINANSAS KURSAS APLINK PASAULĮ Pavadinime nurodytą Jevgenijaus Aleksandrovičiaus Gvozdevo kelionės jachta Lena trukme viskas tvarkoje – ketveri metai plius dvi savaitės: 1992 m. liepos 7 d. išplaukė iš Makhačkalos uosto, 1996 m. liepos 19 d. grįžo. Tačiau kalbant apie pinigus, tai yra aiškus perdėjimas arba, tiksliau, per maža išraiška: jūs, žinoma, negalite ketverius metus gyventi iš šimto dolerių - ištiesite kojas. Tačiau pradėdamas kelionę Gvozdevas disponavo būtent tokia suma. Ir bent jau kojos...“

"Vadybos institutas, tyrimų universitetas Belgorodo valstybinis nacionalinis mokslinių tyrimų universitetas SAUGUMO FORMAVIMO TECHNOLOGIJOS, UŽTIKRINANT PERSONALO REZERVĄ VALSTYBĖS IR SAVIVALDYBĖS IR SAVIVALDYBĖS TARNYBŲ BASINO VALSTYBĖS FORMAVIMĄ Santrauka: Santrauka: Straipsnyje aptariama..."

„Lydia YANOVSKAYA PASTABOS APIE MIKHAILĄ BULGAKOVO MASKAVOS „TEKSTAS“ UDC 821.161.1 BBK 84 (2Ros-Rus)6-44 Ya64 ISBN 978-5-7516-0660-2 ISBN 978-935Harvest. ) "Tekstas", 2007 "BRAVO, ENCORE, LOMBARDAS!" „BRAVO, BIS, LOMBARDAS! Nežinau, kur šiandien Maskvoje yra žurnalo „Yunost“ redakcija. Ar toks žurnalas dar egzistuoja? Aštuntojo dešimtmečio viduryje ši jauniausia ir gražiausia redakcija Maskvoje buvo įsikūrusi Sadovaja-Triumfalnoje, šalia Majakovskio aikštės, užėmusi nedidelę, bet nepaprastai jaukią...

„1 priedas PARAIŠKŲ Į KONKURSUS FORMOS 2013 Forma „T“. Paraiškos Rusijos humanitarinio mokslo fondui titulinis puslapis Projekto pavadinimas Projekto numeris Projekto tipas (a, c, d, e, f) Žinių sritis (kodas) Rusijos humanitarinio mokslo fondo klasifikatoriaus kodas GRNTI kodas (http://www. .grnti.ru/) Prioritetinė mokslo ir technologijų bei technologijų plėtros kryptis Rusijos Federacija, kritinės technologijos1 Vadovo pavardė, vardas, patronimas Projekto projekto vadovo kontaktinis telefono numeris Visas ir trumpas organizacijos, per kurią tai turėtų būti vykdoma, pavadinimas...“

„FNI ataskaita 8/2014 ES klimato ir energetikos politikos įgyvendinimas Lenkijoje: nuo europeizacijos iki polonizacijos? Jon Birger Skjrseth ES klimato ir energetikos politikos įgyvendinimas Lenkijoje: nuo europeizacijos iki polonizacijos? Jonas Birgeris Skjrsethas [apsaugotas el. paštas] 2014 m. gruodžio mėn. Autoriaus teisės © Fridtjof Nansen Institute 2014 Pavadinimas ES klimato ir energetikos politikos įgyvendinimas Lenkijoje: nuo europeizacijos iki polonizacijos? Leidinio tipas ir puslapių skaičius FNI ataskaita 8/2014 57 Autorius ISBN 978-82-7613-683-8 Jon...“

""Scientific Notes of TOGU" Volume 6, No. 4, 2015 ISSN 2079-8490 Elektroninis mokslinis leidinys "Scientific Notes of TOGU" 2015, Volume 6, No. 4, P. 173 - 178 Sertifikatas El Nr. FS 76-396 data 2010 05 05 http://pnu.edu.ru/ru/ejournal/about/ [apsaugotas el. paštas] UDC 316.33 © 2015 I. A. Gareeva, sociologijos mokslų daktarė. Sciences, A. G. Kiseleva (Ramiojo vandenyno valstijos universitetas, Chabarovskas) SOCIALINIO DRAUDIMO SISTEMŲ FORMAVIMAS Šiame straipsnyje analizuojamas socialinio draudimo sistemų formavimasis ir dabartinė jų būklė...“

„Konferencijos programa Čiangmajus, Tailandas, 2015 m. lapkritis APCBSS Asia -Pacific Conference on Business & Social Sciences ICEI International Conference on Education Innovation APCLSE Asia-Pacific Conference on Life Science and Engineering APCBSS Asia -Pacific Conference on Business & Social Sciences ISBN978-986- 90263-0-7 ICEI tarptautinė švietimo inovacijų konferencija ISBN 978-986-5654-33-7 APCLSE Azijos ir Ramiojo vandenyno gyvosios gamtos mokslų ir inžinerijos konferencija ISBN 978-986-90052-9-6 Turinio turinys..."

Tinklaraštis „R: Duomenų analizė ir vizualizacija“ gyvuoja daugiau nei trejus su puse metų. Prieš kelis mėnesius gimė mintis apibendrinti per visą šį laiką čia skelbtus metodinius pranešimus e-knyga. Idėjos autorius, o vėliau ir knygos bendraautoris buvo biologijos mokslų daktaras Vladimiras Kirillovičius Šitikovas (). Džiaugiamės galėdami jums pristatyti rezultatą kaip mūsų Naujųjų metų dovaną.


įrankių rinkinys "Statistinė analizė ir duomenų vizualizacija naudojant R"skirta pirmiausia studentams, magistrantams, jauniems ir žinomiems mokslininkams, taip pat profesionaliems analitikams, kurie neturėjo ankstesnės patirties dirbant su R. Laikydamiesi tinklaraščio tradicijų, stengėmės, jei įmanoma, išvengti piktnaudžiavimo "ritualu". “ frazės, būdingos daugeliui taikomosios statistikos žinynų , cituojančios gerai žinomas teoremas ir cituojančias kelių aukštų skaičiavimo formules. Visų pirma buvo akcentuojamas praktinis pritaikymas – kad skaitytojas, vadovaudamasis tuo, ką perskaitė, galėtų analizuoti savo duomenis ir pristatyti rezultatus kolegoms.Knygą sudaro 9 skyriai, kuriuose nagrinėjamos šios temos:

  • 1 skyrius: Pagrindiniai R statistinės aplinkos komponentai
  • 2 skyrius: R kalbos aprašymas
  • 3 skyrius: Pagrindinės R grafikos funkcijos
  • 4 skyrius: Aprašomoji statistika ir derinimo paskirstymai
  • 5 skyrius. Klasikiniai statistikos metodai ir kriterijai
  • 6 skyrius: Tiesiniai modeliai dispersijos analizėje
  • 7 skyrius: Ryšių tarp kiekybinių kintamųjų regresiniai modeliai
  • 8 skyrius: Apibendrinti, struktūriniai ir kiti regresijos modeliai
  • 9 skyrius: Erdvinė analizė ir kartogramų kūrimas
Taip pat yra išsami bibliografija ir naudingų internetinių išteklių sąrašas apie R.

Oficiali dabartinė knygos versija PDF formatu(~11 MB) galima Nemokamas atsisiuntimas iš dviejų svetainių:

  • „GitHub“ saugykla: https://github.com/ranalytics/r-tutorials
  • Volgos baseino ekologijos instituto RAS svetainė: http://www.ievbras.ru/ecostat/Kiril/R/

Tuose pačiuose dviejuose šaltiniuose galite rasti R kodo scenarijus ir duomenų rinkinius, reikalingus knygoje aptartiems pavyzdžiams atkurti.

Būsime dėkingi už bet kokias pastabas ir pasiūlymus dėl šio darbo – atsiųskite juos el. paštu rtutorialsbook["šuo"]gmail.com

Kaip minėta aukščiau, knyga platinama visiškai nemokamai. Tačiau jei jums tai naudinga ir jums tinka padėkoti autoriams už jų darbą, galite pervesti bet kokią sumą naudodami šį mygtuką (visos operacijos atliekamos saugus režimas per elektroninę mokėjimo sistemą



 


Skaityti:



Atidarykite kairįjį meniu cayo coco

Atidarykite kairįjį meniu cayo coco

Cayo Coco sala yra kurortinė sala centrinėje Kuboje. Salos vieta Cayo Coco sala yra tiesiai priešais Canal Viejo...

Kodėl mums reikia radijo ryšio ir radijo stočių?

Kodėl mums reikia radijo ryšio ir radijo stočių?

Vieni svajoja apie naują „iPhone“, kiti – apie automobilį, treti – apie dalių rinkinį ir naują radijo garsiakalbį. Ne taip seniai buvo laikas, kai...

Kendall ir Spearman rangų koreliacijos koeficientai Kendall rango koreliacijos koeficiento pavyzdys

Kendall ir Spearman rangų koreliacijos koeficientai Kendall rango koreliacijos koeficiento pavyzdys

Ekspertinių vertinimų pateikimas ir preliminarus apdorojimas Praktikoje naudojami keli vertinimų tipai: - kokybiniai (dažnai-retai,...

Programavimo funkcijos

Programavimo funkcijos

Darbo tikslas: 1) išstudijuoti funkcijų aprašymo taisykles; 2) įgyti įgūdžių naudojimosi funkcijomis rašant programas C++ kalba Teorinės...

tiekimo vaizdas RSS