uy - Yangi boshlanuvchilar uchun
Ma'lumotlarni tahlil qilish va vizualizatsiya qilish. “R yordamida ma’lumotlarni statistik tahlil qilish va vizuallashtirish” uslubiy qo‘llanma

"R o't ildizlari mevali barglaridan FOYDALANISH MALUMOTLARNI STATISTIK TAHLILI VA VIZUALIZATSIYA Heidelberg - London - Tolyatti 2014, ..."

-- [ 1-sahifa ] --

S.E. Mastitskiy, V.K. Shitikov

STATISTIK TAHLILI VA

R BILAN MA'LUMOTLARNI VIZUALLASHTIRISH

o't ildizlari mevalar barglari

Geydelberg - London - Tolyatti

2014 yil, Sergey Eduardovich Mastitskiy, Vladimir Kirillovich Shitikov

Veb-sayt: http://r-analytics.blogspot.com

Ushbu ish litsenziya bo'yicha tarqatiladi

Creative Commons atributi - notijorat

foydalanish - Xuddi shu sharoitda 4.0 Butun dunyoda. Ushbu litsenziya bo'yicha siz ushbu asarni mualliflari va manbalariga to'g'ri hisoblagan holda erkin nusxa ko'chirishingiz, tarqatishingiz va o'zgartirishingiz mumkin. Agar siz ushbu ishni o'zgartirsangiz yoki uni o'zingizning ishlaringizda ishlatsangiz, natijani faqat bir xil yoki shunga o'xshash litsenziya ostida tarqatishingiz mumkin. Ushbu asardan mualliflarning ruxsatisiz tijorat maqsadlarida foydalanish taqiqlanadi. Litsenziya haqida qo'shimcha ma'lumot olish uchun www.creativecommons.com saytiga tashrif buyuring

Iltimos, ushbu kitobga quyidagicha iqtibos keltiring:

Mastitskiy S.E., Shitikov V.K. (2014) R yordamida statistik tahlil va ma'lumotlarni vizualizatsiya qilish.

Elektron kitob, kirish manzili:

http://r-analytics.blogspot.com

SO'Z SOZ 5

1. R 8 STATISTIK MUHITNING ASOSIY KOMPONENTLARI


1.1. R muhitining kelib chiqish tarixi va tashkil etishning asosiy tamoyillari 8

1.2. Bilan ishlash buyruq konsoli interfeysi R 11

1.3. R Commander 13 menyusi bilan ishlash

1.4. Ob'ektlar, paketlar, funktsiyalar, qurilmalar 17

2. TIL TAVSIFI R 23

2.1. R 23 ma'lumotlar turlari

2.2. Vektorlar va matritsalar 24

2.3. Omillar 29

2.4. Ro'yxatlar va jadvallar 31

2.5. R 37 ga ma'lumotlarni import qilish

2.6. Sana va vaqtni ko'rsatish; Vaqt seriyasi 40

2.7. Hisob-kitoblarni tashkil etish: funktsiyalar, tarmoqlar, halqalar 46

2.8. Ilova-50 funksiyasidan foydalangan holda R da vektorlashtirilgan hisoblar

3. ASOSIY GRAFIKA IMKONIYATLARI R 58

3.1. Scatterplots plot() va grafik variantlari 58 funksiya

3.2. Gistogrammalar, yadro zichligi funktsiyalari va 66 cdplot() funksiyasi

3.3. Diagrammalar diapazoni 74

3.4. Pirog va chiziqli diagrammalar 77

3.5. Klivlend diagrammalari va bir o'lchovli tarqalish chizmalari 84

4. TAVSIFI STATISTIKA VA FIT 97

TARQATISH

–  –  –

SO'Z SO'Z

Dunyoni tushunishning asosiy vositalaridan biri inson tomonidan turli manbalardan olingan ma'lumotlarni qayta ishlashdir. Zamonaviy statistik tahlilning mohiyati kiruvchi axborot oqimlarini tadqiq qilish, vizuallashtirish va talqin qilishdan iborat interfaol jarayondir.

Oxirgi 50 yillik tarix ham ma'lumotlarni tahlil qilish texnologiyasining rivojlanish tarixidir.

Mualliflardan biri 60-yillarning oxirini va og'irligi 200 kg dan ortiq bo'lgan "Promin-2" shaxsiy kompyuterining 150 ta hujayrasining "ishlash maydoni" ga metall pinlar bilan terilgan juftlik korrelyatsiyasini hisoblash bo'yicha birinchi dasturini mamnuniyat bilan eslaydi.

Hozirgi kunda yuqori unumdor kompyuterlar va hamyonbop dasturiy ta'minot Umuman olganda, quyidagi bosqichlardan iborat bo'lgan axborot texnologiyalari jarayonining to'liq tsiklini amalga oshirishga imkon beradi:

° qayta ishlangan ma'lumotlarga kirish (ularni turli manbalardan yuklab olish va o'zaro bog'liq manba jadvallari to'plamini tuzish);

° yuklangan ko'rsatkichlarni tahrirlash (etishmayotgan qiymatlarni almashtirish yoki olib tashlash, xususiyatlarni qulayroq shaklga aylantirish);

° ma'lumotlarni izohlash (har bir ma'lumot nimani anglatishini eslab qolish uchun);

° qabul qilish Umumiy ma'lumot ma'lumotlarning tuzilishi haqida (tahlil qilinayotgan ko'rsatkichlarni tavsiflash uchun tavsiflovchi statistik ma'lumotlarni hisoblash);

° ma'lumotlarning grafik taqdimoti va hisoblash natijalari aniq, informatsion shaklda (bir rasm aslida ba'zan ming so'zga arziydi);

° ma'lumotlarni modellashtirish (bog'liqlarni topish va statistik gipotezalarni tekshirish);

° natijalarni taqdim etish (ma'qul nashr sifati jadvallari va diagrammalarini tayyorlash).

Foydalanuvchi uchun o'nlab amaliy dasturiy ta'minot paketlari mavjud bo'lgan sharoitda tanlov muammosi (ba'zan fojiali, agar Buridan eshagini eslasak) dolzarbdir: amaliy ishingiz uchun qaysi ma'lumotlarni tahlil qilish dasturiga ustunlik berish kerak? Bu erda hal qilinayotgan muammoning o'ziga xos xususiyatlari, ishlov berish algoritmlarini o'rnatish samaradorligi, dasturlarni sotib olish xarajatlari, shuningdek, tahlilchining didi va shaxsiy imtiyozlari odatda hisobga olinadi. Shu bilan birga, masalan, menyu tugmalarining mexanik to'plamiga ega Statistika shabloni hisoblash jarayonining borishini mustaqil ravishda boshqarishni afzal ko'rgan ijodiy tadqiqotchini har doim ham qoniqtira olmaydi. Aralashtirmoq Har xil turlar tahlil qilish, oraliq natijalarga ega bo'lish, ma'lumotlarni ko'rsatish uslubini boshqarish, dasturiy modullarning o'z kengaytmalarini qo'shish va kerakli shaklda yakuniy hisobotlarni tuzish, Matlab, SPSS kabi yuqori darajadagi buyruq tili vositalarini o'z ichiga olgan tijorat hisoblash tizimlariga ruxsat berish. , va hokazo. Ularga ajoyib muqobil - bepul dasturiy ta'minot R muhiti zamonaviy va doimiy rivojlanib boruvchi umumiy maqsadli statistik platformadir.



Bugungi kunda R erkin taqsimlangan statistik tahlil tizimlari orasida so'zsiz yetakchi hisoblanadi, masalan, 2010 yilda R tizimi ochiq manbalar bo'yicha yillik tanlov g'olibi bo'lganligi shundan dalolat beradi. dasturiy mahsulotlar Bir nechta nominatsiyalarda Bossie mukofotlari. Dunyoning yetakchi universitetlari, yirik kompaniyalar va tadqiqot markazlarining tahlilchilari ilmiy-texnik hisob-kitoblarni amalga oshirishda va yirik axborot loyihalarini yaratishda doimiy ravishda R dan foydalanadilar. Statistikani ushbu muhit paketlari asosida keng miqyosda o'rgatish va ilmiy hamjamiyatning har tomonlama qo'llab-quvvatlashi R skriptlarining qisqarishi asta-sekin jurnal nashrlarida ham, atrofdagi olimlar o'rtasidagi norasmiy muloqotda ham umume'tirof etilgan "standart" ga aylanib borayotganiga olib keldi. dunyo.

Rus tilida so'zlashuvchi foydalanuvchilar uchun R ni o'zlashtirishda asosiy to'siq, albatta, bu muhit bo'yicha deyarli barcha hujjatlar ingliz tilida mavjud. Faqat 2008 yildan boshlab, A.V.ning sa'y-harakatlari bilan. Shipunova, E.M. Baldina, S.V. Petrova, I.S. Zaryadova, A.G. Buxovets va boshqa ishqibozlar, uslubiy qo'llanmalar va kitoblar rus tilida nashr etilgan (ularga havolalarni ushbu kitobning oxiridagi adabiyotlar ro'yxatida topishingiz mumkin; shuningdek, mualliflar targ'ibotga munosib hissa qo'shadigan ta'lim manbalariga havolalar mavjud. rus tilida so'zlashuvchi foydalanuvchilar orasida R).

Ushbu qo'llanmada mualliflardan biri tomonidan 2011 yildan beri "R: Ma'lumotlarni tahlil qilish va vizualizatsiya" blogida nashr etilgan uslubiy xabarlar to'plami jamlangan.

(http://r-analytics.blogspot.com). O'quvchilarga qulaylik yaratish uchun bularning barchasini bir-biriga bog'liq bo'lmagan materiallarni jamlangan shaklda taqdim etish, shuningdek, taqdimotning to'liqligi uchun ba'zi bo'limlarni kengaytirish tavsiya etilgandek tuyuldi.

Birinchi uchta bobda R ning interaktiv komponentlari bilan ishlash bo'yicha batafsil ko'rsatmalar, tilning batafsil tavsifi va muhitning asosiy grafik imkoniyatlari mavjud.

Kitobning ushbu qismi dasturlashda yangi bo'lganlar uchun juda qulaydir, garchi R tili bilan tanish bo'lgan o'quvchilar u erda qiziqarli kod parchalarini topishlari yoki ma'lumotnoma sifatida taqdim etilgan grafik variantlarning tavsiflaridan foydalanishlari mumkin.

Keyingi boblarda (4-8) ma'lumotlarni qayta ishlash va statistik modellarni yaratishning umumiy protseduralari tavsifi berilgan, ular bir necha o'nlab misollar bilan tasvirlangan. Bularga kiradi qisqa Tasvir tahlil algoritmlari, olingan asosiy natijalar va ularning mumkin bo'lgan talqini. Iloji bo'lsa, amaliy statistika bo'yicha ko'plab qo'llanmalarga xos bo'lgan "marosim" iboralarini suiiste'mol qilmaslikka harakat qildik, taniqli teoremalarni keltirdik va ko'p qavatli hisoblash formulalarini keltirdik. Asosiy e'tibor, birinchi navbatda, amaliy qo'llashga qaratildi - o'quvchi o'qigan narsalaridan kelib chiqib, o'z ma'lumotlarini tahlil qilishi va natijalarini hamkasblariga taqdim etishi mumkin edi.

Ushbu qismning bo'limlari taqdim etilgan materialning murakkabligiga qarab qurilgan.

4 va 5-boblar faqat universitetga kirish kursining bir qismi sifatida statistikaga qiziqqan o'quvchiga qaratilgan. 6 va 7-boblar umumiy chiziqli modellarning yagona nazariyasi doirasida dispersiya va regressiya tahlillarini taqdim etadi va modellarni o'rganish va strukturaviy identifikatsiyalash uchun turli xil algoritmlarni taqdim etadi. 8-bob ba'zilarga bag'ishlangan zamonaviy usullar umumlashtirilgan regressiya modellarini qurish va tahlil qilish.

Fazoviy tahlil va natijalarni geografik xaritalar va diagrammalarda aks ettirish tadqiqotchilarda doimiy qiziqish uyg'otganligi sababli, 9-bobda bunday vizualizatsiya usullariga misollar keltirilgan.

Biz oʻquv qoʻllanmamizni talabalar, aspirantlar, shuningdek, R muhitidan foydalangan holda maʼlumotlarni tahlil qilish va vizualizatsiya qilishni oʻzlashtirmoqchi boʻlgan yosh va taniqli olimlarga yoʻnaltiramiz.Ushbu qoʻllanmani oʻqib boʻlgach, siz R ning qanday ishlashi haqida bir oz tushunchaga ega boʻlasiz, deb umid qilamiz, bu erda siz qo'shimcha ma'lumot olishingiz mumkin, shuningdek, oddiy va juda murakkab ma'lumotlarni tahlil qilish vazifalarini qanday engishingiz mumkin.

Kitobning barcha bo'limlari uchun R kodli skriptlarga ega fayllar, shuningdek ularni bajarish uchun zarur bo'lgan manba ma'lumotlar jadvallari GitHub omboridan https://github.com/ranalytics/r-tutorials, shuningdek, bepul yuklab olish mumkin. Volga havzasi RAS Ekologiya instituti veb-saytidan http://www.ievbras.ru/ecostat/Kiril/R/Scripts.zip havolasi.

Shuni ta'kidlash kerakki, ushbu qo'llanmadagi matn mualliflik nashrida taqdim etilgan va shuning uchun barcha harakatlarimizga qaramay, unda matn terish xatolari, grammatik xatolar va baxtsiz iboralar bo'lishi mumkin. O'quvchi, bular va boshqa aniqlangan kamchiliklar haqida xabar berganingiz uchun sizga minnatdorchilik bildiramiz elektron pochta [elektron pochta himoyalangan]. Bundan tashqari, ushbu ish bo'yicha boshqa har qanday fikr-mulohazalaringiz va takliflaringiz uchun minnatdor bo'lamiz.

–  –  –

1. STATISTIK MUHITNING ASOSIY KOMPONENTLARI R

1.1. R muhitining paydo bo'lish tarixi va tashkil etishning asosiy tamoyillari Statistik tahlil va ma'lumotlarni vizualizatsiya qilish tizimi R quyidagi asosiy qismlardan iborat:

° yuqori darajali dasturlash tili R, bu bir qatorga ob'ektlar, vektorlar, matritsalar, ro'yxatlar va boshqalar bilan turli operatsiyalarni amalga oshirish imkonini beradi;

° to'plangan ma'lumotlarni qayta ishlash funktsiyalarining katta to'plami individual paketlar(paket);

° R ni dastlabki o'rganish va paydo bo'lgan qiyinchiliklar bo'yicha keyingi maslahatlar uchun mo'ljallangan atrof-muhit komponentlarini yangilash, interaktiv yordam va turli xil ta'lim resurslarini o'z ichiga olgan rivojlangan qo'llab-quvvatlash tizimi.

Sayohatning boshlanishi 1993 yilga to'g'ri keladi, ikki yosh yangi zelandiyalik olimlar Ross Ixaka va Robert Gentleman o'zlarining yangi ishlanmalarini e'lon qilishgan va ular R deb atashgan. Ular S-PLUS tijorat statistik ma'lumotlarini qayta ishlash tizimining ishlab chiqilgan dasturlash tilini asos qilib olishgan. va oson kengaytiriladigan modulli arxitekturasi bilan o'zining ajdodidan farq qiluvchi bepul, bepul amalga oshirilishini yaratdi. Ko'p o'tmay, tashkilotning asosiy g'oyasi bo'lgan "CRAN" (Comprehensive R Archive Network - http://cran.r-project.org) qisqartmasi bilan ma'lum bo'lgan R uchun paketlarni saqlash va tarqatish uchun taqsimlangan tizim paydo bo'ldi. ulardan doimiy ravishda kengaytirish, jamoaviy sinovdan o'tkazish va qo'llaniladigan ma'lumotlarni qayta ishlash vositalarini operativ taqsimlash.

Ma'lum bo'lishicha, minglab fidoyi intellektual ishlab chiquvchilarning kuchli "jamoaviy razvedka" ning uzluksiz va yaxshi muvofiqlashtirilgan sa'y-harakatlari mahsuloti litsenziya narxi bir necha ming dollarni tashkil etishi mumkin bo'lgan tijorat statistik dasturlariga qaraganda ancha samaraliroq bo'lib chiqdi. dollar. R professional statistiklarning sevimli tili bo'lganligi sababli, statistika fanidagi barcha so'nggi yutuqlar tezda qo'shimcha kutubxonalar shaklida butun dunyo bo'ylab R foydalanuvchilari uchun mavjud bo'ladi. Bugungi kunda hech qanday tijorat statistik tahlil tizimi bunchalik tez rivojlanmagan. R qo'shimcha kutubxonalar mualliflarini va R tizimining o'zini aniqlangan xatolar haqida xabardor qiladigan katta foydalanuvchilar armiyasiga ega, ular tezda tuzatiladi.

R hisoblash tili, garchi o'zlashtirish uchun biroz harakat, ajoyib qidiruv qobiliyatlari va ensiklopedik xotirani talab qilsa-da, ularning xilma-xilligi bo'yicha deyarli "atom kabi bitmas-tuganmas" hisoblarni tezda bajarishga imkon beradi. 2014 yil iyul holatiga ko'ra, butun dunyo bo'ylab ishqibozlar R uchun 6 739 ta qo'shimcha kutubxona yozdilar, shu jumladan 137 506 ta funksiya (qarang.

http://www.rdocumentation.org), bu tizimning asosiy imkoniyatlarini sezilarli darajada kengaytiradi. Bugungi kunda R paketlari ko'rinishida amalga oshirilmagan statistik usullarning har qanday sinfini, shu jumladan, albatta, butun "janoblar to'plami" ni tasavvur qilish juda qiyin: chiziqli va umumlashtirilgan chiziqli modellar, chiziqli bo'lmagan regressiya modellari, eksperimental dizayn, vaqt. ketma-ket tahlil, klassik parametrik va parametrik bo'lmagan testlar, Bayes statistikasi, klaster tahlili va tekislash usullari. Kuchli vizualizatsiya vositalari yordamida tahlil natijalarini turli grafik va diagrammalar shaklida umumlashtirish mumkin. An'anaviy statistikaga qo'shimcha ravishda, ishlab chiqilgan funksionallik katta raqamli matematik algoritmlarni, optimallashtirish usullarini, echimlarni o'z ichiga oladi. differensial tenglamalar, naqshni aniqlash va boshqalar. Genetiklar va sotsiologlar, tilshunoslar va psixologlar, kimyogarlar va shifokorlar, GIS va veb-texnologiyalar bo'yicha mutaxassislar R paketlarida ma'lumotlarni qayta ishlashning o'ziga xos usullarini kashf qilishlari mumkin.

R uchun "xususiy" hujjatlar juda hajmli va har doim ham yaxshi yozilmaydi (ingliz tilidagi adabiyotning g'alati an'analarida arzimas haqiqatlarni tasvirlash uchun juda ko'p so'zlar sarflanadi. muhim nuqtalar patter orqali o'ting). Biroq, bunga qo'shimcha ravishda, dunyoning etakchi nashriyotlari (Springer, Cambridge University Press va Chapman & Hall / CRC) yoki oddiy ishqibozlar jamoalari R-da ma'lumotlarni tahlil qilishning turli jihatlarini tavsiflovchi juda ko'p kitoblarni nashr etishdi (masalan, qarang. , "Psixodiagnostika entsiklopediyasi" veb-saytidagi adabiyotlar ro'yxati, http://psylab.info/R:Literature). Bundan tashqari, har kim muammo bilan yordam so'rashi mumkin bo'lgan bir nechta faol xalqaro va rus R foydalanuvchi forumlari mavjud. Bibliografiyada biz R.ni o'rganishda sizga alohida e'tibor berishingizni maslahat beradigan bir necha yuz kitob va Internet havolalarini sanab o'tamiz.

R tilida amaliy ishlarga bevosita o'rgatish a) R tilining konstruksiyalarini o'zlashtirish va ma'lumotlar tahlilini amalga oshiruvchi funksiyalarni chaqirish xususiyatlari bilan tanishish, b) ma'lumotlarni tahlil qilish va vizualizatsiya qilishning aniq usullarini amalga oshiradigan dasturlar bilan ishlash ko'nikmalarini egallashdan iborat. .

R foydalanuvchi interfeysi vositalarini tanlash munozarali va foydalanuvchi didiga juda bog'liq. Hatto nufuzli ekspertlar ham umumiy fikrga ega emaslar.

Ba'zilar standart R konsoli interfeysidan yaxshiroq narsa yo'q deb hisoblashadi, boshqalari esa qulay ish uchun tugma menyularining boy to'plamiga ega mavjud integratsiyalashgan ishlab chiqish muhitlaridan birini (IDE) o'rnatishga arziydi, deb hisoblashadi. Masalan, ajoyib variant RStudio deb nomlangan bepul integratsiyalashgan rivojlanish muhitidir.

Quyida biz konsol versiyasining tavsifiga va R Commander bilan ishlashga e'tibor qaratamiz, ammo o'quvchining keyingi tadqiqotlariga Shipunov va boshqalar tomonidan kitobning ilovasida keltirilgan IDE ning turli versiyalarini ko'rib chiqish yordam berishi mumkin. (2014).

R mutaxassisi Jozef Rikertning fikricha, R ni o'rganish jarayonini quyidagi bosqichlarga bo'lish mumkin (batafsil ma'lumot uchun qarang:

uning inside-r.org saytidagi maqolasi):

1. R hamjamiyati madaniyatining umumiy tamoyillari va R tili ishlab chiqilgan va faoliyat yuritadigan dasturiy muhit bilan tanishish.Asosiy va yordamchi resurslarga tashrif buyurish va yaxshi kirish darsligini o‘zlashtirish. R ni foydalanuvchi kompyuteriga o'rnatish va birinchi test skriptlarini bajarish.

2. Standart operatsion tizim fayllaridan ma'lumotlarni o'qish va foydalanuvchiga tanish bo'lgan cheklangan statistik tahlil protseduralarini bajarish uchun R funktsiyalaridan ishonchli foydalanish.

3. Oddiy dasturlarni yozish uchun R tilining asosiy tuzilmalaridan foydalanish.

O'z funktsiyalaringizni yozish. R ishlashi mumkin bo'lgan ma'lumotlar tuzilmalari va tilning yanada murakkab xususiyatlari bilan tanishish. Ma'lumotlar bazalari, veb-sahifalar va tashqi ma'lumotlar manbalari bilan ishlash.

4. Yozish murakkab dasturlar R tilida.S3- va S4-sinflar deb ataladigan ob'ektlarning tuzilishini mustaqil rivojlantirish va chuqur tushunish.

5. Rivojlanish professional dasturlar R tilida.R uchun qoʻshimcha kutubxona modullarini mustaqil yaratish.

Ko'pgina o'rtacha R foydalanuvchilari 3-bosqichda to'xtashadi, chunki ...

Bu vaqtgacha olingan bilimlar ularning asosiy kasbiy faoliyati profilidagi statistik vazifalarni bajarishlari uchun etarli.

Bu bizning ushbu qo'llanma doirasidagi R tilini tavsiflashning taxminan hajmi.

Asosiy R statistik muhitini o'rnatish va sozlash juda oddiy. 2014 yil iyul holatiga ko'ra joriy versiya 32 va 64 bitli Windows uchun R 3.1.1 (boshqa barcha umumiy operatsion tizimlar uchun tarqatish ham mavjud). Siz tizimni tarqatish to'plamini 29 ta paketdan (54 megabayt) iborat asosiy to'plam bilan birgalikda loyihaning asosiy veb-saytidan http://cran.r-project.org yoki ruscha "oyna" http://cran dan butunlay bepul yuklab olishingiz mumkin. .gis-lab.info. Yuklab olingan tarqatishdan tizimni o'rnatish jarayoni hech qanday qiyinchilik tug'dirmaydi va hech qanday maxsus sharhlarni talab qilmaydi.

Skriptlarni, manba ma'lumotlarini va hisoblash natijalarini saqlash qulayligi uchun foydalanuvchi kompyuterida maxsus ishchi katalogni tanlashga arziydi. Ishchi katalog nomida kirill harflaridan foydalanish juda istalmagan.

Ishchi katalogga yo'lni va boshqa sozlamalarni istalgan matn muharriri yordamida o'zgartirish orqali joylashtirish tavsiya etiladi. tizim fayli C:\Program Files\R\Retc\Rprofile.site (u sizning kompyuteringizda boshqa joylashuvga ega bo'lishi mumkin). Quyidagi misolda o'zgartirilgan qatorlar yashil rang bilan belgilangan.

Ishchi katalogni ko'rsatishdan tashqari, bu qatorlar R paketlarini yuklab olish va R Commander-ni avtomatik ravishda ishga tushirish uchun rus manbasiga havolani belgilaydi.

Rprofile.site faylining roʻyxati # “#” izoh belgisidan keyingi hamma narsa muhit tomonidan eʼtiborga olinmaydi # variantlar(papersize="a4") # variantlar(muharrir="notepad") # variantlar(pager="ichki") # yordam ko'rsatish turi ma'lumotlarini o'rnating # variantlar(help_type="text") variantlari(help_type="html") # mahalliy kutubxonaning joylashuvini belgilang #.Library.site - file.path(chartr("\\", "/ ", R.home() ), "site-library") # Atrof-muhitni yuklashda R Commander menyusini ishga tushiring # Agar Rcmdr ishga tushirish kerak bo'lmasa, "#" belgilarini qo'shing mahalliy(( eski - getOption("defaultPackages") opsiyalari (defaultPackages = c(eski, "Rcmdr" )) )) # Mahalliy CRAN oynasini aniqlang((r - getOption("repos") r["CRAN"] - "http://cran.gis-lab" variantlari( repos=r))) # Ishchi katalogiga yo'lni aniqlang (kompyuteringizdagi istalgan boshqasi) setwd("D:/R/Process/Resampling") "Yaxshi kirish darsligi"ga kelsak, bizning tavsiyalarimizdan har biri bo'ladi. sub'ektiv. Biroq, V. Venables va D. Smitning (Venables, Smith, 2014) R ga rasman e'tirof etilgan kirish qismini va R. Kabakovning kitobini (Kabaco, 2011), qisman ularning ruscha tarjimasi mavjud bo'lganligi sababli ham eslatib o'tish kerak. Keling, an'anaviy "qo'g'irchoqlar uchun qo'llanma" (Meys, Vries, 2012) va qo'llanmani (Lam, 2010) ta'kidlab o'tamiz, ular havas qilsa arziydigan gollandiyalik pedantriya bilan yozilgan. Rus tiliga kirish kurslaridan eng to'liqligi I. Zaryadov (2010a) va A. Shipunov va boshqalarning kitoblaridir. (2014).

1.2. R interfeysi buyruq konsoli bilan ishlash R statistik muhiti skript faylida joylashgan yoki konsoldan berilgan buyruqlar ketma-ketligi sifatida taqdim etilgan har qanday mazmunli R tili ko'rsatmalarini bajaradi. Konsol bilan ishlash tugmachali menyularga odatlangan zamonaviy foydalanuvchilar uchun qiyin bo'lib tuyulishi mumkin, chunki alohida buyruqlar sintaksisini eslab qolish kerak. Biroq, ba'zi ko'nikmalarga ega bo'lgandan so'ng, ma'lum bo'lishicha, ko'plab ma'lumotlarni qayta ishlash protseduralari, aytaylik, xuddi shu Statistica paketiga qaraganda tezroq va kamroq qiyinchilik bilan amalga oshirilishi mumkin.

R konsoli - foydalanuvchi buyruqlar kiritadigan va ularning bajarilishi natijalarini ko'radigan muloqot oynasi. Bu oyna muhit ishga tushganda darhol paydo bo'ladi (masalan, ish stolidagi R yorlig'ini bosgandan keyin). Bundan tashqari, standart R grafik foydalanuvchi interfeysi (RGui) skriptni tahrirlash oynasini va grafik ma'lumotlarga (rasmlar, diagrammalar va boshqalar) ega qalqib chiquvchi oynalarni o'z ichiga oladi.

Buyruqlar rejimida R, masalan, oddiy kalkulyator kabi ishlashi mumkin:

So'rov belgisining o'ng tomonida foydalanuvchi o'zboshimchalik bilan arifmetik ifodani kiritishi, Enter tugmasini bosishi va darhol natijani olishi mumkin.

Misol uchun, yuqoridagi rasmdagi ikkinchi buyruqda biz faktorial va sinus funktsiyalaridan, shuningdek, o'rnatilgan p dan foydalandik. Matn ko'rinishida olingan natijalarni sichqoncha bilan tanlash va almashish buferi orqali operatsion tizimdagi istalgan matn fayliga (masalan, Word hujjatiga) ko'chirish mumkin.

RGui bilan ishlashda biz barcha holatlarda skript (ya'ni, ma'lum harakatlarni bajaradigan R tili buyruqlari ketma-ketligi) bilan fayl yaratishni tavsiya qilamiz. Qoida tariqasida, bu har qanday nomga ega oddiy matn fayli (lekin aniqlik uchun *.r kengaytmasi bilan yaxshiroqdir), uni Notepad kabi oddiy muharrir yordamida yaratish va tahrirlash mumkin. Agar ushbu fayl mavjud bo'lsa, uni ishchi katalogga joylashtirish yaxshidir, keyin R-ni ishga tushirgandan so'ng va "Faylni ochish skripti" menyu bandini tanlagandan so'ng, ushbu faylning mazmuni "R tahrirlovchisi" oynasida paydo bo'ladi. Menyuning "Hammasini ishga tushirishni tahrirlash" bandidan skript buyruqlari ketma-ketligini bajarishingiz mumkin.

Shuningdek, siz sichqoncha yordamida tayyorlangan skriptning istalgan joyidan (bitta o'zgaruvchining nomidan butun tarkibgacha) mazmunli bo'lakni tanlashingiz va ushbu blokni bajarish uchun ishga tushirishingiz mumkin. Bu to'rtta bilan amalga oshirilishi mumkin mumkin bo'lgan usullar: asosiy va kontekst menyusi, Ctrl+R tugmalar birikmasi yoki asboblar panelidagi tugma.

Taqdim etilgan rasmda quyidagi harakatlar amalga oshirildi:

° Belarus Respublikasining hududiy bo'linishi to'g'risidagi ma'lumotlarga ega R-ob'ekt gadm bepul Internet-manbadan Global ma'muriy hududlar (GADM) dan yuklab olindi;

° Lotinlashtirilgan shahar nomlari keng tarqalgan ekvivalentlari bilan almashtiriladi;

° sp paketining spplot() funksiyasidan foydalangan holda grafik oynada respublikaning ma'muriy xaritasi ko'rsatiladi, uni menyudan foydalanib almashish buferiga ko'chirish yoki standart meta- yoki rastr grafik fayl sifatida saqlash mumkin.

Biz keyingi bo'limlarda alohida operatorlarning ma'nosini batafsilroq ko'rib chiqamiz, ammo bu erda biz skriptni tanlash va Regions@data belgilar kombinatsiyasini ishga tushirish orqali konsol oynasida barcha ma'lumotlar to'plamini olamiz. ob'ekt va tanlangan gadm belgilaridan tashkil topgan buyruq, Regions @data$NAME_1 bizga uni o'zgartirishdan oldin va keyin ma'muriy markazlar nomlari ro'yxatini beradi.

Shunday qilib, R muharriri skript bo'ylab harakatlanishni, buyruqlar kombinatsiyasini tahrirlashni va bajarishni, kodning muayyan qismlarini topish va almashtirishni osonlashtiradi. Yuqorida aytib o'tilgan RStudio qo'shimchasi qo'shimcha ravishda kod sintaksisini ajratib ko'rsatish, kodni avtomatik to'ldirish, buyruqlar ketma-ketligini ularni keyingi foydalanish uchun funktsiyalarga "qadoqlash", Sweave yoki TeX hujjatlari bilan ishlash va ilg'or foydalanuvchi uchun foydali bo'lgan boshqa operatsiyalarni bajarishga imkon beradi. .

R to'g'ridan-to'g'ri RGui-dan kirish mumkin bo'lgan keng qamrovli o'rnatilgan ma'lumotnomaga ega.

Agar siz konsoldan help.start() buyrug'ini bersangiz, Internet-brauzeringizda barcha yordam manbalariga kirish imkonini beruvchi sahifa ochiladi: asosiy qo'llanmalar, mualliflik materiallari, umumiy savollarga javoblar, o'zgartirishlar ro'yxati, boshqa yordam uchun havolalar. R ob'ektlari va boshqalar. .d.:

Muayyan funktsiyalar uchun yordamni quyidagi buyruqlar yordamida olish mumkin:

° yordam("foo") yoki? foo - foo funksiyasi bo'yicha yordam (tirnoqlar ixtiyoriy);

° help.search("foo") yoki ?? foo - foo o'z ichiga olgan barcha yordam fayllarini qidiring;

° misol("foo") – foo funksiyasidan foydalanish misollari;

° RSiteSearch("foo") - onlayn qo'llanmalar va pochta arxivlarida havolalarni qidirish;

° apropos("foo", mode="funktsiya") – foo kombinatsiyasi bilan barcha funktsiyalar ro'yxati;

° vignette("foo") - foo mavzusi bo'yicha darsliklar ro'yxati.

1.3. R Commander to'plami menyusi bilan ishlash Ajam foydalanuvchi uchun R-da hisob-kitoblarni o'zlashtirish uchun qulay vosita bu R Commander - Rcmdr paketida amalga oshirilgan tugma menyusi uslubidagi platformadan mustaqil grafik interfeys. Bu buyruqlar tilida funktsiyalarni oldindan eslab qolishga murojaat qilmasdan katta statistik tahlil protseduralarini amalga oshirishga imkon beradi, lekin u beixtiyor bunga hissa qo'shadi, chunki u barcha bajarilgan ko'rsatmalarni maxsus oynada aks ettiradi.

Rcmdr-ni, boshqa kengaytmalar singari, R konsolining "Paketlarni o'rnatish paketi" menyusidan o'rnatishingiz mumkin, ammo buyruqni bajarish yaxshiroqdir:

install.packages("Rcmdr", dependencies=TRUE) bunda bog'liqliklar opsiyasini yoqish Rcmdr menyusi orqali ma'lumotlarni qayta ishlashda talab qilinishi mumkin bo'lgan boshqa paketlarning to'liq to'plamini o'rnatilishini ta'minlaydi.

R Commander Rcmdr to'plami "Paketlarni yoqish" menyusi orqali yoki library(Rcmdr) buyrug'i bilan yuklanganda ishga tushiriladi. Agar biron sababga ko'ra faqat R Commander yordamida ma'lumotlarni tahlil qilishga qaror qilingan bo'lsa, u holda ushbu grafik qobiqni avtomatik ravishda yuklash uchun. R dan boshlab, 1.1 bo'limida ko'rsatilganidek, Rprofile.site faylini tahrirlashingiz kerak.

Keling, R Commander-da Belorussiyaning uchta ko'lida ikki pallali mollyuska Dreissena polymorpha kipriksimon Conchophthirus acuminatus infektsiyasi darajasi to'g'risidagi ma'lumotlarning korrelyatsiya tahlili misolida ishlashni ko'rib chiqaylik (Mastitsky S.E. // BioInvasions Records.

2012. V. 1. P 161–169). Biz figshare veb-saytidan yuklab olingan dastlabki ma'lumotlar jadvalida bizni ikkita o'zgaruvchi qiziqtiradi: mollyuska qobig'ining uzunligi (ZMlength, mm) va mollyuskada topilgan siliatlar soni (CAnumber). Ushbu misol 4 va 5-boblarda batafsil ko'rib chiqiladi, shuning uchun biz bu erda tahlilning ma'nosi haqida batafsil to'xtalmaymiz, balki Rcmdr bilan ishlash texnikasiga to'xtalamiz.

Keyinchalik, biz qalqib chiquvchi oynalarda ma'lumotlarni yuklash rejimini va Internetga ulanish manzilini aniqlaymiz. Biz bir xil ma'lumotlarni mahalliy matn faylidan, Excel ish kitobidan yoki ma'lumotlar bazasi jadvalidan osongina yuklashimiz mumkinligini ko'rish oson. Ma'lumotlarimiz to'g'ri yuklanganligiga ishonch hosil qilish uchun (yoki kerak bo'lsa tahrirlang) "Ma'lumotlarni ko'rish" tugmasini bosing.

Ma'lumotlarni tashkil etishni aniqlash oynasi Yuklangan jadvalning fragmenti

Ikkinchi bosqichda "Statistika" menyusida "Korrelyatsiya testi" ni tanlang:

Biz korrelyatsiya qilingan o'zgaruvchilar juftligini tanlaymiz va Chiqish oynasida biz Pearson korrelyatsiya koeffitsientini (R = 0,467), erishilgan statistik ahamiyatga egalik darajasini (p-qiymati 2,2e-16) va 95% ishonch chegaralarini olamiz.

–  –  –

Olingan natijalarni clipboard orqali chiqish oynasidan osongina nusxalash mumkin.

Endi olamiz grafik tasvir korrelyatsiyaga bog'liqlik. Keling, CAnumber ning ZMlength ga bog'liqligining scatterplotini tanlaylik va unga chekka diapazon diagrammalari, eng kichik kvadratlar usuli yordamida chiziqli trend chizig'i (yashil rangda), mahalliy regressiya usuli yordamida tekislangan chiziq (qizil rangda), ishonchlilik bilan taqdim etaylik. mintaqa (nuqta chiziq). Uchta ko'lning har biri (ko'l o'zgaruvchisi) uchun eksperimental nuqtalar turli belgilar bilan ifodalanadi.

–  –  –

R Commander grafik oynasidan ko'chirilgan grafik Barcha R Commander menyu tugmachalarining ekvivalenti bosilganda, skript oynasida R tilidagi ko'rsatmalar paydo bo'ladi.

Bizning holatlarimizda ular quyidagicha ko'rinadi:

Shellfish read.table("http://figshare.com/media/download/98923/97987", header=TRUE, sep="\t", na.strings="NA", dec=".", strip. oq=TRUE) cor.test(Clams$CAnumber, Clams$ZMlength, alternativ="ikki.sided", method="pearson") scatterplot(CAnumber ~ ZMlength | Leyk, reg.line=lm, silliq=TRUE, tarqalish= TRUE, boxplots="xy", span=0,5, ylab="Kirpiklar soni", xlab="Shell length", by.groups=FALSE, data=Mollusks) Skriptning o'zi yoki chiqish natijalari (shuningdek, ikkalasi birgalikda) ) fayllarga saqlanishi va istalgan vaqtda takrorlanishi mumkin. Saqlangan faylni R konsoli orqali yuklash orqali R Commander-ni ishga tushirmasdan ham xuddi shunday natijaga erishishingiz mumkin.

Umuman olganda, R tilining konstruksiyalarini bilmasdan (yoki ularni eslab qolish bilan xotirangizni yuklashni xohlamasangiz), Rcmdr-dan foydalanib, deyarli barcha asosiy statistik usullar yordamida ma'lumotlarni qayta ishlashni amalga oshirishingiz mumkin. Unda parametrik va parametrik boʻlmagan testlar, turli uzluksiz va diskret taqsimotlarni oʻrnatish usullari, koʻp oʻzgaruvchan tasodifiy jadvallar tahlili, dispersiyaning bir va koʻp oʻlchovli tahlili, asosiy komponentlar tahlili va klasterlash, umumlashtirilgan regressiya modellarining turli shakllari va boshqalar taqdim etilgan. olingan modellarni sinovdan o'tkazish, diqqat bilan o'rganishga loyiqdir.

R Commander bilan ishlash usullarining batafsil tavsifi, shuningdek, ma'lumotlarni qayta ishlash algoritmlarini amalga oshirish xususiyatlari qo'llanmalarda mavjud (Larson-Xall, 2009; Karp, 2014).

Biroq, imo-ishora tili odamlarning tabiiy tildagi muloqotini almashtira olmagani kabi, R tilini bilish foydalanuvchining imkoniyatlarini sezilarli darajada kengaytiradi va R muhiti bilan muloqotni yoqimli va hayajonli qiladi. Va bu erda avtomatik ishlab chiqarish R Commander-da skript yaratish o'quvchi uchun R tili operatorlari bilan tanishish va individual funktsiyalarni chaqirish xususiyatlarini o'rganish uchun ajoyib usul bo'lishi mumkin. Biz qo'llanmaning keyingi boblarini faqat til konstruktsiyalari darajasida ma'lumotlarni qayta ishlash tartib-qoidalarini muhokama qilishga bag'ishlaymiz.

1.4. Ob'ektlar, paketlar, funktsiyalar, qurilmalar R tili yuqori darajadagi ob'ektga yo'naltirilgan dasturlash tillari oilasiga kiradi. Mutaxassis bo'lmagan kishi uchun "ob'ekt" tushunchasining qat'iy ta'rifi juda mavhumdir. Biroq, soddalik uchun biz R ob'ektlari bilan ishlashda yaratilgan hamma narsani chaqirishimiz mumkin.

Ob'ektlarning ikkita asosiy turi mavjud:

1. Ma'lumotlarni saqlash uchun mo'ljallangan ob'ektlar ("ma'lumotlar ob'ektlari") alohida o'zgaruvchilar, vektorlar, matritsalar va massivlar, ro'yxatlar, omillar, ma'lumotlar jadvallari;

2. Funksiyalar (“funksiya obyektlari”) yangi obyektlar yaratish yoki ular ustida muayyan amallarni bajarish uchun mo‘ljallangan dasturlar deb nomlanadi.

Jamoaviy va bepul foydalanish uchun mo'ljallangan R muhitining ob'ektlari o'xshash mavzular yoki ma'lumotlarni qayta ishlash usullari bilan birlashtirilgan paketlarga yig'iladi. Paket ("paket") va kutubxona ("kutubxona") atamalari o'rtasida biroz farq bor. "Kutubxona" atamasi bir yoki bir nechta paketlarni o'z ichiga olishi mumkin bo'lgan katalogni belgilaydi. "Paket" atamasi sinov yoki o'qitish uchun mo'ljallangan funktsiyalar to'plami, HTML qo'llanma sahifalari va misol ma'lumotlar ob'ektlarini anglatadi.

Paketlar operatsion tizimning ma'lum bir katalogiga o'rnatiladi yoki o'chirilgan shaklda arxivlangan *.zip fayllarida saqlanishi va tarqatilishi mumkin. Windows fayllari(paket versiyasi R ning o'ziga xos versiyasiga mos kelishi kerak).

Paket haqida to'liq ma'lumotni (versiya, asosiy tematik soha, mualliflar, o'zgartirishlar sanasi, litsenziyalar, boshqa funktsional bog'liq paketlar, ularning maqsadini ko'rsatadigan funktsiyalarning to'liq ro'yxati va boshqalar) buyruq orqali olish mumkin.

kutubxona(help=paket_nomi), masalan:

library(help=Matrix) Barcha R paketlari uchta toifadan biriga kiradi: asosiy ("asosiy"), tavsiya etilgan ("tavsiya etilgan") va boshqa foydalanuvchi tomonidan o'rnatilgan.

Siz kutubxona() buyrug'ini berish orqali ma'lum bir kompyuterda ularning ro'yxatini olishingiz mumkin yoki:

o'rnatilgan.packages(priority = "baza") o'rnatilgan.packages(priority = "tavsiya etiladi") # Olish to'liq ro'yxat paketlar to'plami ro'yxati - satr nomlari(installed.packages()) # Excel formatida almashish xotirasiga ma'lumot chiqarish write.table(packlist,"clipboard",sep="\t", col.names=NA) Odatda asosiy va tavsiya etilgan paketlar kiritiladi. R o'rnatish fayliga.

Albatta, zahiradagi ko'plab turli paketlarni darhol o'rnatishning hojati yo'q.

Paketni o'rnatish uchun R Console buyrug'i oynasida "Paketlarni o'rnatish paket(lar)i" menyusini tanlang yoki masalan, buyruqni kiriting:

install.packages(c("vegan", "xlsReadWrite", "mashina"))

Paketlarni, masalan, ruscha "oyna" http://cran.gis-lab.info dan yuklab olish mumkin, buning uchun 1.1-bo'limda ko'rsatilganidek, Rprofile.site faylining nashridan foydalanish qulay.

Paketlarni o'rnatishning yana bir varianti - http://cran.gis-lab.info/web/packages veb-saytiga o'tish, zip fayl sifatida kerakli paketni tanlash va kompyuteringizdagi tanlangan papkaga yuklab olish.

Bunday holda, siz paketdagi barcha ma'lumotlarni, xususan, unga kiritilgan funktsiyalar tavsifini oldindan ko'rishingiz va sizga qanchalik kerakligini hal qilishingiz mumkin. Keyinchalik, "Paketlar mahalliy zip-fayllardan paketlarni o'rnatish" buyruq menyusini bajarishingiz kerak.

RGui konsolini ishga tushirganingizda, faqat ba'zi asosiy paketlar yuklanadi. Har qanday boshqa paketni ishga tushirish uchun uning funktsiyalaridan bevosita foydalanishdan oldin kutubxona (paket_nomi) buyrug'ini berishingiz kerak.

Seansning har bir daqiqasida qaysi paketlar yuklanganligini buyruqni berish orqali aniqlashingiz mumkin:

sessionInfo() R versiyasi 2.13.2 (2011-09-30) Platforma: i386-pc-mingw32/i386 (32-bit)

–  –  –

boshqa biriktirilgan paketlar:

Vegan_2.0-2 o'zgartirish_0.6-3

nom maydoni orqali yuklangan (va biriktirilmagan):

Grid_2.13.2 lattice_0.19-33 tools_2.13.2 Biz quyidagi jadvalda ushbu kitobda keltirilgan skriptlarda ishlatilgan paketlar ro'yxatini (ehtimol to'liq to'liq bo'lmagan) taqdim etamiz:

R paketlari Maqsad "Asosiy" paketlar Asosiy konstruktsiyalar R bazasi Paket kompilyatori R kompilyatori Funktsiyalarni sinash va namoyish qilish uchun ma'lumotlardan iborat jadvallar to'plami ma'lumotlar to'plami Asosiy grafik funktsiyalari grafiklari Grafik qurilma drayverlari, ranglar palitralari, shriftlar grDevices Grafik qatlamlar panjarasini yaratish funktsiyalari Ob'ektga yo'naltirilgan dasturlash komponentlar (sinflar , usullar usullari) Har xil turdagi splaynlarning regressiya splaynlari bilan ishlash funksiyalari Statistik tahlil statistikasining asosiy funksiyalari S4 klassi stats4 statistik funksiyalarining usullari Foydalanuvchi interfeysi komponentlari (menyular, tanlash qutilari va boshqalar) tcltk Axborot ta’minoti, ma'muriyat va hujjat vositalari turli nosozliklarni tuzatish, kirish yordamchi dasturlarini chiqarish, arxivlash va h.k.

Utils "Tavsiya etilgan" paketlar Har xil yuklash va jackknife protseduralarining funktsiyalari. Ierarxik bo'lmagan tasniflash va tanib olish klassi uchun turli xil algoritmlar Klaster bo'linishi va ierarxik klasterlash algoritmlari Kodlarni tahlil qilish va tekshirish R codetools (har xil formatdagi DDBSS fayllarini o'qish, yozish, DDBTA formatlari). , Stata) KernSmooth KernSmooth Kengaytirilgan funksionallikning grafik funksiyalari (Sarkar, 2008) to'plami Ma'lumotlar va statistik funksiyalar to'plami (Venables, Ripley, 2002) MASS Matritsalar va vektorlar bilan operatsiyalar Matritsa Umumiy effektlar va aralash qo'shimchalar mgv modellari. va aralash effektli nochiziqli modellar nlme Feedforward neyron tarmoqlari nnet Tasniflash va regressiya daraxtlarini qurish rpart kriging funktsiyalari va nuqtalarning fazoviy taqsimotini tahlil qilish fazoviy omon qolish tahlili (Koks modeli va boshqalar) omon qolish Operatsiya davomida o'rnatilgan paketlar adegenet Genetik masofalarni tahlil qilish algoritmlari Regressiya modellarini tahlil qilish - kitobga qo'llash (Gelman, Hill, 2007) avtomobil Amaliy regressiya tahlili bilan bog'liq protseduralar korrelyatsiya matritsalarini grafik shaklda ko'rsatish fitdistrplus Statistik taqsimot parametrlarini tanlash FWDselect, Regressiya modellari to'plamida informatsion o'zgaruvchilar to'plamini tanlash. gamair Qo'shimcha geosfera modellarini sinab ko'rish uchun ma'lumotlar to'plamlari Geografik masofalarni baholash ggplot2 Yuqori funktsional DAAG bilan kengaytirilgan grafik to'plami Kitob uchun ma'lumotlarni tahlil qilish va grafik funktsiyalari (Maindonald, Braun, 2010) Hmisc Harrellning funktsiyalar to'plami HSAUR2 Kitobga qo'shimcha (Everitt, Hot, 2010) ISwR R jpeg da birlamchi statistik tahlil Grafika bilan ishlash jpeg fayllari lars Maxsus regressiya turlari (LARS, Lasso va boshqalar) lavaan Tasdiqlovchi tahlil va strukturaviy tenglama modellari lmodel2 I va II tipdagi regressiya modellarini amalga oshirish (MA, SMA, RMA) maptools Geografik xaritalar sichqonchalari bilan ishlash asboblari Tahlil qilish va to'ldirish protseduralari etishmayotgan qiymat momentlarida Hisoblash funktsiyalari namunaviy momentlar shimoliy Oddiy taqsimot gipotezasini sinab ko'rish mezonlari Ma'lumotlar pasteclarida chetga chiqishlar tahlili Ekologiyada fazoviy va vaqtli qatorlar tahlili pls Asosiy komponentlar bo'yicha regressiya pwr Gipotezalarning statistik kuchini qayta shakllantirish Flexible ma'lumotlar jadvallarini transformatsiyasi robustbase Regressiya modellarini qurish uchun mustahkam usullar rootSolve Bir nechta o'zgaruvchili funktsiyaning ildizlarini topish shkalasi Rang shkalasini tanlash sem Strukturaviy tenglamalar modellari semPlot Strukturaviy munosabatlarni vizualizatsiya qilish sm Tarqatish zichligini baholash va tekislash usullari sp Sinflar va kirish usullari fazoviy ma'lumotlarga spatstat Fazoviy statistika usullari, modellarni tanlash spdep Fazoviy bog'liqliklar: geostatistik usullar va modellashtirish stargazer Turli vcd formatlarida statistik modellar haqida ma'lumotni chiqarish Kategorik ma'lumotlarning vizualizatsiyasi Jamiyat ekologiyasi bo'yicha hisob-kitoblarni amalga oshirish (o'xshashlik, xilma-xillik va veganlik o'lchovlari) tayinlash va ko'p o'lchovli tahlil) Agar biz R-ga hali o'rnatilmagan paketni yuklashga harakat qilsak yoki hali yuklanmagan paketning funktsiyalaridan foydalanishga harakat qilsak, biz tizim xabarlarini olamiz:

sem(model, data=PoliticalDemocracy) Xato: "sem" kutubxonasi(lavaan) funksiyasi topilmadi. Kutubxonada(lavaan) xatolik: "lavaan" deb nomlangan paket yo'q K. Cichini tomonidan kiritilgan quyidagi funksiya a kirish sifatida qabul qiladi paketlardan foydalanilgan foydalanuvchilarning ro'yxati va qaysi birini yuklab olish va qaysilarini oldindan o'rnatish kerakligini ko'rsatadi. Skriptni tushunish uchun keyingi bobda tasvirlangan R tili konstruksiyalarini bilish talab etiladi, ammo qiziqqan o'quvchi keyinroq bu buyruqlarga qaytishi mumkin.

instant_pkgs - function(pkgs) ( pkgs_miss - pkgs)] # Yuklab olishga tayyor bo'lmagan paketlarni o'rnating:

if (length(pkgs_miss) 0) ( install.packages(pkgs_miss) ) # Hali yuklab olinmagan paketlarni yuklab oling:

Biriktirilgan - search() biriktirilgan_pkgs - biriktirilgan_qo'shish kerak - pkgs agar (uzunlik(biriktirish_kerak) 0) ( uchun (i 1da:uzunlik(biriktirish_kerak)) talab qilish(biriktirish kerak[i], belgi.faqat = TRUE) ) ) # Misol

instant_pkgs(c("baza", "jpeg", "vegan"))

Har bir paketning funktsiyalari ro'yxatini, masalan, buyruqni bajarish orqali olishingiz mumkin:

ls(pos = "paket: vegan") Eslatma: ls() ma'lum muhitdagi ob'ektlarni ro'yxatga olish uchun umumiy maqsadli funksiyadir. Yuqoridagi buyruq vegan paketini shunday muhit sifatida o'rnatadi. Agar biz ushbu buyruqni parametrlarsiz bersak, joriy sessiya davomida yaratilgan ob'ektlar ro'yxatini olamiz.

Siz args() buyrug'ini berish orqali yuklangan paketdagi istalgan funksiyaning kiruvchi parametrlariga argumentlar ro'yxatini olishingiz mumkin.

Masalan, biz keyinchalik keng qo'llaydigan lm() olish funksiyasining chiziqli modelini ishga tushirishda parametrlar o'rnatiladi:

Args(lm) funktsiyasi (formula, ma'lumotlar, kichik to'plam, og'irliklar, na.harakat, usul = "qr", model = TRUE, x = FALSE, y = FALSE, qr = TRUE, singular.ok = TRUE, kontrastlar = NULL, ofset,...) Agar siz faqat funksiyaning qisqartmasidan iborat buyruqni kiritsangiz (masalan, IQR ning kvartillararo diapazonini hisoblash), funksiyaning manba matnini R tili kodlarida olishingiz mumkin:

IQR funksiyasi (x, na.rm = FALSE) diff(kvantil(as.raqamli(x), c(0.25, 0.75), na.rm = na.rm, nomlar = FALSE)) Ilgʻor foydalanuvchi bunga oʻzgartirishlar kiritishi mumkin. kodni kiriting va standart funktsiya chaqiruvini versiyangizga "yo'naltiring".

Biroq, agar biz chiziqli modelning taxmin qilingan qiymatlarini hisoblash uchun ishlatiladigan taxmin () funktsiyasining kodini ko'rib chiqmoqchi bo'lsak, xuddi shu tarzda biz quyidagilarni olamiz:

bashorat qilish funksiyasi (obyekt,...) UseMethod("prognoz qilish") Bu holda, predict() "universal" funktsiyadir: uning kirishiga qaysi model ob'ekti berilganiga qarab (chiziqli regressiya uchun lm, Puasson uchun glm yoki logistika uchun) regressiya, aralash effektlar modeli uchun lme va boshqalar), bashorat qilingan qiymatlarni olishning tegishli usuli yangilanadi.

Xususan, ushbu funktsiya quyidagi usullarni amalga oshirish uchun ishlatiladi:

usullar("taxmin qilish") bashorat qilish.ar* bashorat qilish.Arima* bashorat qilish.arima0* taxmin.glm taxmin.HoltWinters* taxmin.lm taxmin.loess* taxmin.mlm taxmin.nls* bashorat qilish.poly bashorat.ppr* bashorat qilish.prcomp* tahmin.princomp* taxmin.smooth.spline* tahmin.smooth.spline.fit* tahmin.StructTS* Koʻrinmaydigan funksiyalar yulduzcha bilan belgilangan Bu misol R ramkasi asosidagi obʼyektga yoʻnaltirilgan dasturlash (OOP) gʻoyalariga taalluqlidir. S3 uslubi, usuli, aniq qilib aytganda, kiritish uchun taqdim etilgan ob'ekt sinfiga qarab, print(), plot() yoki summary() kabi boshqa umumiy funksiya tomonidan chaqiriladigan funksiyadir. Bunday holda, sinf atributi "ob'ektga yo'naltirilganlik" uchun javob beradi, bu esa berilgan ob'ekt uchun kerakli usulni to'g'ri jo'natish va chaqirishni ta'minlaydi. Shunday qilib, umumlashtirilgan chiziqli modelning bashorat qilingan qiymatlarini olish uchun "usul funktsiyasi" splinelar bilan tekislashda taxmin.glm() chaqiruviga ega bo'ladi - taxmin.smooth.spline() va hokazo. S3 OOP modeli haqida batafsil ma'lumotni S3Methods yordam bo'limida va yanada rivojlangan S4 modeli uchun Metodlar bo'limida topishingiz mumkin.

Nihoyat, R sessiyasi davomida ishlab chiqarilgan ishni saqlashning oddiy usullarini ko'rib chiqaylik:

° sink(fayl= fayl nomi) – real vaqtda keyingi buyruqlarni bajarish natijalarini berilgan nomdagi faylga chiqaradi; Ushbu buyruqni to'xtatish uchun siz sink() buyrug'ini parametrlarsiz bajarishingiz kerak;

° saqlash (fayl= fayl nomi, saqlangan ob'ektlar ro'yxati) - belgilangan ob'ektlarni XDR formatidagi ikkilik faylda saqlaydi, ular bilan istalgan formatda ishlash mumkin. operatsion tizim;

° yuk (fayl= fayl nomi) – joriy muhitda saqlangan obyektlarni tiklaydi;

° save.image(fayl= fayl nomi) – ish davomida yaratilgan barcha obyektlarni R-maxsus rda fayli sifatida saqlaydi.

Ushbu bo'limda yaratilgan jadvalni Excel varaqlari tuzilishiga mos formatda ma'lumotlar bilan buferga o'tkazish misoli yuqorida keltirilgan. 6-bobda chiziqli model ob'ektidan Word fayliga ma'lumotlarni uzatish misoli keltirilgan.

R muhiti deyarli har qanday displey ruxsati yoki bosib chiqarish moslamasi uchun kerakli sifatdagi pikselli tasvirlarni yaratishi, shuningdek, olingan grafik oynalarni turli formatdagi fayllarda saqlashi mumkin. Har bir grafik chiqish qurilmasi uchun drayver funksiyasi mavjud: drayverlarning toʻliq roʻyxatini olish uchun help(Devices) buyrugʻini kiritishingiz mumkin.

Grafik qurilmalar orasida eng keng tarqalganlari:

° windows() - Windows grafik oynasi (ekran, printer yoki metafayl).

° png(), jpeg(), bmp(), tiff() – mos formatdagi rastr faylga chiqarish;

° pdf(),postscript() – grafik ma'lumotni chiqarish PDF fayl yoki PostScript.

Chiqish qurilmasi bilan ishlashni tugatgandan so'ng, dev.off() buyrug'i yordamida uning drayverini o'chirib qo'yishingiz kerak. Bir vaqtning o'zida bir nechta grafik chiqish qurilmalarini faollashtirish va ular o'rtasida almashish mumkin: masalan, Shipunov va boshqalarning kitobidagi tegishli bo'limga qarang. (2012 yil, 278-bet).

1. R TILINI TAVSIFI

2.1. R tilidagi ma'lumotlar turlari R dagi barcha ma'lumotlar ob'ektlarini (shuning uchun o'zgaruvchilarni) quyidagi sinflarga (ya'ni ob'ekt turlariga) bo'lish mumkin:

° raqamli - butun (butun) va haqiqiy sonlarni (ikki marta) o'z ichiga olgan ob'ektlar;

° mantiqiy - faqat ikkita qiymatni qabul qiladigan mantiqiy ob'ektlar: FALSE (qisqartirilgan F) va TRUE (T);

° belgi - belgilar ob'ektlari (o'zgaruvchan qiymatlar ikki yoki bitta tirnoq ichida ko'rsatilgan).

R tilida siz lotin va kirill alifbosida turli ob'ektlar (funktsiyalar yoki o'zgaruvchilar) uchun nomlar yaratishingiz mumkin, lekin a (kirill) va a (lotin) ikki xil ob'ekt ekanligini unutmang. Bundan tashqari, R muhiti katta-kichik harflarga sezgir, ya'ni. kichik va bosh harflar farqlanadi. R dagi o'zgaruvchilar nomlari (identifikatorlari) harf (yoki nuqta) bilan boshlanishi va harflar, raqamlar, nuqtalar va pastki chiziqdan iborat bo'lishi kerak.

Jamoa yordamidami? nomini kiritsangiz, ko'rsatilgan nomga ega o'zgaruvchi yoki funksiya mavjudligini tekshirishingiz mumkin.

O'zgaruvchining ma'lum bir sinfga tegishliligini tekshirish is.numeric(ob'ekt_nomi), is.integer(name), is.logical(name), is.character(name) va ob'ektni boshqa turga aylantirish funktsiyalari bilan tekshiriladi. as.numeric (ism), as.integer(ism), as.logical(nom), as.character(ism) funksiyalaridan foydalanishingiz mumkin.

R-da bir qator maxsus ob'ektlar mavjud:

° Inf - ijobiy yoki salbiy cheksizlik (odatda haqiqiy sonni 0 ga bo'lish natijasi);

° NA - "yo'qolgan qiymat" (mavjud emas);

° NaN - "raqam emas".

Siz mos ravishda is.nite(name), is.na(nom) va is.nan(ism) funksiyalari yordamida oʻzgaruvchining ushbu maxsus turlardan birortasiga tegishli ekanligini tekshirishingiz mumkin.

R ifodasi tayinlash operatori, arifmetik yoki mantiqiy operatorlar, obyekt nomlari va funksiya nomlari kabi elementlarning birikmasidir. Ifodani bajarish natijasi odatda darhol buyruq yoki grafik oynada ko'rsatiladi. Biroq, tayinlash operatsiyasi bajarilganda, natija mos keladigan ob'ektda saqlanadi va ekranda ko'rsatilmaydi.

R da tayinlash operatori sifatida siz “=” belgisidan yoki “-” (chapdagi ob’ektga ma’lum bir qiymat berish) yoki “-” (sahifadagi obyektga qiymat berish) juft belgilardan foydalanishingiz mumkin. o'ng). “-” dan foydalanish yaxshi dasturlash uslubi deb hisoblanadi.

R tilidagi ifodalar skriptda satr bo'yicha tartiblangan. Siz bir qatorga bir nechta buyruqlarni kiritishingiz mumkin, ularni ";" belgisi bilan ajrating. Bitta buyruq ikki (yoki undan ortiq) qatorga ham joylashtirilishi mumkin.

raqamli ob'ektlar an'anaviy arifmetik amallar yordamida ifodalar hosil qilishi mumkin + (qo'shish), – (ayirish), * (ko'paytirish), / (bo'lish), ^ (ko'paytirish), %/% (butun bo'linish), %% (qoldiq) bo'lishdan) . Operatsiyalar odatdagi ustuvorlikka ega, ya'ni. Birinchidan, daraja ko'rsatish, keyin ko'paytirish yoki bo'lish, keyin qo'shish yoki ayirish amalga oshiriladi. Ifodalar qavslardan foydalanishi mumkin va ular ichidagi amallar eng yuqori ustuvorlikka ega.

Mantiqiy ifodalar quyidagi mantiqiy operatorlar yordamida tuzilishi mumkin:

° "Teng" == ° "Teng emas" != ° "Kamroq" ° "Kattaroq" ° "Kichik yoki teng" = ° "Katta yoki teng" = ° "Mantiqiy AND" & ° "Mantiqiy OR" | ° "Mantiqiy EMAS"!

YORDAM, AU TSOURSING XIZMATLARI G&A FONDLARI BOSHQARMASI 2nd AMICORP GROUP KOMPANIYASI FAOLIYAT SOZI OLOVCHILARDAN BOShQARADI w w w.am icor p. c om AMICORP GROUP KOMPANIYA FAOLIYAT SOHALARI KOMPANIYA HAQIDA MAZMUNI HAQIDA XIZMATLARIMIZ Korporativ mijozlar uchun xizmatlar Institutsional sotish bo‘yicha xizmatlar Yaratish va boshqarish...”

"Rossiya Federatsiyasi hukumati huzuridagi Moliya universiteti" Oliy kasb-hunar ta'limi federal davlat ta'lim byudjet muassasasi "Marketing" kafedrasi "Marketingning zamonaviy yo'nalishlari: NAZARIYA, METODOLOGIYA, AMALIYOT KOLLEKTİV MONOGRAFIYASI S.V. bosh tahririyati ostida. Karpova Moskva 2011 Taqrizchilar: N.S. Perekalina - iqtisod fanlari doktori, professor, rahbar. "MATI" marketing kafedrasi - nomidagi Rossiya davlat texnologiya universiteti. K. E. Tsiolkovskiy S.S. Solovyov..."

“CAFE va TEA RDACTION uchun kichik raqamli axborot byulleteni: Ch. Muharrir: Vesela Dabova Br.4 dekabr, 2011 yil Muharrirlar: Otslabvane s chai Teodora Vasileva Gergana Ivanov nashriyoti: ABB Choy ichish paytida tanadagi barcha holatlar qanday va Nai-sigurniyat va sog'lom boshlanishlar bilan barcha holatlar qanday zaiflashadi bir chashka choy uchun tegloto e redovnata consummation on namalyavane uchun. Nazariyaning ishonchliligi haqida turli xil fikrlar mavjud, ammo juda kam faktlar har bir piyola choyning belgilangan rejim bilan birlashtirilganligini isbotlaydi ... "

"XALQARO fanlararo ilmiy konferentsiya RCS 2015 FANLAR ORASIDA RADIKAL MAYOS KONFERENTSIYA TEZORATLAR KITOBI Romana Bokovi Miljana Zekovi Slaana Milievi NOVI SAD / SAD /S2EM5-S2015 Fanlar o'rtasida konferentsiya tezislar kitobi Muharrirlar: Romana Bokovi Miljana Zekovi Slaana Milievi ISBN: 978-86-7892-733-1 Layout: Maja Momirov Muqova dizayni: Stefan Vuji Texnika fanlari fakulteti arxitektura va urbanizm kafedrasi tomonidan nashr etilgan...”

“Sankt-Peterburg DAVLAT UNIVERSITETI Geografiya va geoekologiya fakulteti Geomorfologiya kafedrasi “Arktika ko‘llarining geomorfologik xususiyatlari va paleoklimati (Rossiya Arktikasining markaziy sektoridagi ko‘llar misolida)” mavzusida DIPLOM ishi (yakuniy malakaviy ishi) tugallandi. Muallif: kechki talaba Elena Aleksandrovna Morozova Ilmiy maslahatchilar: geografiya fanlari doktori, prof. Bolshiyanov Dmitriy Yurievich t.f.n., katta o‘qituvchi Savelyeva Larisa Anatolyevna Taqrizchi: t.f.n., mudir...”.

“Apacer M811 sichqonchasi bu to'plam uchun lazerli mini-SUV. http://news.kosht.com/computer/mouse/2009/11/26/mysh_apacer_m811. Firefox brauzeri uchun KOSHT.com kundalik narxlar uchun plaginni qidiring. One Click-ni o'rnating. Bir kilobayt. Bosh sahifa Yangiliklar Narxlar E'lonlar Ishlar Forumlar Kompaniyalar Mobi O'z yangiliklaringizni toping Barcha KOSTA yangiliklari Kompyuterlar va komponentlar Kompyuter sichqonlari va komponentlari Sichqonchalar Hammasi KOSTA yangiliklari Eng yaxshi o'yin kompyuterlari UltraPrice.by saytida onlayn hisoblash Apacer M811 sichqonchani – lazerli mini-SUV [...»

"TA'LIM FEDERAL AGENTLIGI OLIY TA'LIM DAVLAT TA'LIM MASSASIYASI MOSKVA DAVLAT SANOAT UNIVERSITETI (GOU MGIU) "AXBOROT TIZIMLARI VA TEXNOLOGIYALARI" TA'LIM BO'LIMASI Talabalar ma'muriyati tomonidan Talabalar ma'muriyati tomonidan ma'lumot va ma'lumotlarni qo'llab-quvvatlash tizimi. Andrevna Chumakova haqida mavzusi “Yomon tartibga solinadigan tana uchun ajratilgan oqimlarni hisoblash” Ish rahbari: prof., fizika-matematika fanlari doktori. n. Aleksin Vladimir Adamovich..."

“R WIPO A/45/3 ASLI: Oʻzbekcha Sana: 2008-yil 15-avgust. JAHON AKLI MULK TASHKILOTI JENEVA AʼZO-DAVLATLAR ASAMBLEYASI WIPO 45-chi yigʻilishlar seriyasi Jeneva, 22-30-sentyabr, 2008-yil, ODMISSIONOF bosh direktori. I. XALQARO NOHUkumat TASHKILOTLARNING KUzatuvchi sifatida qabul qilinishi 1. Assambleyalar o‘zlarining oldingi sessiyalarida xalqaro nohukumat tashkilotlarga murojaat qilishda qo‘llanilishi kerak bo‘lgan bir qator tamoyillarni qabul qildilar...”.

“1 Oleg Sanaev. To'rt yil davom etadigan va yuz dollar turadigan DUNYO BO'YICHA KURS Evgeniy Aleksandrovich Gvozdevning sarlavhada ko'rsatilgan Lena yaxtasida sayohati davomiyligi bilan hammasi joyida - to'rt yil va ikki hafta: 1992 yil 7 iyulda u Maxachqal'a portidan chiqib, 1996 yil 19 iyulda qaytib keldi. Ammo pul bilan bu aniq mubolag'a, to'g'rirog'i kamtarlik: siz, albatta, to'rt yil davomida yuz dollarga yashay olmaysiz - oyoqlaringizni cho'zasiz. Ammo Gvozdev o'z sayohatini boshlaganida aynan shu miqdorga ega edi. Va hech bo'lmaganda oyoqlar ... "

"Menejment instituti, tadqiqot universiteti Belgorod Davlat Milliy tadqiqot universiteti. XAVFSIZLIKNI shakllantirish TEXNOLOGIYALARI DAVLAT VA MUNITITIPAL VA MUNICIPAL XIZMAT UCHUN KADROLAR REZERVARINI SHAKLLANTIRISHNI TA'MINLASH TEXNOLOGIYALARI.

“Lidiya YANOVSKAYA MIKAIL BULGAKOV HAQIDA QAYDLAR MOSKVA “MATN” UDC 821.161.1 BBK 84 (2Ros-Rus)6-44 Ya64 ISBN 978-5-7516-0660-2 ISBN 977-LC489 (LVN 978-985) ) "Matn", 2007 "BRAVO, ENCORE, LOMONDON!" "BRAVO, BIS, lombard!" Bugun Moskvada “Yunost” jurnalining tahririyati qayerda joylashganini bilmayman. Bunday jurnal hali ham bormi? 70-yillarning o'rtalarida Moskvadagi eng yosh va go'zal tahririyat Sadovaya-Triumfalnaya, Mayakovskiy maydoni yonidagi kichik, ammo juda qulay joyni egallagan ..."

“1-ilova 2013-YIL TANLOVLAR UCHUN ARIJA SHAKLLARI “T” shakli. Rossiya gumanitar fan fondiga arizaning sarlavha sahifasi Loyiha nomi Loyiha raqami Loyiha turi (a, c, d, e, f) Bilimlar sohasi (kod) Rossiya gumanitar fanlar fondi tasniflagich kodi GRNTI kodi (http://www. .grnti.ru/) ilm-fan va texnologiya va texnologiyani rivojlantirishning ustuvor yo'nalishi Rossiya Federatsiyasi, kritik texnologiya1 Rahbarning familiyasi, ismi, otasining ismi Loyiha rahbarining aloqa telefon raqami Loyihani amalga oshirish kerak boʻlgan tashkilotning toʻliq va qisqa nomi...”

“FNI hisoboti 8/2014 Polshada Yevropa Ittifoqining iqlim va energetika siyosatini amalga oshirish: yevropalanishdan polonizatsiyagami? Jon Birger Skjrseth Polshada Yevropa Ittifoqining iqlim va energetika siyosatini amalga oshirmoqda: yevropalanishdan polonizatsiyaga? Jon Birger Skjrseth [elektron pochta himoyalangan] Dekabr 2014 Mualliflik huquqi © Fridtjof Nansen instituti 2014 Sarlavha Polshada Yevropa Ittifoqining iqlim va energetika siyosatini amalga oshirish: Yevropalashuvdan polonizatsiyagami? Nashr turi va soni Sahifalar FNI hisoboti 8/2014 57 Muallif ISBN 978-82-7613-683-8 Jon...”

""TOGU ilmiy eslatmalari" 6-jild, № 4, 2015 ISSN 2079-8490 "TOGU ilmiy eslatmalari" elektron ilmiy nashri, 2015 yil, 6-jild, № 4, S. 173 - 178 Sertifikat El No. F-396 05.05.2010 http://pnu.edu.ru/ru/ejournal/about/ [elektron pochta himoyalangan] UDC 316.33 © 2015 I. A. Gareeva, sotsiologiya fanlari doktori. Fanlar, A. G. Kiseleva (Tinch okeani davlat universiteti, Xabarovsk) IJTIMOIY SUGʻURTA TIZIMLARINI SHAKLLANTIRISH Ushbu maqolada ijtimoiy sugʻurta tizimlarining shakllanishi va uning hozirgi holati tahlil qilinadi...”.

“Konferentsiya dasturi Chiang May, Tailand, 2015 yil noyabr, APCBSS Osiyo - Biznes va ijtimoiy fanlar bo'yicha Tinch okeani konferentsiyasi ICEI Ta'lim innovatsiyasi bo'yicha xalqaro konferentsiya APCLSE Osiyo-Tinch okeani mintaqasidagi hayot fanlari va muhandislik konferentsiyasi APCBSS Osiyo - Biznes va ijtimoiy fanlar bo'yicha Tinch okeani konferentsiyasi ISBN978-986- 90263-0-7 Ta'lim innovatsiyasi bo'yicha ICEI xalqaro konferentsiyasi ISBN 978-986-5654-33-7 APCLSE Osiyo-Tinch okeani mintaqasidagi hayot haqidagi fan va muhandislik konferentsiyasi ISBN 978-986-90052-9-6 Kontent mazmuni..."

Kurs dasturi

R da dasturlash elementlari

  • Ta'riflovchi statistika va vizualizatsiya
  • Masalan, nima muhimroq: o'rtacha chekmi yoki odatiy chekmi?

Klaster tahlili

  • Qanday muammo hal qilinmoqda? Ob'ektlar guruhini kichik guruhlarga bo'ling.
  • Misol topshiriq. Saytlarni segmentlash, o'xshash saytlarni aniqlash.
  • O'rganilgan usullar. Ierarxik klaster tahlili, k-vosita usuli, K-medoid usuli.

Statistik gipotezalarni tekshirish

  • Qanday muammo hal qilinmoqda? Ikki guruh ob'ektlarni solishtiring.
  • Misol topshiriq. Foydalanuvchi xatti-harakatlarining A/B testi yoqilgan turli versiyalar sayt sahifalari.
  • O'rganilgan usullar. Proportionlar uchun test, Student's t test, Livigne testi, Wilcoxon-Mann-Whitney testi

Chiziqli regressiya tahlili.

  • Misol topshiriq. Bojxona to‘lovlari oshirilgandan so‘ng eski mashinalar narxi qancha tushganini hisoblang.
  • O'rganilgan usullar. O'zgaruvchan tanlash, kollinearlik, ta'sirli kuzatishlar, qoldiqlarni tahlil qilish. Parametrik bo'lmagan regressiya (yadro silliqlash). Lineer regressiya yordamida mavsumiy komponentli qisqa seriyalarni prognoz qilish

Prognozlash

  • Qanday muammo hal qilinmoqda? Vaqt seriyasi prognozini tuzing
  • Misol topshiriq. 6 oy davomida veb-sayt trafigini oldindan taxmin qiling.
  • O'rganilayotgan usul. Eksponensial tekislash

Mashina oʻrganish (naqshni aniqlash)

  • Misol topshiriq. Har bir saytga tashrif buyuruvchining jinsi va yoshini aniqlang
  • O'rganilgan usullar. K-yaqin qo'shni Tasniflash daraxtlari (CART) usuli. Tasodifiy o'rmonlar. Gradientni kuchaytirish mashinasi

Kurs baholari

Talabalarga 14 ta laboratoriya ishi beriladi. Kurs quyidagi qoidaga muvofiq baholanadi:

  • Zo'r - barcha ishlar qabul qilindi;
  • Yaxshi - bittadan boshqa barcha ishlar qabul qilindi?;
  • Qoniqarli - ikkitadan tashqari barcha ishlar qabul qilinadi;
  • Qoniqarsiz - boshqa hollarda.

Laboratoriya ishi shundan iborat

  • tinglovchiga ma'lumotlar to'plami va savol beriladi;
  • tinglovchi o'z bayonotlarini jadvallar, grafiklar va R tilida yozilgan skript bilan tasdiqlagan holda savolga javob beradi;
  • Tinglovchi qo'shimcha savollarga javob beradi.

Savol namunasi. Kimyoviy tahlil natijalariga ko'ra vino brendini tan olishda Tasodifiy o'rmon algoritmining optimal ishlashini ta'minlaydigan parametrlarni taklif qiling.

Kursni o'tash uchun nimani bilishingiz kerak

Taxminlarga ko'ra, kurs ishtirokchilari allaqachon ehtimollar nazariyasi kursini o'tashgan.

Adabiyot

  • Shipunov, Baldin, Volkova, Korobeinikov, Nazarova, Petrov, Sufiyanov Vizual statistika. R dan foydalanish
  • Masticsky, Shitikov R. yordamida statistik tahlil va ma'lumotlarni vizualizatsiya qilish
  • Bishop naqshini aniqlash va mashinani o'rganish.
  • Jeyms, Vitten, Xasti, Tibshirani. Statistik o'rganishga kirish. R tilidagi ilovalar bilan.
  • Hasti, Tibshirani, Fridman. Statistik o'rganish elementlari_Ma'lumotlarni qazib olish, xulosa chiqarish va bashorat qilish 2+nashr
  • Krouli. R kitobi.
  • Kabacoff R harakatda. R bilan ma'lumotlarni tahlil qilish va grafikalar.

O'qituvchilar

Ma'ruzalar ro'yxati

R ga kirish: Asosiy buyruqlar. Median, kvantillar va kvartillar. Shtrixli diagramma. Shtrixli diagramma. Pirog diagrammasi. Tarqalish diagrammasi. Tarqalish matritsasi. Grafikda ranglardan foydalanish. Mo'ylovli qutilar (quti diagrammasi). Odatda namunali kuzatish: o'rtacha arifmetik, median yoki kesilgan o'rtacha. Tahlil qilinayotgan ma'lumotlarga adekvat bo'lgan tipik qiymatni tavsiflash usulini tanlash. Jurnal normal taqsimot. Chet elliklar va ekstremal kuzatuvlar.

Ierarxik klaster tahlili. Klaster, ob'ektlar orasidagi masofalar, klasterlar orasidagi masofalar. Dendrogramma tuzish algoritmi. Scree/tirsak. Ma'lumotlarni standartlashtirish. Ma'lumotlarni tayyorlashda odatiy xatolar. Natijalarni talqin qilish.

K - usuli. Tasodifiy sonli datchiklar, sensorli don. k-o'rtacha usuli algoritmining vizualizatsiyasi. Klasterlar sonini aniqlash usullari. NbClust kutubxonasi. Scree/tirsak. Klaster vizualizatsiyasi uchun ko'p o'lchovli masshtablash.

Statistik gipotezalarni tekshirish. Kelishuv, bir xillik, mustaqillik gipotezalari, taqsimot parametrlari haqidagi farazlar.

Statistik gipotezalarni tekshirish. I va II turdagi xatolar, p-qiymati va ahamiyatlilik darajasi, statistik gipotezani tekshirish algoritmi va natijalarni sharhlash. Oddiy taqsimot gipotezasi. Shapiro-Uilk va Kolmogorov-Smirnov testlari. Oddiylikdan ahamiyatsiz og'ishlar. Namunalarni solishtirish. Mustaqil va juftlashtirilgan namunalar. Student's t-test, Mann-Whitney-Wilcoxon testi va Mood testi o'rtasida tanlov. Student t-testlarining turlari va dispersiyalarni solishtirish. Taqqoslash uchun vizualizatsiya. Bir tomonlama va ikki tomonlama testlar.

Statistik gipotezalarni tekshirish. Namunalarni solishtirish. Mustaqil va juftlashtirilgan namunalar. Student's t-test, Mann-Whitney-Wilcoxon testi va Mood testi o'rtasida tanlov. Student t-testlarining turlari va dispersiyalarni solishtirish. Taqqoslash uchun vizualizatsiya. Bir tomonlama va ikki tomonlama testlar. Mustaqillik. Pearson, Kendall va Spearman korrelyatsiya koeffitsientlari ikkita hodisa o'rtasidagi munosabatlarni o'rganishda keng tarqalgan xatolardir. Topilmalarni vizual tekshirish.

Chiziqli regressiya tahlili Model, koeffitsient baholarining talqini, ko'p determinatsiya koeffitsienti. Ko'p determinatsiya koeffitsientini talqin qilish, uni qo'llash doirasidagi cheklovlar. Eng muhim bashorat qiluvchilarni aniqlash va har bir bashoratchining hissasini baholash. Tuzilgan modellarni sozlash algoritmlari. Kollinearlik.

Chiziqli regressiya tahlili: qisqa vaqtli qatorlarni bashorat qilish.

Mavsumiy ko'rsatkich (qo'g'irchoq, tarkibiy) o'zgaruvchilar bilan regressiya modeliga asoslangan prognozlash. Trend, mavsumiy komponentlar, ketma-ketlik xarakteridagi o'zgarishlar, chetga chiqishlar. Logarifmizatsiya - bu ko'paytiriladigan mavsumiylikni qo'shimcha mavsumiylikka aylantirish usuli. Ko'rsatkich o'zgaruvchilari. Qayta tayyorlash.

Chiziqli regressiya - qoldiqlarni tahlil qilish. Gauss-Markov teoremasining model cheklovlarining buzilishi. Qoldiq tahlili. Spetsifikatsiya xatosi. Multikollinearlik, bag'rikenglik va VIF. Qoldiqlar dispersiyalarining doimiyligini tekshirish. Oddiylikdan qoldiqlarni taqsimlashda og'ishlar mavjudligida modellarni tuzatish. Kuk masofasi va leverage. Durbin-Watson statistikasi. Mavsumiy tuzatishlar sonini kamaytirish.

Eksponensial tekislash Xolt-Vinters usuli. Mahalliy tendentsiya, mahalliy mavsumiylik.

Terminologiya: Mashinani o'rganish, sun'iy intellekt, ma'lumotlarni qazib olish va naqshni aniqlash.

K-eng yaqin qo'shni usuli. Usulning izchilligi. Lazy o'rganish (dangasa o'rganish). Xususiyatlarni tanlash. O'zaro tasdiqlash. k-katta o'zaro tekshirish. Haddan tashqari moslashish. O'quv va sinov namunalari.

K-eng yaqin qo'shni usuli Misollar. Eng yaqin qo'shnilar sonini aniqlash. Usulning sifatini aniqlash uchun favqulodda vaziyatlar jadvali.

CART tasnifi daraxtlari. Geometrik tasvir. Mantiqiy qoidalar majmui sifatida ifodalash. Daraxt ko'rinishi. Tugunlar, ota-onalar va bolalar, barg tugunlari. Chegara qiymatlari. rpart kutubxonasi. Nopoklik choralari. Soflikni o'lchash usullari: Jini, entropiya, tasniflash xatolari. Daraxt o'rganish qoidalari. Kutubxona rpart.plot.

"R: Ma'lumotlarni tahlil qilish va vizualizatsiya" blogi uch yarim yildan ortiq vaqtdan beri mavjud. Bir necha oy oldin, shu vaqt ichida bu erda nashr etilgan uslubiy xabarlarni elektron kitob shaklida umumlashtirish g'oyasi tug'ildi. G'oya muallifi va keyinchalik kitobning hammuallifi biologiya fanlari doktori Vladimir Kirillovich Shitikov edi (). Natijani sizga yangi yil sovg'amiz sifatida taqdim etishdan mamnunmiz.


Asboblar to'plami "R yordamida statistik tahlil va ma'lumotlarni vizualizatsiya qilish"birinchi navbatda talabalar, aspirantlar, yosh va taniqli olimlar, shuningdek, R. bilan ishlash tajribasiga ega bo'lmagan professional tahlilchilar uchun mo'ljallangan. Blog an'analariga amal qilgan holda, iloji bo'lsa, "marosim"ni suiiste'mol qilishdan qochishga harakat qildik. Amaliy statistika boʻyicha koʻplab qoʻllanmalarga xos boʻlgan iboralar, mashhur teoremalardan iqtibos keltirish va koʻp qavatli hisoblash formulalarini keltirish.Oʻquvchi oʻqigan narsalaridan kelib chiqib, oʻz maʼlumotlarini tahlil qilishi uchun, birinchi navbatda, amaliy qoʻllashga urgʻu berildi. va natijalarni hamkasblariga taqdim eting.Kitob quyidagi mavzularni qamrab olgan 9 bobni o'z ichiga oladi:

  • 1-bob: R statistik muhitning asosiy komponentlari
  • 2-bob: R tilining tavsifi
  • 3-bob: Asosiy R grafik xususiyatlari
  • 4-bob: Ta'riflovchi statistik ma'lumotlar va moslashtirilgan taqsimotlar
  • 5-bob: Statistikaning klassik usullari va mezonlari
  • 6-bob: Dispersiyani tahlil qilishda chiziqli modellar
  • 7-bob: Miqdoriy o'zgaruvchilar o'rtasidagi munosabatlarning regressiya modellari
  • 8-bob: Umumlashtirilgan, strukturaviy va boshqa regressiya modellari
  • 9-bob: Fazoviy tahlil va kartogramma yaratish
Shuningdek, R.-da keng bibliografiya va foydali onlayn resurslar ro'yxati mavjud.

Kitobning PDF formatidagi rasmiy joriy versiyasi (~11 MB) uchun mavjud Bepul Yuklash ikkita saytdan:

  • GitHub ombori: https://github.com/ranalytics/r-tutorials
  • Volga havzasi RAS Ekologiya instituti sayti: http://www.ievbras.ru/ecostat/Kiril/R/

Xuddi shu ikkita manbada siz kitobda muhokama qilingan misollarni takrorlash uchun zarur bo'lgan R kod skriptlari va ma'lumotlar to'plamlarini topishingiz mumkin.

Ushbu ish bo'yicha har qanday fikr va takliflaringiz uchun minnatdor bo'lamiz - ularni rtutorialsbook["dog"]gmail.com elektron pochta manziliga yuboring.

Yuqorida ta'kidlanganidek, kitob butunlay bepul tarqatiladi. Ammo, agar siz buni foydali deb bilsangiz va mualliflarga qilgan ishlari uchun minnatdorchilik bildirishni o'rinli deb bilsangiz, quyidagi tugma yordamida istalgan summani o'tkazishingiz mumkin (barcha tranzaktsiyalar xavfsiz rejim elektron to'lov tizimi orqali

Oxirgi marta (2014-yil noyabrida; davomi bilan uzoq vaqt olganimdan juda uyaldim!) Men R tilining asosiy imkoniyatlari haqida gapirgan edim.Ko‘chadan va shartli bloklar kabi barcha odatiy boshqaruv konstruksiyalari mavjudligiga qaramay, iteratsiyaga asoslangan ma'lumotlarni qayta ishlashga klassik yondashuv bundan uzoqdir Eng yaxshi qaror, R dagi tsikllardan beri g'ayrioddiy sekin. Shunday qilib, endi men sizga ma'lumotlar bilan qanday ishlashingiz kerakligini aytaman, shunda hisoblash jarayoni sizni natijani kutayotgan juda ko'p chashka qahva ichishga majburlamaydi. Bundan tashqari, men qanday foydalanish haqida gapirishga biroz vaqt ajrataman zamonaviy vositalar R.da ma'lumotlarni vizuallashtirish, chunki ma'lumotlarni qayta ishlash natijalarini amalda ko'rsatish qulayligi natijalarning o'zidan kam emas. Keling, oddiy narsadan boshlaylik.

Vektor operatsiyalari

Esda tutganimizdek, R ning asosiy turi umuman raqam emas, balki vektordir va asosiy arifmetik amallar element-element vektorlarida ishlaydi:

>x<- 1:6; y <- 11:17 >x + y 12 14 16 18 20 22 18 > x > 2 YOLG‘ON YOLG‘ON ROQIQ HAQIQIY HAQIQIY > ​​x * y 11 24 39 56 75 96 17 > x / y 0,09090909 0,167602 0,16762. 9 0. 33333333 0.37500000 0.05882353

Bu erda hamma narsa juda oddiy, lekin savol berish juda mantiqiy: vektorlarning uzunligi mos kelmasa nima bo'ladi? Agar biz, aytaylik, k deb yozsak<- 2, то будет ли x * k соответствовать умножению вектора на число в математическом смысле? Короткий ответ - да. В более общем случае, когда длина векторов не совпадает, меньший вектор просто продолжается повторением:

> z<- c(1, 0.5) >x * z 1 1 3 2 5 3

Vaziyat matritsalar bilan taxminan bir xil.

>x<- matrix(1:4, 2, 2); y <- matrix(rep(2,4), 2, 2) >x * y [,1] [,2] 2 6 4 8 > x / y [,1] [,2] 0,5 1,5 1,0 2,0

Bunday holda, matritsani bit bo'yicha emas, balki "normal" ko'paytirish quyidagicha bo'ladi:

> x %*% y [,1] [,2] 8 8 12 12

Bularning barchasi, albatta, juda yaxshi, lekin biz vektorlar yoki matritsalar elementlariga o'z funktsiyalarimizni qo'llashimiz kerak bo'lganda nima qilamiz, ya'ni buni qanday qilib halqasiz bajarish mumkin? R ning ushbu muammoni hal qilishda qo'llagan yondashuvi biz funktsional tillarda o'rganganimizga juda o'xshaydi - bu Python yoki Haskelldagi xarita funksiyasini eslatadi.

Foydali funktsiya lappy va uning do'stlari

Bu oiladagi birinchi funktsiya lappy. U berilgan funktsiyani ro'yxat yoki vektorning har bir elementiga qo'llash imkonini beradi. Bundan tashqari, argument turidan qat'i nazar, natija aniq ro'yxat bo'ladi. Lambda funktsiyalaridan foydalanishning eng oddiy misoli:

>q<- lapply(c(1,2,4), function(x) x^2) >q 1 4 16

Agar roʻyxatga yoki vektorga qoʻllamoqchi boʻlgan funksiya bir nechta argumentni talab qilsa, bu argumentlar lapply orqali uzatilishi mumkin.

>q<- lapply(c(1,2,4), function(x, y) x^2 + y, 3)

Funktsiya ro'yxat bilan o'xshash tarzda ishlaydi:

>x<- list(a=rnorm(10), b=1:10) >qo'llash (x, o'rtacha)

Bu yerda rnorm funksiyasi normal taqsimotni belgilaydi (bu holda 0 dan 1 gacha bo‘lgan o‘nta normal taqsimlangan son), o‘rtacha esa o‘rtacha qiymatni hisoblab chiqadi. Sapply funksiyasi lapply funksiyasi bilan aynan bir xil, faqat natijani soddalashtirishga harakat qiladi. Misol uchun, agar ro'yxatning har bir elementi uzunligi 1 bo'lsa, u holda ro'yxat o'rniga vektor qaytariladi:

> sapply(c(1,2,4), funksiya(x) x^2) 1 4 16

Agar natija bir xil uzunlikdagi vektorlar ro'yxati bo'lsa, u holda funktsiya matritsani qaytaradi, lekin hech narsa aniq bo'lmasa, faqat ro'yxat, masalan, lapply.

>x<- list(1:4, 5:8) >sapply(x, funktsiya(x) x^2) [,1] [,2] 1 25 4 36 9 49 16 64

Matritsalar bilan ishlash uchun qo'llash funktsiyasidan foydalanish qulay:

>x<- matrix(rnorm(50), 5, 10) >amal (x, 2, o'rtacha) > amal (x, 1, yig'indi)

Bu erda, boshlash uchun, biz besh qator va o'n ustunli matritsani yaratamiz, so'ngra birinchi navbatda ustunlar bo'yicha o'rtacha, so'ngra qatorlardagi yig'indini hisoblaymiz. Rasmni yakunlash uchun shuni ta'kidlash kerakki, satrlarning o'rtacha va yig'indisini hisoblash vazifasi shunchalik keng tarqalganki, R bu maqsadda rowSums, rowMeans, colSums va colMeans uchun maxsus funktsiyalarni taqdim etadi.
Qo'llash funktsiyasi ko'p o'lchovli massivlar uchun ham ishlatilishi mumkin:

> arr<- array(rnorm(2 * 2 * 10), c(2, 2, 10)) >qo'llash (arr, c(1,2), o'rtacha)

Oxirgi qo'ng'iroqni o'qilishi mumkin bo'lgan variant bilan almashtirish mumkin:

> rowMeans(arr, dim = 2)

Keling, lapply ning ko'p o'lchovli analogi bo'lgan mapply funksiyasiga o'tamiz. Oddiy misoldan boshlaylik, uni to'g'ridan-to'g'ri standart R hujjatlarida topish mumkin:

> mapply(rep, 1:4, 4:1) 1 1 1 1 2 2 2 3 3 4

Ko'rib turganingizdek, bu erda nima sodir bo'ladi, rep funksiyasi ikkita ketma-ketlikdan yaratilgan parametrlar to'plamiga qo'llaniladi. Rep funktsiyasining o'zi oddiygina birinchi argumentni ikkinchi argument sifatida belgilangan necha marta takrorlaydi. Shunday qilib, oldingi kod oddiygina quyidagiga teng:

> roʻyxat (rep(1,4), rep(2,3), rep(3,2), rep(4,1))

Ba'zan massivning biron bir qismiga funktsiyani qo'llash kerak bo'ladi. Buni tapply funksiyasi yordamida amalga oshirish mumkin. Keling, quyidagi misolni ko'rib chiqaylik:

>x<- c(rnorm(10, 1), runif(10), rnorm(10,2)) >f<- gl(3,10) >teginish (x, f, o'rtacha)

Birinchidan, biz vektor yaratamiz, uning qismlari turli taqsimotlarga ega bo'lgan tasodifiy o'zgaruvchilardan hosil bo'ladi, so'ngra biz o'ndan ortiq bo'lmagan omillar vektorini hosil qilamiz, keyin o'n ikkita va bir xil sonli uchlar. Keyin tegishli guruhlar uchun o'rtacha hisoblaymiz. Sukut bo'yicha tapply funktsiyasi natijani soddalashtirishga harakat qiladi. Bu parametr simplify=FALSE parametrini belgilash orqali o‘chirib qo‘yilishi mumkin.

> teginish(x, f, diapazon, soddalashtirish=YOLG'ON)

Odamlar qo'llash funktsiyalari haqida gapirganda, ular odatda tapply ga o'xshash vektorni bo'laklarga bo'luvchi ajratish funktsiyasi haqida ham gapirishadi. Shunday qilib, agar biz split (x, f) deb nom qilsak, biz uchta vektor ro'yxatini olamiz. Shunday qilib, lapply/split juftligi FALSE ga o'rnatilgan soddalashtirish qiymati bilan tapply bilan bir xil ishlaydi:

> lapply (bo'lish (x, f), o'rtacha)

Split funktsiyasi vektorlar bilan ishlashdan tashqari foydalidir: undan ma'lumotlar ramkalari bilan ishlash uchun ham foydalanish mumkin. Quyidagi misolni ko'rib chiqing (men uni Coursera-dagi R dasturlash kursidan olganman):

> kutubxona(maʼlumotlar toʻplami) > bosh (havo sifati) Ozon Solar.R Shamol harorati Oy 1-kun 41 190 7.4 67 5 1 2 36 118 8.0 72 5 2 3 12 149 12.6 74 5 3 4 18 31 NA 34. NA5. 56 5 5 6 28 NA 14,9 66 5 6 > s<- split(airquality, airquality$Month) >lapply(s, function(x) colMeans(x[, c("Ozon", "Solar.R", "Wind")]))

Bu erda biz havo sharoitlari (ozon, quyosh radiatsiyasi, shamol, Farengeytdagi harorat, oy va kun) haqidagi ma'lumotlarni o'z ichiga olgan ma'lumotlar to'plami bilan ishlamoqdamiz. Kodda ko'rsatilganidek, biz oylik o'rtacha ma'lumotlarni ajratish va qo'llash orqali osongina hisobot berishimiz mumkin. Biroq, sapply-dan foydalanish natijani yanada qulayroq shaklda beradi:

> sapply(s, function(x) colMeans(x[, c("Ozon", "Solar.R", "Wind")])) 5 6 7 8 9 Ozon NA NA NA NA Solar.R NA 190.16667 216.483871 NA 167.4333 Shamol 11.62258 10.26667 8.941935 8.793548 10.1800

Ko'rib turganingizdek, ba'zi qiymat qiymatlari aniqlanmagan (va buning uchun ajratilgan qiymat NA ishlatiladi). Bu shuni anglatadiki, Ozon va Solar.R ustunlaridagi ba'zi (kamida bitta) qiymatlar ham aniqlanmagan. Shu ma'noda, colMeans funktsiyasi o'zini butunlay to'g'ri bajaradi: agar aniqlanmagan qiymatlar mavjud bo'lsa, demak, o'rtacha aniqlanmagan. Muammoni funktsiyani na.rm=TRUE parametri yordamida NA qiymatlarini e'tiborsiz qoldirishga majburlash orqali hal qilish mumkin:

> sapply(s, function(x) colMeans(x[, c("Ozon", "Solar.R", "Wind")], na.rm=TRUE)) 5 6 7 8 9 Ozon 23,61538 29,44444 59,115385 59,938 59,961. Solar.R 181.29630 190.16667 216.483871 171.857143 167.43333 Shamol 11.62258 10.26667 8.941935 8.793548 10.

Nima uchun sizga juda o'xshash muammolarni hal qilish uchun juda ko'p funktsiyalar kerak? O'ylaymanki, bu savolni bularning barchasini o'qigan har ikkinchi odam beradi. Bu funktsiyalarning barchasi vektor ma'lumotlarini looplardan foydalanmasdan qayta ishlash muammosini hal qilishga harakat qilmoqda. Ammo ma'lumotlarni qayta ishlashning yuqori tezligiga erishish boshqa narsa, pastadir va shartli bayonotlar kabi boshqaruv konstruksiyalari taqdim etadigan hech bo'lmaganda bir oz moslashuvchanlik va boshqaruvga ega bo'lish boshqa narsa.

Ma'lumotlarni vizualizatsiya qilish

R tizimi ma'lumotlarni vizualizatsiya qilish vositalariga nihoyatda boy. Va bu erda men qiyin tanlovga duch keldim - agar maydon juda katta bo'lsa, nima haqida gapirish kerak. Agar dasturlashda ba'zi bir asosiy funktsiyalar to'plami mavjud bo'lsa, ularsiz hech narsa bajarilmaydi, u holda vizualizatsiyada juda ko'p turli xil vazifalar mavjud va ularning har biri (qoida tariqasida) bir necha usul bilan hal qilinishi mumkin, har biri o'zining ijobiy va salbiy tomonlariga ega. Bundan tashqari, har doim bu muammolarni turli yo'llar bilan hal qilishga imkon beruvchi ko'plab variantlar va paketlar mavjud.
Haqida standart vositalar R-da vizualizatsiya haqida ko'p yozilgan, shuning uchun men bu erda qiziqroq narsa haqida gapirmoqchiman. So'nggi yillarda paketlar tobora ommalashib bormoqda ggplot2, keling, u haqida gapiraylik.

Ggplot2 bilan ishlashni boshlash uchun siz install.package("ggplot2") buyrug'i yordamida kutubxonani o'rnatishingiz kerak. Keyinchalik, uni ishlatish uchun ulaymiz:

> kutubxona("ggplot2") > bosh(olmos) karat kesilgan rang tiniqligi chuqurligi jadval narxi x y z 1 0,23 Ideal E SI2 61,5 55 326 3,95 3,98 2,43 2 0,21 Premium E SI1 59,8 61,33 32. Yaxshi. E VS1 56 .9 65 327 4,05 4,07 2,31 4 0,29 Premium I VS2 62,4 58 334 4,20 4,23 2,63 5 0,31 Yaxshi J SI2 63,3 58 335 4,34 4,358 335 4,34 4,352 V.2V.Yaxshi. 7 336 3. 94 3.96 2.48 > bosh(mtkar) mpg silindrli disp ot. drat wt qsec vs am gear carb Mazda RX4 21.0 6 160 110 3.90 2.620 16.46 0 1 4 4 Mazda RX4 Wag 21.0 6 160 110 3.90 2.8025 107sun. 108 93 3,85 2 .320 18,61 1 1 4 1 Hornet 4 Haydovchi 21,4 6 258 110 3,08 3,215 19,44 1 0 3 1 Hornet Sport haqida 18,7 8 360 175 3,15 3,440 17,02 0 0 3 2 Jasur 18,152 360. 2 1 0 3 1

Olmos va mtcars ma'lumotlari ggplot2 paketining bir qismidir va biz endi ular bilan ishlaymiz. Birinchisi bilan hamma narsa aniq - bu olmoslar haqidagi ma'lumotlar (aniqlik, rang, narx va boshqalar), ikkinchisi - ishlab chiqarilgan avtomobillarning yo'l sinovlari (gallon uchun mil soni, silindrlar soni ...) ma'lumotlari. 1973–1974 yillarda Amerikaning Motor Trends jurnalidan. Ko'proq batafsil ma'lumot ma'lumotlar haqida (masalan, o'lcham) ?olmos yoki ?mtcars terish orqali olinishi mumkin.

Vizualizatsiya uchun paket ko'plab funktsiyalarni taqdim etadi, ulardan qplot hozir biz uchun eng muhimi bo'ladi. Ggplot funktsiyasi sizga jarayonni sezilarli darajada ko'proq boshqarish imkonini beradi. Qplot bilan bajarilishi mumkin bo'lgan hamma narsa ggplot bilan ham amalga oshirilishi mumkin. Keling, buni ko'rib chiqaylik oddiy misol:

> qplot (aniqlik, ma'lumotlar = olmos, to'ldirish = kesish, geom="bar")

Xuddi shu effektga ggplot funksiyasi bilan erishish mumkin:

> ggplot(olmoslar, aes(aniqlik, to'ldirish=kesish)) + geom_bar()

Biroq, qplotni chaqirish osonroq ko'rinadi. Shaklda. 1-rasmda siz turli xil kesim sifatiga ega olmoslar sonining ravshanlikka bog'liqligi qanday tuzilganligini ko'rishingiz mumkin.

Keling, avtomobillarning yoqilg'i birligiga to'g'ri keladigan masofaning ularning massasiga bog'liqligini chizamiz. Olingan tarqalish grafigi (yoki scatter plot tarqalish sxemasi) taqdim etdi
rasmda. 2.

> qplot(wt, mpg, data=mtcars)

Shuningdek, chorak mil tezlanish vaqtining rangli displeyini qo'shishingiz mumkin (qs):

> qplot(wt, mpg, data=mtcars, color=qsec)

Vizualizatsiya paytida siz ma'lumotlarni ham o'zgartirishingiz mumkin:

> qplot(log(wt), mpg - 10, data=mtcars)

Ba'zi hollarda, diskret rang bo'linishlari doimiy bo'lganlarga qaraganda ko'proq vakillik qiladi. Masalan, tezlanish vaqti o'rniga silindrlar soni haqidagi ma'lumotni rangli ko'rinishda ko'rsatishni istasak, u holda qiymatning tabiatan diskret ekanligini ko'rsatishimiz kerak (3-rasm):

> qplot(wt, mpg, data=mtcars, color=factor(cyl))

Shuningdek, siz, masalan, size=3 yordamida nuqtalar o'lchamini o'zgartirishingiz mumkin. Agar siz qora va oq printerda grafiklarni chop qilmoqchi bo'lsangiz, unda ranglardan foydalanmaslik yaxshiroqdir, aksincha omilga qarab marker shaklini o'zgartiring. Buni color=factor(cyl) ni shape=factor(cyl) bilan almashtirish orqali amalga oshirish mumkin.
Chizma turi geom parametri yordamida aniqlanadi va tarqalish chizmalarida bu parametrning qiymati "nuqta" dir.

Aytaylik, biz shunchaki mos keladigan silindr qiymatiga ega avtomobillar sonining gistogrammasini yaratmoqchimiz:

> qplot(factor(cyl), data=mtcars, geom="bar") > qplot(factor(cyl), data=mtcars, geom="bar", color=factor(cyl)) > qplot(factor(cyl) , data = mtcars, geom = "bar", to'ldirish = omil (cyl))

Birinchi qo'ng'iroq oddiygina turli xil silindr qiymatlari uchun uchta gistogrammani tortadi. Aytish kerakki, gistogrammaga rang qo'shishga birinchi urinish kutilgan natijaga olib kelmaydi - qora chiziqlar hali ham qora bo'ladi, lekin faqat rangli konturga ega bo'ladi. Ammo qplot-ga oxirgi qo'ng'iroq, rasmda ko'rsatilganidek, chiroyli gistogramma hosil qiladi. 4.

Bu erda biz aniq bo'lishimiz kerak. Gap shundaki, biz qurgan hozirgi ob'ekt so'zning qat'iy ma'nosida gistogramma emas. Odatda, gistogramma doimiy ma'lumotlar uchun shunga o'xshash displeydir. Inglizchada ustunli diagramma(biz hozirgina shunday qildik) va gistogramma- bu ikki xil tushuncha (Vikipediyadagi tegishli maqolalarga qarang). Bu erda men "gistogramma" so'zini har ikkala tushuncha uchun ham ishlataman, chunki ma'lumotlarning tabiati o'zi uchun gapiradi.

Agar biz rasmga qaytsak. 1, keyin ggplot2 uchastkalarni joylashtirish uchun bir nechta foydali variantlarni taqdim etadi (standart pozitsiya = "stack"):

> qplot(aniqlik, ma'lumotlar=olmoslar, geom="bar", to'ldirish=kesish, pozitsiya="dodge") > qplot(aniqlik, ma'lumotlar=olmoslar, geom="bar", to'ldirish=kesish, pozitsiya="to'ldirish") > qplot(aniqlik, ma'lumotlar=olmoslar, geom="bar", to'ldirish=kesish, pozitsiya="identifikator")

Taklif etilgan variantlardan birinchisi, rasmda ko'rsatilganidek, diagrammalarni yonma-yon qo'yadi. 5, ikkinchisi ma'lum bir tozalikdagi olmoslarning umumiy sonidagi turli xil kesilgan sifatdagi olmoslarning ulushini ko'rsatadi (6-rasm).

Endi haqiqiy gistogramma misolini ko'rib chiqamiz:

> qplot(karat, ma'lumotlar=olmoslar, geom="gistogram", tarmoqli kengligi=0,1) > qplot(karat, ma'lumotlar=olmoslar, geom="gistogram", tarmoqli kengligi=0,05)

Bu erda tarmoqli kengligi parametri faqat gistogrammada tarmoqli qanchalik keng ekanligini ko'rsatadi. Gistogramma qaysi diapazonda qancha ma'lumot borligini ko'rsatadi. Natijalar rasmda keltirilgan. 7 va 8.

Ba'zan biz modelni (chiziqli yoki polinom deylik) chizishimiz kerak bo'lganda, biz buni to'g'ridan-to'g'ri qplotda qilishimiz va natijani ko'rishimiz mumkin. Masalan, biz mpg va massa og'irligini to'g'ridan-to'g'ri tepada chizishimiz mumkin tarqalish sxemasi:

> qplot(wt, mpg, data=mtcars, geom=c("nuqta", "silliq"))

Odatiy bo'lib, model sifatida mahalliy polinom regressiya (metod="loess") ishlatiladi. Ishning natijasi rasmda ko'rsatilganidek ko'rinadi. 9, bu erda quyuq kulrang chiziq standart xatodir. U sukut bo'yicha ko'rsatiladi, uni se=FALSE yozish orqali o'chirib qo'yishingiz mumkin.

Agar biz ushbu ma'lumotlarga chiziqli modelni moslashtirishga harakat qilmoqchi bo'lsak, u holda buni oddiygina usul=lm ni belgilash orqali amalga oshirish mumkin (10-rasm).

Va nihoyat, albatta, biz doira diagrammalarini qanday yaratishni ko'rsatishimiz kerak:

> t<- ggplot(mtcars, aes(x=factor(1), fill=factor(cyl))) + geom_bar(width=1) >t + koord_polyar(teta="y")

Bu erda biz yanada moslashuvchan ggplot funksiyasidan foydalanamiz. Bu shunday ishlaydi: avval biz umumiy massadagi silindrlarning turli soniga ega bo'lgan avtomobillarning ulushlarini ko'rsatadigan grafik tuzamiz (11-rasm), so'ngra grafikni qutbli koordinatalarga aylantiramiz (12-rasm).

Xulosa o'rniga

Endi biz R dan bemalol foydalanamiz. Keyingi nima? Bu erda ggplot2 ning eng asosiy imkoniyatlari berilganligi va vektorizatsiya bilan bog'liq masalalar muhokama qilingani aniq. R bo'yicha bir nechta yaxshi kitoblarni eslatib o'tishga arziydi va ular, albatta, juda zo'ravonlik korporatsiyasi xizmatlaridan ko'ra tez-tez maslahatlashishga arziydi. Birinchidan, bu Norman Matloffning (Norman Matloff) The Art of R Programming kitobi. Agar R-da dasturlash bo'yicha tajribangiz bo'lsa, u holda P. Berns tomonidan yozilgan The R Inferno siz uchun foydali bo'ladi. Jon Chambersning "Ma'lumotlarni tahlil qilish uchun dasturiy ta'minot" klassik kitobi ham juda mos keladi.

Agar R-da vizualizatsiya haqida gapiradigan bo'lsak, W. Chang (Winston Chang) tomonidan yozilgan R Graphics Cookbook yaxshi kitobi bor. Ushbu maqoladagi ggplot2 uchun misollar Qo'llanmadan olingan: ggplot2. Keyingi maqolada ko'rishguncha: R-da ma'lumotlarni tahlil qilish va mashinani o'rganish!



 


O'qing:



HTC Sync Manager: qanday foydalanish, qaerdan yuklab olish, muammolarni hal qilish

HTC Sync Manager: qanday foydalanish, qaerdan yuklab olish, muammolarni hal qilish

HTC Sync - bu HTC smartfonlarini kompyuterga ulash, ular o'rtasida ma'lumot almashish va ma'lumotlarni sinxronlashtirish vositasi. Dastur o'rnatiladi ...

Xperia Z3 va Xperia Z3 Compact: ko'rib chiqish va taqqoslash Veb-brauzer Internetdagi ma'lumotlarga kirish va ko'rish uchun mo'ljallangan dasturiy ta'minotdir.

Xperia Z3 va Xperia Z3 Compact: ko'rib chiqish va taqqoslash Veb-brauzer Internetdagi ma'lumotlarga kirish va ko'rish uchun mo'ljallangan dasturiy ta'minotdir.

Ushbu menyuni taqqoslashni yozishga nima tanlash kerakligi haqidagi tez-tez uchraydigan savol sabab bo'ldi - Sony Xperia Z3 yoki Xperia Z3 Compact? Hammasidan ko'proq...

Yangi Kyivstar tariflari Ulanish mavjud emas

Yangi Kyivstar tariflari Ulanish mavjud emas

Kievtsar kompaniyasi o'z abonentlariga shartnoma asosida turli tarif paketlariga ulanishni taklif qiladi. Buning ko'plab afzalliklari orasida ...

Fly phone internet ishlamaydi

Fly phone internet ishlamaydi

Ko'rsatmalar Aniqlang - telefoningiz modelida Internetga ulanish mumkinmi? Buni texnik xususiyatlar ro'yxatida bilib olishingiz mumkin...

tasma tasviri RSS