بخش های سایت

انتخاب سردبیر:

تبلیغات

کتابچه راهنمای روش شناسی "تجزیه و تحلیل آماری و تجسم داده ها با استفاده از R." کتابچه راهنمای روشی "تجزیه و تحلیل آماری و تجسم داده ها با استفاده از R" تعدادی اشیاء خاص در R وجود دارد.

برنامه دوره

عناصر برنامه نویسی در R

آمار توصیفی و تجسم
به عنوان مثال، چه چیزی مهم تر است: چک متوسط یا چک معمولی؟

آنالیز خوشه ای

چه مشکلی در حال حل شدن است؟ گروهی از اشیاء را به زیر گروه ها تقسیم کنید.
نمونه کار تقسیم بندی سایت ها، شناسایی سایت های مشابه.
روش های مورد مطالعه تحلیل خوشه سلسله مراتبی، روش k-means، روش K-medoid.

آزمون فرضیه های آماری

چه مشکلی در حال حل شدن است؟ دو گروه از اشیاء را با هم مقایسه کنید.
نمونه کار تست A/B رفتار کاربر در نسخه های مختلفصفحات سایت
روش های مورد مطالعه تست نسبت ها، آزمون تی دانشجویی، تست لیوین، تست ویلکاکسون-من-ویتنی

تحلیل رگرسیون خطی

نمونه کار تخمین بزنید که قیمت خودروهای فرسوده پس از افزایش عوارض گمرکی چقدر کاهش یافته است.
روش های مورد مطالعه انتخاب متغیر، همخطی، مشاهدات تاثیرگذار، تجزیه و تحلیل باقیمانده ها. رگرسیون ناپارامتریک (هموارسازی هسته). پیش بینی سری های کوتاه با مولفه فصلی با استفاده از رگرسیون خطی

پیش بینی

چه مشکلی در حال حل شدن است؟ یک پیش‌بینی سری زمانی بسازید
نمونه کار ترافیک وب سایت را 6 ماه از قبل پیش بینی کنید.
روش در حال مطالعه هموارسازی نمایی

یادگیری ماشینی (تشخیص الگو)

نمونه کار جنسیت و سن هر بازدیدکننده سایت را بشناسید
روش های مورد مطالعه روش K-نزدیکترین همسایه طبقه بندی درختان (CART). جنگل های تصادفی دستگاه افزایش گرادیان

نمرات دوره

به شنوندگان 14 داده می شود کار آزمایشگاهی. این دوره طبق قانون زیر درجه بندی می شود:

عالی - همه کارها پذیرفته شده است.
خوب - همه آثار پذیرفته شده است به جز یکی؟
رضایت بخش - همه آثار به جز دو مورد پذیرفته می شود.
رضایت بخش نیست - در موارد دیگر.

کار آزمایشگاهی همین است

به شنونده یک مجموعه داده و یک سوال داده می شود.
شنونده به سؤال پاسخ می دهد و اظهارات خود را با جداول، نمودارها و اسکریپت نوشته شده به زبان R پشتیبانی می کند.
شنونده به سوالات اضافی پاسخ می دهد.

نمونه سوال پارامترهایی را پیشنهاد کنید که عملکرد بهینه الگوریتم جنگل تصادفی را هنگام تشخیص نام تجاری شراب بر اساس نتایج تجزیه و تحلیل شیمیایی تضمین می کند.

آنچه برای شرکت در دوره باید بدانید

فرض بر این است که شرکت کنندگان دوره قبلاً یک دوره تئوری احتمال را گذرانده اند.

ادبیات

Shipunov, Baldin, Volkova, Korobeinikov, Nazarova, Petrov, Sufiyanov آمار بصری. با استفاده از R
Masticsky، Shitikov تجزیه و تحلیل آماری و تجسم داده ها با استفاده از R
تشخیص الگوی اسقف و یادگیری ماشین.
جیمز، ویتن، هستی، تبشیرانی. درآمدی بر یادگیری آماری. با برنامه های کاربردی در R.
هستی، تبشیرانی، فریدمن. The Elements of Statistical Learning_Data Mining, Inference, and Prediction 2+ed
کراولی. کتاب R.
Kabacoff R در عمل. تجزیه و تحلیل داده ها و گرافیک با R.

معلمان

لیست سخنرانی ها

مقدمه ای بر R: دستورات پایه. میانه، چندک و چارک. نمودار میله ای. نمودار میله ای. نمودار دایره ای. نمودار پراکندگی. ماتریس پراکنده. استفاده از رنگ در گرافیک جعبه با سبیل (نمودار جعبه). مشاهده نمونه معمولی: میانگین حسابی، میانه یا میانگین بریده شده. انتخاب راهی برای توصیف یک مقدار معمولی که برای داده های تحلیل شده کافی باشد. توزیع لگنرمال موارد پرت و مشاهدات افراطی.

تجزیه و تحلیل خوشه سلسله مراتبی. خوشه، فاصله بین اشیاء، فاصله بین خوشه ها. الگوریتم ساخت دندروگرام. صفحه / آرنج. استاندارد سازی داده ها اشتباهات معمولی هنگام تهیه داده ها. تفسیر نتایج.

روش K-means. سنسورهای اعداد تصادفی، دانه سنسور. تجسم الگوریتم روش k-means. روش های تعیین تعداد خوشه ها کتابخانه NbClust. صفحه / آرنج. مقیاس بندی چند بعدی برای تجسم خوشه.

آزمون فرضیه های آماری. فرضیه های توافق، همگنی، استقلال، فرضیه های مربوط به پارامترهای توزیع.

آزمون فرضیه های آماری. خطاهای نوع اول و دوم، p-value و سطح معناداری، الگوریتم آزمون فرضیه های آماری و تفسیر نتایج. فرضیه توزیع نرمال. آزمون های شاپیرو-ویلک و کولموگروف-اسمیرنوف. انحرافات ناچیز از حالت عادی مقایسه نمونه ها نمونه های مستقل و جفت شده انتخاب بین آزمون تی دانشجویی، آزمون من ویتنی ویلکاکسون و تست خلق. انواع آزمون های تی دانشجویی و مقایسه واریانس ها. تجسم برای مقایسه تست های یک طرفه و دو طرفه.

آزمون فرضیه های آماری. مقایسه نمونه ها نمونه های مستقل و جفت شده انتخاب بین آزمون تی دانشجویی، آزمون من ویتنی ویلکاکسون و تست خلق. انواع آزمون های تی دانشجویی و مقایسه واریانس ها. تجسم برای مقایسه تست های یک طرفه و دو طرفه. استقلال. ضرایب همبستگی پیرسون، کندال و اسپیرمن، اشتباهات معمولیهنگام مطالعه ارتباط بین دو پدیده. بازرسی بصری یافته ها

مدل تحلیل رگرسیون خطی، تفسیر برآورد ضرایب، ضریب تعیین چندگانه. تفسیر ضریب تعیین چندگانه، محدودیت در دامنه کاربرد آن. شناسایی مهم‌ترین پیش‌بینی‌کننده‌ها و ارزیابی سهم هر پیش‌بینی‌کننده. الگوریتم های تنظیم مدل های ساخته شده خط خطی.

تحلیل رگرسیون خطی: پیش‌بینی سری‌های زمانی کوتاه

پیش‌بینی بر اساس مدل رگرسیون با متغیرهای شاخص فصلی (ساختاری، ساختگی). روند، مولفه های فصلی، تغییرات در ماهیت سریال، نقاط پرت. لگاریتم سازی تکنیکی برای تبدیل فصلی ضربی به فصلی افزایشی است. متغیرهای شاخص بازآموزی.

رگرسیون خطی - تجزیه و تحلیل باقیمانده ها. نقض محدودیت های مدل قضیه گاوس-مارکف. تجزیه و تحلیل باقیمانده خطای مشخصات چند خطی، تحمل و VIF. بررسی ثبات واریانس باقیمانده ها. اصلاح مدل ها در صورت وجود انحراف در توزیع باقیمانده از نرمال بودن. فاصله و اهرم کوک. آمار دوربین واتسون کاهش تعداد تعدیل های فصلی.

روش هموارسازی نمایی Holt-Winters. روند محلی، فصلی محلی.

اصطلاحات: یادگیری ماشینی، هوش مصنوعی، داده کاوی و تشخیص الگو.

روش K-نزدیکترین همسایه. سازگاری روش. یادگیری تنبل (تنبلی یادگیری). انتخاب ویژگی اعتبار سنجی متقابل. اعتبار سنجی متقابل k-fold. بیش از حد برازش. نمونه های آموزشی و آزمایشی

روش K-نزدیکترین همسایه مثالها. تعیین تعداد نزدیکترین همسایگان جدول احتمالی برای تعیین کیفیت روش.

درختان طبقه بندی سبد خرید. نمایش هندسی. بازنمایی به عنوان مجموعه ای از قوانین منطقی. نمای درختی. گره ها، والدین و فرزندان، گره های برگ. مقادیر آستانه کتابخانه rpart اقدامات ناخالصی روش های اندازه گیری خلوص: جینی، آنتروپی، خطاهای طبقه بندی. قوانین یادگیری درخت کتابخانه rpart.plot.

آخرین بار (در نوامبر 2014؛ من خیلی شرمنده هستم که با ادامه آن اینقدر طول کشید!) در مورد قابلیت های اساسی زبان R صحبت کردم. علیرغم وجود تمام ساختارهای کنترل معمولی مانند حلقه ها و بلوک های شرطی رویکرد کلاسیک برای پردازش داده مبتنی بر تکرار بسیار دور از ذهن است بهترین تصمیم، از آنجایی که چرخه ها در R غیرعادیآهسته. تدریجی. بنابراین اکنون به شما می گویم که واقعاً چگونه باید با داده ها کار کنید تا فرآیند محاسبه شما را مجبور به نوشیدن فنجان های قهوه زیاد در انتظار نتیجه نکند. علاوه بر این، من مدتی را به صحبت در مورد نحوه استفاده از ابزارهای مدرن تجسم داده در R اختصاص خواهم داد. زیرا راحتی ارائه نتایج پردازش داده ها در عمل کمتر از خود نتایج مهم نیست. بیایید با یک چیز ساده شروع کنیم.

عملیات برداری

همانطور که به یاد داریم، نوع پایهدر R به هیچ وجه یک عدد نیست، بلکه یک بردار است و عملیات حسابی اساسی بر روی بردارها عنصر به عنصر عمل می کند:

> x<- 1:6; y <- 11:17 >x + y 12 14 16 18 20 22 18 > x > 2 FALSE FALSE TRUE TRUE TRUE TRUE > x * y 11 24 39 56 75 96 17 > x / y 0.09090909 0.09090909 0.170909 0.170906. 9 0. 33333333 0.37500000 0.05882353

همه چیز در اینجا کاملاً ساده است، اما کاملاً منطقی است که این سؤال را بپرسیم: اگر طول بردارها مطابقت نداشته باشند چه اتفاقی خواهد افتاد؟ اگر بگوییم k بنویسیم<- 2, то будет ли x * k соответствовать умножению вектора на число в математическом смысле? Короткий ответ - да. В более общем случае, когда длина векторов не совпадает, меньший вектор просто продолжается повторением:

> z<- c(1, 0.5) >x * z 1 1 3 2 5 3

وضعیت تقریباً در مورد ماتریس ها یکسان است.

> x<- matrix(1:4, 2, 2); y <- matrix(rep(2,4), 2, 2) >x * y [,1] [,2] 2 6 4 8 > x / y [,1] [,2] 0.5 1.5 1.0 2.0

در این حالت، ضرب ماتریس "عادی" و نه بیتی به این صورت خواهد بود:

> x %*% y [,1] [,2] 8 8 12 12

البته همه اینها خیلی خوب است، اما وقتی باید توابع خودمان را روی عناصر بردار یا ماتریس اعمال کنیم، چه کار می کنیم، یعنی چگونه می توان بدون حلقه این کار را انجام داد؟ رویکردی که R برای حل این مشکل استفاده می‌کند بسیار شبیه به آنچه در زبان‌های تابعی به آن عادت کرده‌ایم است - یادآور تابع نقشه در Python یا Haskell است.

عملکرد مفید lapply و دوستانش

اولین عملکرد در این خانواده lapply است. به شما این امکان را می دهد که یک تابع داده شده را برای هر عنصر از یک لیست یا بردار اعمال کنید. علاوه بر این، بدون توجه به نوع استدلال، نتیجه دقیقاً فهرست خواهد بود. ساده ترین مثال با استفاده از توابع لامبدا:

> q<- lapply(c(1,2,4), function(x) x^2) >q 1 4 16

اگر تابعی که می خواهید به یک لیست یا بردار اعمال کنید به بیش از یک آرگومان نیاز دارد، آن آرگومان ها را می توان از طریق lapply عبور داد.

> q<- lapply(c(1,2,4), function(x, y) x^2 + y, 3)

این تابع به روشی مشابه با یک لیست کار می کند:

> x<- list(a=rnorm(10), b=1:10) >lapply (x، میانگین)

در اینجا، تابع rnorm توزیع نرمال را مشخص می کند (در این مورد، ده عدد معمولی توزیع شده از 0 تا 1)، و میانگین مقدار متوسط را محاسبه می کند. تابع sapply دقیقاً مشابه تابع lapply است با این تفاوت که سعی در ساده کردن نتیجه دارد. به عنوان مثال، اگر هر عنصر از یک لیست دارای طول 1 باشد، به جای لیست، یک بردار برگردانده می شود:

> sapply(c(1،2،4)، تابع(x) x^2) 1 4 16

اگر نتیجه لیستی از بردارها با طول یکسان باشد، تابع یک ماتریس برمی‌گرداند، اما اگر هیچ چیز واضح نباشد، فقط یک لیست، مانند lapply.

> x<- list(1:4, 5:8) >sapply(x، تابع(x) x^2) [,1] [،2] 1 25 4 36 9 49 16 64

برای کار با ماتریس ها، استفاده از تابع application راحت است:

> x<- matrix(rnorm(50), 5, 10) >اعمال (x, 2, mean) > اعمال (x, 1, sum)

در اینجا، برای شروع، ماتریسی از پنج ردیف و ده ستون ایجاد می کنیم، سپس ابتدا میانگین ستون ها و سپس مجموع ردیف ها را محاسبه می کنیم. برای تکمیل تصویر، لازم به ذکر است که کار محاسبه میانگین و مجموع سطرها به قدری رایج است که R توابع ویژه ای را برای این منظور rowSums، rowMeans، colSums و colMeans ارائه می دهد.
تابع application را می توان برای آرایه های چند بعدی نیز استفاده کرد:

> arr<- array(rnorm(2 * 2 * 10), c(2, 2, 10)) >اعمال (arr، c(1،2)، میانگین)

آخرین تماس را می توان با گزینه خوانا تری جایگزین کرد:

> rowMeans (arr، dim = 2)

بیایید به تابع mapply برویم، که آنالوگ چند بعدی lapply است. بیایید با یک مثال ساده شروع کنیم که مستقیماً در اسناد استاندارد R یافت می شود:

> نقشه برداری (تکرار، 1:4، 4:1) 1 1 1 1 2 2 2 3 3 4

همانطور که می بینید، آنچه در اینجا اتفاق می افتد این است که تابع rep به مجموعه ای از پارامترها که از دو دنباله تولید می شوند اعمال می شود. خود تابع rep به سادگی آرگومان اول را به تعداد دفعات مشخص شده به عنوان آرگومان دوم تکرار می کند. بنابراین کد قبلی به سادگی معادل زیر است:

> لیست (rep(1،4)، rep(2،3)، rep(3،2)، rep(4،1))

گاهی اوقات لازم است که یک تابع را در بخشی از یک آرایه اعمال کنیم. این را می توان با استفاده از تابع tapply انجام داد. بیایید به مثال زیر نگاه کنیم:

> x<- c(rnorm(10, 1), runif(10), rnorm(10,2)) >f<- gl(3,10) >ضربه بزنید (x,f,mean)

ابتدا یک بردار ایجاد می کنیم که قسمت های آن از متغیرهای تصادفی با توزیع های مختلف تشکیل شده است، سپس یک بردار از عوامل ایجاد می کنیم که چیزی بیش از ده یک و سپس ده دو و به همان تعداد سه است. سپس میانگین گروه های مربوطه را محاسبه می کنیم. تابع tapply به طور پیش فرض سعی می کند نتیجه را ساده کند. این گزینه را می توان با تعیین simplify=FALSE به عنوان پارامتر غیرفعال کرد.

> tapply (x, f, range, simplify=FALSE)

هنگامی که مردم در مورد توابع کاربردی صحبت می کنند، معمولاً در مورد تابع تقسیم نیز صحبت می کنند که یک بردار را به قطعات تقسیم می کند، شبیه به tapply. بنابراین، اگر split(x, f) را فراخوانی کنیم، لیستی از سه بردار دریافت خواهیم کرد. بنابراین جفت lapply/split مانند tapply عمل می‌کند و مقدار ساده‌سازی روی FALSE تنظیم شده است:

> lapply(split(x, f)، mean)

تابع تقسیم فراتر از کار با بردارها مفید است: همچنین می توان از آن برای کار با فریم های داده استفاده کرد. مثال زیر را در نظر بگیرید (من آن را از دوره برنامه نویسی R در Coursera قرض گرفته ام):

> کتابخانه (مجموعه داده ها)> سر (هوایی) ازن خورشیدی .R دما دما روز 1 41 190 7.4 67 5 1 2 36 118 8.0 72 5 2 3 12 149 12.6 74 5 3 4 18 313 11.5 62 5 4 5 NA NA 14.3 56 5 5 6 28 NA 14.9 66 5 6 > s<- split(airquality, airquality$Month) >lapply(s، تابع(x) colMeans(x[، c("Ozone"، "Solar.R"، "Wind")]))

در اینجا ما با مجموعه داده ای کار می کنیم که حاوی اطلاعاتی در مورد شرایط هوا (ازون، تابش خورشیدی، باد، دما به فارنهایت، ماه و روز) است. همانطور که در کد نشان داده شده است، به راحتی می توانیم میانگین های ماهانه را با استفاده از split و lapply گزارش کنیم. با این حال، استفاده از sapply نتیجه را به شکل راحت تری به ما می دهد:

> sapply(s, function(x) colMeans(x[, c("Ozone", "Solar.R", "Wind")])) 5 6 7 8 9 Ozone NA NA NA NA NA Solar.R NA 190.16667 216.483871 NA 167.4333 باد 11.62258 10.26667 8.941935 8.793548 10.1800

همانطور که می بینید، برخی از مقادیر تعریف نشده اند (و مقدار رزرو شده NA برای این مورد استفاده می شود). این بدان معنی است که برخی (حداقل یک) مقادیر در ستون های Ozone و Solar.R نیز تعریف نشده بودند. از این نظر، تابع colMeans کاملاً درست عمل می کند: اگر مقادیر تعریف نشده ای وجود داشته باشد، بنابراین میانگین تعریف نشده است. مشکل را می توان با مجبور کردن تابع به نادیده گرفتن مقادیر NA با استفاده از پارامتر na.rm=TRUE حل کرد:

> sapply(s, function(x) colMeans(x[, c("Ozone"، "Solar.R"، "Wind")]، na.rm=TRUE)) 5 6 7 8 9 Ozone 23.61538 29.44444 59.115385 59.115385 538.9315 538.9315. Solar.R 181.29630 190.16667 216.483871 171.857143 167.43333 باد 11.62258 10.26667 8.941935 8.793148010

چرا برای حل مسائل بسیار مشابه به این همه توابع نیاز دارید؟ فکر می کنم این سوال توسط هر دومی که همه اینها را خوانده باشد از شما خواهد پرسید. همه این توابع در واقع سعی در حل مشکل پردازش داده های برداری بدون استفاده از حلقه دارند. اما دستیابی به سرعت پردازش داده بالا یک چیز است، و دستیابی به حداقل بخشی از انعطاف پذیری و کنترلی که ساختارهای کنترلی مانند حلقه ها و دستورات شرطی ارائه می دهند، کاملاً چیز دیگری است.

تجسم داده ها

سیستم R از نظر ابزارهای تجسم داده ها بسیار غنی است. و در اینجا من با یک انتخاب دشوار روبرو هستم - اگر منطقه بسیار بزرگ است در مورد چه چیزی صحبت کنم. اگر در مورد برنامه نویسی مجموعه ای اساسی از توابع وجود داشته باشد که بدون آنها هیچ کاری نمی توان انجام داد، در تجسم تعداد زیادی کار مختلف وجود دارد و هر یک از آنها (به عنوان یک قاعده) می توانند به چندین روش حل شوند، هر یک از آنها که مزایا و معایب خاص خود را دارد. علاوه بر این، همیشه گزینه ها و بسته های زیادی وجود دارد که به شما امکان می دهد این مشکلات را به روش های مختلف حل کنید.
در باره به معنی استاندارددر مورد تجسم در R مطالب زیادی نوشته شده است، بنابراین در اینجا می خواهم در مورد چیز جالب تری صحبت کنم. در سال های اخیر، این بسته به طور فزاینده ای محبوب شده است ggplot2، پس بیایید در مورد او صحبت کنیم.

برای شروع کار با ggplot2، باید کتابخانه را با استفاده از دستور install.package("ggplot2") نصب کنید. بعد، ما آن را برای استفاده وصل می کنیم:

> library("ggplot2") > هد(الماس) قیراط برش وضوح رنگ جدول عمق قیمت x y z 1 0.23 Ideal E SI2 61.5 55 326 3.95 3.98 2.43 2 0.21 Premium E SI1 5329.230.2361. 3 Good E VS1 56 .9 65 327 4.05 4.07 2.31 4 0.29 Premium I VS2 62.4 58 334 4.20 4.23 2.63 5 0.31 خوب J SI2 63.3 58 335 4.324 335 4.324 4.56 خوب 57 336 3. 94 3.96 2.48 > head(mtcars) mpg cyl disp hp drat wt qsec vs am gear carb Mazda RX4 21.0 6 160 110 3.90 2.620 16.46 0 1 4 4 Mazda RX4 Wag 21.0 6 160 110 3.90 2.8074 7.8201. 4 108 93 3.85 2 .320 18.61 1 1 4 1 هورنت 4 Drive 21.4 6 258 110 3.08 3.215 19.44 1 0 3 1 Hornet Sportabout 18.7 8 360 175 3.15 3.440 17.02 0 0 3 2 Valiant 18.526 18.7 2 1 0 3 1

داده های الماس و mtcars بخشی از بسته ggplot2 هستند و اکنون با آنها کار خواهیم کرد. با اولی، همه چیز واضح است - این اطلاعات مربوط به الماس (شفافیت، رنگ، هزینه، و غیره) است، و مجموعه دوم داده های آزمایش های جاده ای (تعداد مایل در هر گالن، تعداد سیلندر...) خودروهای تولید شده است. در 1973-1974 از مجله آمریکایی Motor Trends. اطلاعات دقیق تر در مورد داده ها (به عنوان مثال، ابعاد) را می توان با تایپ کردن ?diamonds یا ?mtcars به دست آورد.

برای تجسم، پکیج توابع زیادی را ارائه می دهد که qplot در حال حاضر مهمترین آنها برای ما خواهد بود. تابع ggplot به شما کنترل قابل توجهی بر روی فرآیند می دهد. هر کاری که بتوان با qplot انجام داد با ggplot نیز قابل انجام است. بیایید به این نگاه کنیم مثال ساده:

> qplot (شفافیت، داده = الماس، fill = برش، geom = "نوار")

همین اثر را می توان با تابع ggplot به دست آورد:

> ggplot(الماس، aes(شفافیت، پر=برش)) + geom_bar()

با این حال، فراخوانی qplot ساده تر به نظر می رسد. در شکل 1 می توانید ببینید که چگونه وابستگی تعداد الماس با کیفیت های مختلف برش به وضوح ترسیم می شود.

حال بیایید وابستگی مسافت پیموده شده در واحد سوخت خودروها را به جرم آنها ترسیم کنیم. نمودار پراکندگی حاصل (یا نمودار پراکندگی طرح پراکنده) ارایه شده
در شکل 2.

> qplot (wt، mpg، data=mtcars)

همچنین می توانید نمایش رنگی زمان شتاب یک چهارم مایل (qsec) را اضافه کنید:

> qplot (wt، mpg، data=mtcars، color=qsec)

هنگام تجسم، می توانید داده ها را نیز تبدیل کنید:

> qplot(log(wt)، mpg - 10، data=mtcars)

در برخی موارد، تقسیمات رنگی گسسته بیشتر از تقسیمات پیوسته به نظر می رسد. برای مثال، اگر بخواهیم به جای زمان شتاب، اطلاعات رنگی در مورد تعداد سیلندرها نمایش دهیم، باید مشخص کنیم که این مقدار در طبیعت گسسته است (شکل 3):

> qplot (wt، mpg، data=mtcars، color=factor(cyl))

همچنین می توانید اندازه نقاط را با استفاده از مثلا size=3 تغییر دهید. اگر می خواهید نمودارهایی را روی چاپگر سیاه و سفید چاپ کنید، بهتر است از رنگ ها استفاده نکنید، بلکه شکل نشانگر را بسته به عامل تغییر دهید. این را می توان با جایگزینی color=factor(cyl) با shape=factor(cyl) انجام داد.
نوع نمودار با استفاده از پارامتر geom مشخص می شود و در مورد نمودارهای پراکنده، مقدار این پارامتر "نقاط" است.

حال فرض کنید فقط می‌خواهیم یک هیستوگرام از تعداد اتومبیل‌ها با مقدار سیلندر مربوطه بسازیم:

> qplot(factor(cyl), data=mtcars, geom="bar") > qplot(factor(cyl), data=mtcars, geom="bar", color=factor(cyl)) > qplot(factor(cyl) , data=mtcars, geom="bar", fill=factor(cyl))

اولین فراخوانی به سادگی سه هیستوگرام برای مقادیر مختلف سیلندر ترسیم می کند. باید گفت که اولین تلاش برای افزودن رنگ به هیستوگرام به نتیجه مورد انتظار منجر نخواهد شد - نوارهای سیاه همچنان سیاه خواهند بود، اما فقط یک طرح کلی رنگی خواهند داشت. اما آخرین فراخوانی به qplot یک هیستوگرام زیبا ایجاد می کند، همانطور که در شکل نشان داده شده است. 4.

اینجا باید شفاف باشیم. واقعیت این است که شی فعلی که ما ساخته ایم یک هیستوگرام به معنای دقیق کلمه نیست. به طور معمول، هیستوگرام یک نمایشگر مشابه برای داده های پیوسته است. که در زبان انگلیسی نمودار میله ای(این کاری است که ما انجام دادیم) و هیستوگرام- اینها دو مفهوم متفاوت هستند (به مقالات مربوطه در ویکی پدیا مراجعه کنید). در اینجا من با کمی سنگینی از کلمه "هیستوگرام" برای هر دو مفهوم استفاده می کنم، با این باور که ماهیت داده ها برای خود صحبت می کند.

اگر برگردیم به شکل 1، سپس ggplot2 چندین گزینه مفید برای تعیین موقعیت نمودارها ارائه می دهد (پیش فرض موقعیت = "stack" است):

> qplot( وضوح، داده=الماس، geom="bar", fill=cut، position="dodge") > qplot(شفافیت، داده=الماس، geom="bar", fill=cut، position="fill") > qplot (شفافیت، داده=الماس، geom="bar"، fill=cut، position="هویت")

اولین گزینه پیشنهادی نمودارها را در کنار هم ترسیم می کند، همانطور که در شکل نشان داده شده است. 5، دوم سهم الماس با کیفیت های مختلف تراش را در تعداد کل الماس با خلوص معین نشان می دهد (شکل 6).

حال بیایید به مثالی از یک هیستوگرام واقعی نگاه کنیم:

> qplot(قیراط، داده=الماس، geom="histogram"، bandwidth=0.1) > qplot(قیراط، داده=الماس، geom="histogram"، bandwidth=0.05)

در اینجا پارامتر پهنای باند فقط نشان می دهد که پهنای باند در هیستوگرام چقدر است. یک هیستوگرام نشان می دهد که چه مقدار داده در چه محدوده ای قرار دارد. نتایج در شکل ارائه شده است. 7 و 8.

گاهی اوقات که نیاز به ترسیم یک مدل (خطی یا چند جمله ای) داریم، می توانیم آن را مستقیماً در qplot انجام دهیم و نتیجه را ببینیم. به عنوان مثال، ما می توانیم mpg در مقابل جرم wt را مستقیماً در بالای نمودار پراکندگی رسم کنیم:

> qplot(wt، mpg، data=mtcars، geom=c("point"، "smooth"))

به طور پیش فرض، رگرسیون چند جمله ای محلی (method = "loess") به عنوان مدل استفاده خواهد شد. نتیجه کار مطابق شکل خواهد بود. 9، که در آن نوار خاکستری تیره خطای استاندارد است. به صورت پیش فرض نمایش داده می شود، می توانید با نوشتن se=FALSE آن را خاموش کنید.

اگر بخواهیم یک مدل خطی را بر روی این داده‌ها برازش کنیم، این کار را می‌توان با مشخص کردن روش=lm به سادگی انجام داد (شکل 10).

و در نهایت، البته، باید نحوه ساخت نمودارهای دایره ای را نشان دهیم:

> t<- ggplot(mtcars, aes(x=factor(1), fill=factor(cyl))) + geom_bar(width=1) >t + coord_polar(theta="y")

در اینجا از تابع انعطاف پذیرتر ggplot استفاده خواهیم کرد. این کار به این صورت است: ابتدا نموداری می سازیم که سهم خودروهایی با تعداد سیلندرهای مختلف را در جرم کل نشان می دهد (شکل 11)، سپس نمودار را به مختصات قطبی تبدیل می کنیم (شکل 12).

به جای نتیجه گیری

حالا ما راحت از R استفاده می کنیم. واضح است که ابتدایی ترین قابلیت های ggplot2 در اینجا آورده شده و مسائل مربوط به vectorization مطرح شده است. چندین کتاب خوب در مورد R وجود دارد که ارزش ذکر کردن را دارند، و مطمئناً ارزش مشاوره بیشتر از خدمات یک شرکت خوب را دارند. در مرحله اول، این کتاب توسط نورمن ماتلوف (نورمن متلوف) هنر برنامه نویسی R است. اگر قبلاً تجربه برنامه نویسی در R را دارید، The R Inferno که توسط P. Burns نوشته شده است برای شما مفید خواهد بود. کتاب کلاسیک Software for Data Analysis نوشته جان چمبرز نیز کاملا مناسب است.

اگر ما در مورد تجسم در R صحبت کنیم، یک کتاب خوب R Graphics Cookbook توسط W. Chang (وینستون چانگ) وجود دارد. مثال های ggplot2 در این مقاله از آموزش ggplot2 گرفته شده است. شما را در مقاله بعدی می بینیم: تجزیه و تحلیل داده ها و یادگیری ماشین در R!

"تحلیل آماری و تجسم داده ها با استفاده از شاخ و برگ میوه ریشه علف R Heidelberg - London - Tolyatti 2014، ..."

-- [ صفحه 1 ] --

S.E. ماستیتسکی، V.K. شیتیکوف

تجزیه و تحلیل آماری و

بصری سازی داده ها با R

ریشه های علف شاخ و برگ میوه ها

هایدلبرگ – لندن – تولیاتی

2014، سرگئی ادواردوویچ ماستیتسکی، ولادیمیر کیریلوویچ شیتیکوف

وب سایت: http://r-analytics.blogspot.com

این اثر تحت مجوز توزیع می شود

Creative Commons Attribution - غیر تجاری

استفاده - تحت شرایط یکسان 4.0 در سراسر جهان." تحت این مجوز، شما می توانید آزادانه این اثر را کپی، توزیع و اصلاح کنید، مشروط بر اینکه نویسندگان و منبع آن را به طور دقیق ذکر کنید. اگر این اثر را تغییر دهید یا از آن در آثار خود استفاده کنید، می‌توانید نتیجه را تنها با مجوز مشابه یا مشابه توزیع کنید. استفاده از این اثر برای مقاصد تجاری بدون اجازه نویسندگان ممنوع است. برای اطلاعات بیشتر در مورد مجوز، به www.creativecommons.com مراجعه کنید

لطفاً به این کتاب به شرح زیر استناد کنید:

Mastitsky S.E., Shitikov V.K. (2014) تجزیه و تحلیل آماری و تجسم داده ها با استفاده از R.

– کتاب الکترونیک، آدرس دسترسی:

http://r-analytics.blogspot.com

پیشگفتار 5

1. اجزای اصلی محیط آماری R 8

1.1. تاریخچه پیدایش و اصول اولیه سازمان 8 محیط R

1.2. کار با کنسول فرمانرابط R 11

1.3. کار با منوهای R Commander 13

1.4. اشیاء، بسته ها، توابع، دستگاه ها 17

2. شرح زبان R 23

2.1. انواع داده R 23

2.2. بردارها و ماتریس ها 24

2.3. عوامل 29

2.4. فهرست ها و جداول 31

2.5. وارد کردن داده ها به R 37

2.6. نمایش تاریخ و زمان؛ سری زمانی 40

2.7. سازماندهی محاسبات: توابع، شاخه ها، حلقه ها 46

2.8. محاسبات برداری در R با استفاده از توابع application-50

3. قابلیت های اساسی گرافیک R 58

3.1. Scatterplots plot() و گزینه های نموداری 58 توابع

3.2. هیستوگرام ها، توابع چگالی هسته و تابع ()cdplot 66

3.3. نمودارهای محدوده 74

3.4. نمودار پای و میله 77

3.5. نمودارهای کلیولند و نمودارهای پراکندگی یک بعدی 84

4. آمار توصیفی و برازش 97

توزیع

– – –

پیشگفتار

یکی از ابزارهای اصلی برای درک جهان، پردازش داده های دریافتی توسط شخص از منابع مختلف است. ماهیت تحلیل آماری مدرن یک فرآیند تعاملی متشکل از کاوش، تجسم و تفسیر جریان‌های اطلاعات ورودی است.

تاریخچه 50 سال گذشته نیز تاریخ توسعه فناوری تجزیه و تحلیل داده ها است.

یکی از نویسندگان با علاقه پایان دهه 60 و اولین برنامه خود را برای محاسبه همبستگی جفتی به یاد می آورد که با پین های فلزی در "میدان عملیاتی" 150 سلول رایانه شخصی "Promin-2" با وزن بیش از 200 کیلوگرم تایپ شد.

امروزه کامپیوترهای با کارایی بالا و مقرون به صرفه هستند نرم افزاربه شما این امکان را می دهد که یک چرخه کامل از فرآیند فناوری اطلاعات را اجرا کنید که به طور کلی شامل مراحل زیر است:

° دسترسی به داده های پردازش شده (دانلود آنها از منابع مختلف و گردآوری مجموعه ای از جداول منبع مرتبط).

° ویرایش نشانگرهای بارگذاری شده (جایگزینی یا حذف مقادیر از دست رفته، تبدیل ویژگی ها به فرم راحت تر)؛

° حاشیه نویسی داده ها (برای به خاطر سپردن آنچه که هر قطعه از داده نشان می دهد).

° دریافت اطلاعات کلیدر مورد ساختار داده ها (محاسبه آمار توصیفی به منظور توصیف شاخص های تحلیل شده)؛

° نمایش گرافیکینتایج داده‌ها و محاسبات به شکلی واضح و آموزنده است (یک عکس در واقع گاهی ارزش هزار کلمه را دارد).

° مدل سازی داده ها (یافتن وابستگی ها و آزمون فرضیه های آماری)؛

° ارائه نتایج (تهیه جداول و نمودارها با کیفیت انتشار قابل قبول).

در شرایطی که ده‌ها بسته نرم‌افزار کاربردی در دسترس کاربر است، مشکل انتخاب (گاهی غم‌انگیز، اگر خر بوریدان را به خاطر بیاوریم) مرتبط است: کدام نرم‌افزار تحلیل داده را باید برای کار عملی شما ترجیح داد؟ در اینجا معمولاً ویژگی های مشکل حل شده، کارایی راه اندازی الگوریتم های پردازش، هزینه های خرید برنامه ها و همچنین سلایق و ترجیحات شخصی تحلیلگر در نظر گرفته می شود. در عین حال، برای مثال، الگوی Statistica با مجموعه مکانیکی دکمه‌های منو، نمی‌تواند همیشه محقق خلاقی را که ترجیح می‌دهد به طور مستقل پیشرفت فرآیند محاسباتی را کنترل کند، راضی کند. ترکیب کنید انواع مختلفتجزیه و تحلیل، دسترسی به نتایج میانی، کنترل سبک نمایش داده‌ها، افزودن برنامه‌های افزودنی خود به ماژول‌های نرم‌افزار و تهیه گزارش‌های نهایی در فرم مورد نیاز، اجازه دادن به سیستم‌های محاسباتی تجاری که شامل ابزارهای زبان دستوری سطح بالا مانند Matlab، SPSS هستند. و غیره. یک جایگزین عالی برای آنها نرم افزار رایگان است. محیط R یک پلت فرم آماری با هدف عمومی مدرن و دائماً در حال تکامل است.

امروزه، R رهبر بلامنازع در میان سیستم های تجزیه و تحلیل آماری توزیع شده آزاد است، به عنوان مثال، این واقعیت نشان می دهد که در سال 2010 سیستم R در مسابقات سالانه نرم افزار باز Bossie Awards در چندین دسته برنده شد. دانشگاه های پیشرو جهان، تحلیلگران شرکت های بزرگ و مراکز تحقیقاتی به طور مداوم از R هنگام انجام محاسبات علمی و فنی و ایجاد پروژه های اطلاعاتی بزرگ استفاده می کنند. آموزش گسترده آمار بر اساس بسته های این محیط و حمایت همه جانبه جامعه علمی منجر به این واقعیت شده است که کاهش اسکریپت های R به تدریج به یک "استاندارد" پذیرفته شده هم در نشریات مجلات و هم در ارتباطات غیررسمی بین دانشمندان اطراف تبدیل می شود. جهان.

البته مانع اصلی کاربران روسی زبان هنگام تسلط بر R این است که تقریباً تمام اسناد این محیط به زبان انگلیسی وجود دارد. فقط از سال 2008، با تلاش A.V. شیپونووا، ای.ام. بالدینا، اس.و. پتروا، I.S. زریادوا، A.G. بوخووت و سایر علاقه مندان، کتابچه های راهنما و کتاب به زبان روسی ظاهر شدند (پیوندهای آنها را می توان در فهرست منابع موجود در انتهای این کتاب یافت؛ همچنین پیوندهایی به منابع آموزشی وجود دارد که نویسندگان آنها سهم قابل قبولی در ترویج دارند. R در میان کاربران روسی زبان).

این راهنما مجموعه ای از پیام های روش شناختی منتشر شده توسط یکی از نویسندگان از سال 2011 در وبلاگ "R: تجزیه و تحلیل داده ها و تجسم" را خلاصه می کند.

(http://r-analytics.blogspot.com). به نظر ما توصیه می شود که برای راحتی خوانندگان، همه این مطالب تا حدی از هم گسیخته را به صورت متمرکز ارائه کنیم و همچنین برخی بخش ها را برای کامل شدن ارائه گسترش دهیم.

سه فصل اول دستورالعمل های دقیقی برای کار با اجزای تعاملی R، شرح مفصلی از زبان و قابلیت های گرافیکی اولیه محیط ارائه می دهد.

این بخش از کتاب برای کسانی که تازه برنامه نویسی می کنند کاملاً قابل دسترسی است، اگرچه خوانندگانی که قبلاً با زبان R آشنا هستند ممکن است تکه های کد جالبی را در آنجا بیابند یا از توضیحات گزینه های گرافیکی ارائه شده به عنوان مرجع استفاده کنند.

در فصل های بعدی (4-8) شرحی از روش های رایج برای پردازش داده ها و ساخت مدل های آماری ارائه می شود که با چندین ده مثال نشان داده شده است. این شامل توضیح کوتاهالگوریتم های تحلیل، نتایج اصلی به دست آمده و تفسیر احتمالی آنها. ما سعی کردیم، در صورت امکان، از سوء استفاده از عبارات "آیین" معمولی در بسیاری از کتابهای راهنما در مورد آمارهای کاربردی، با استناد به قضایای شناخته شده و استناد به فرمول های محاسبه چند طبقه جلوگیری کنیم. تاکید اول از همه، بر کاربرد عملی بود - به طوری که خواننده، با هدایت آنچه خوانده بود، بتواند داده های خود را تجزیه و تحلیل کند و نتایج را به همکاران ارائه دهد.

بخش های این قسمت با توجه به پیچیدگی مواد ارائه شده ساخته شده است.

فصول 4 و 5 تنها به عنوان بخشی از یک دوره مقدماتی دانشگاه، مخاطبی را هدف قرار داده است که به آمار علاقه مند است. فصل 6 و 7 در چارچوب تئوری یکپارچه مدل های خطی عمومی، تحلیل های واریانس و رگرسیون را ارائه کرده و الگوریتم های مختلفی را برای مطالعه و شناسایی ساختاری مدل ها ارائه می کند. فصل 8 به برخی از روش های مدرن برای ساخت و تجزیه و تحلیل مدل های رگرسیون تعمیم یافته اختصاص دارد.

از آنجایی که تحلیل فضایی و نمایش نتایج بر روی نقشه ها و نمودارهای جغرافیایی همواره مورد توجه محققین است، فصل 9 نمونه هایی از این تکنیک های تجسم را ارائه می دهد.

ما کتابچه راهنمای خود را به دانشجویان، دانشجویان فارغ التحصیل و همچنین دانشمندان جوان و با سابقه ای که می خواهند با استفاده از محیط R بر تجزیه و تحلیل و تجسم داده ها مسلط شوند، می پردازیم. امیدواریم تا پایان مطالعه این راهنما، درک درستی از نحوه کار R داشته باشید. جایی که می توانید اطلاعات بیشتر و همچنین نحوه کنار آمدن با وظایف ساده و کاملاً پیچیده تجزیه و تحلیل داده ها را دریافت کنید.

فایل‌هایی با اسکریپت‌های کد R برای تمام فصل‌های کتاب و همچنین جداول داده‌های منبع لازم برای اجرای آن‌ها، به‌صورت رایگان از مخزن GitHub https://github.com/ranalytics/r-tutorials و همچنین برای دانلود در دسترس هستند. از وب سایت موسسه اکولوژی حوضه ولگا پیوند RAS http://www.ievbras.ru/ecostat/Kiril/R/Scripts.zip.

لازم به ذکر است که متن این راهنما در ویرایش نویسنده ارائه شده است و به همین دلیل علیرغم تمام تلاش های ما، احتمال وجود اشتباهات املایی، نادرستی گرامری و عبارات ناگوار وجود دارد. ما از شما، خواننده، برای گزارش این موارد و همچنین سایر نقص های کشف شده در آن سپاسگزار خواهیم بود پست الکترونیک [ایمیل محافظت شده]. همچنین قدردان هرگونه نظر و پیشنهاد دیگری در رابطه با این کار خواهیم بود.

– – –

1. مولفه های اصلی محیط آماری R

1.1. تاریخچه پیدایش و اصول اولیه سازماندهی محیط R سیستم تجزیه و تحلیل آماری و تجسم داده ها R از بخش های اصلی زیر تشکیل شده است:

° زبان برنامه نویسی سطح بالا R، که به یک خط اجازه می دهد تا عملیات مختلف را با اشیا، بردارها، ماتریس ها، لیست ها و غیره اجرا کند.

° مجموعه بزرگی از توابع پردازش داده جمع آوری شده در بسته های جداگانه.

° یک سیستم پشتیبانی توسعه یافته، شامل به روز رسانی اجزای محیط، کمک های تعاملی و منابع آموزشی مختلف که هم برای مطالعه اولیه R و هم برای مشاوره های بعدی در مورد مشکلات در حال ظهور طراحی شده است.

آغاز سفر به سال 1993 برمی گردد، زمانی که دو دانشمند جوان نیوزلندی راس ایهاکا و رابرت جنتلمن توسعه جدید خود را اعلام کردند که آن را R نامیدند. آنها زبان برنامه نویسی سیستم پردازش داده های آماری تجاری توسعه یافته S-PLUS را به عنوان مبنایی در نظر گرفتند. و پیاده سازی رایگان و رایگان آن را ایجاد کرد که از نظر معماری ماژولار به راحتی قابل گسترش با پیشینایش متفاوت است. به زودی، یک سیستم توزیع شده برای ذخیره و توزیع بسته های R بوجود آمد که با مخفف "CRAN" (شبکه آرشیو جامع R - http://cran.r-project.org) شناخته می شود، ایده اصلی سازمان. که گسترش مداوم، آزمایش جمعی و توزیع عملیاتی ابزارهای پردازش داده های کاربردی است.

معلوم شد که چنین محصول تلاش مستمر و هماهنگ "هوش جمعی" قدرتمند هزاران توسعه دهنده فکری فداکار بسیار مؤثرتر از برنامه های آماری تجاری است که هزینه مجوز برای آن می تواند چندین هزار باشد. دلار از آنجایی که R زبان مورد علاقه آماردانان حرفه ای است، تمام آخرین پیشرفت های علم آمار به سرعت در قالب کتابخانه های اضافی در دسترس کاربران R در سراسر جهان قرار می گیرد. امروزه هیچ سیستم تحلیل آماری تجاری به این سرعت در حال توسعه نیست. R ارتش زیادی از کاربران دارد که نویسندگان کتابخانه های اضافی و خود سیستم R را از خطاهای شناسایی شده مطلع می کنند که به سرعت اصلاح می شوند.

زبان محاسبه R، اگرچه برای تسلط به مهارت‌های جستجوی قابل توجه و حافظه دایره‌المعارفی نیاز به تلاش دارد، اما به شما امکان می‌دهد تا به سرعت محاسباتی را انجام دهید که از نظر تنوع عملاً "به اندازه یک اتم پایان ناپذیر هستند". از ژوئیه 2014، علاقه مندان از سراسر جهان 6739 کتابخانه اضافی برای R نوشته اند که شامل 137506 عملکرد می شود (نگاه کنید به

http://www.rdocumentation.org)، که به طور قابل توجهی قابلیت های اساسی سیستم را گسترش می دهد. تصور هر کلاسی بسیار دشوار است روش های آماریکه امروزه در قالب بسته های R اجرا نشده است که البته شامل کل «مجموعه جنتلمن» می شود: مدل های خطی خطی و تعمیم یافته، مدل های رگرسیون غیرخطی، طراحی آزمایشی، تحلیل سری های زمانی، آزمون های کلاسیک پارامتریک و ناپارامتریک، آمار بیزی، تجزیه و تحلیل خوشه ای و روش های هموارسازی. با کمک ابزارهای تجسم قدرتمند می توان نتایج تجزیه و تحلیل را در قالب نمودارها و نمودارهای مختلف خلاصه کرد. علاوه بر آمار سنتی، عملکرد توسعه یافته شامل مجموعه بزرگی از الگوریتم های ریاضیات عددی، روش های بهینه سازی، راه حل ها است. معادلات دیفرانسیلژنتیک شناسان و جامعه شناسان، زبان شناسان و روانشناسان، شیمیدانان و پزشکان و متخصصان GIS و فناوری های وب می توانند روش های خاص خود را برای پردازش داده ها در بسته های R کشف کنند.

مستندات «اختصاصی» برای R بسیار حجیم است و همیشه به خوبی نوشته نشده است (در سنت عجیب ادبیات انگلیسی زبان، کلمات زیادی برای توصیف حقایق بی اهمیت صرف می شود، در حالی که نکات مهماجرا از طریق پتر). با این حال، علاوه بر این، ناشران پیشرو جهان (اسپرینگر، انتشارات دانشگاه کمبریج و چپمن و هال / CRC) یا صرفاً تیم‌های فردی مشتاقان تعداد زیادی کتاب منتشر کرده‌اند که جنبه‌های مختلف تجزیه و تحلیل داده‌ها را در R توصیف می‌کنند (به عنوان مثال، نگاه کنید به ، فهرست مراجع در وب سایت «دانشنامه روانشناسی»، http://psylab.info/R:Literature). علاوه بر این، چندین فروم فعال بین‌المللی و کاربر روسی R وجود دارد که هر کسی می‌تواند در مورد مشکل کمک بخواهد. در کتابشناسی، چند صد کتاب و پیوند اینترنتی را فهرست می کنیم که به شما توصیه می کنیم هنگام یادگیری R به آنها توجه ویژه ای داشته باشید.

آموزش مستقیم در کار عملی در R شامل الف) تسلط بر ساختارهای زبان R و آشنایی با ویژگی های فراخوانی توابع که تجزیه و تحلیل داده ها را انجام می دهند، و ب) کسب مهارت در کار با برنامه هایی که روش های خاص تجزیه و تحلیل و تجسم داده ها را اجرا می کنند. .

انتخاب ابزارهای رابط کاربری R بحث برانگیز است و به شدت به سلیقه کاربر بستگی دارد. حتی کارشناسان معتبر هم اتفاق نظر ندارند.

برخی معتقدند که هیچ چیز بهتر از رابط استاندارد کنسول R وجود ندارد. برخی دیگر معتقدند که برای کار راحت، ارزش نصب یکی از محیط های توسعه یکپارچه موجود (IDE) با مجموعه ای غنی از منوهای دکمه ای را دارد. به عنوان مثال، محیط توسعه یکپارچه رایگان RStudio یک گزینه عالی است.

در زیر ما بر روی توضیحات نسخه کنسول و کار با R Commander تمرکز خواهیم کرد، اما تحقیقات بیشتر خواننده را می توان با مرور نسخه های مختلف IDE که در پیوست کتاب توسط Shipunov و همکاران ارائه شده است کمک کرد. (2014).

یکی از کارشناسان R، جوزف ریکرت، معتقد است که فرآیند یادگیری R را می توان به مراحل زیر تقسیم کرد (برای جزئیات بیشتر، نگاه کنید به:

مقاله او در inside-r.org):

1. آشنایی با اصول کلی فرهنگ جامعه R و محیط نرم افزاری که زبان R در آن توسعه یافته و فعالیت می کند.بازدید از منابع اصلی و کمکی و تسلط بر یک کتاب درسی مقدماتی خوب. نصب R بر روی کامپیوتر کاربر و اجرای اولین اسکریپت های تست.

2. خواندن داده ها از فایل های سیستم عامل استاندارد و استفاده مطمئن از توابع R برای انجام مجموعه محدودی از روش های تحلیل آماری آشنا برای کاربر.

3. استفاده از ساختارهای اولیه زبان R برای نوشتن برنامه های ساده.

نوشتن توابع خود آشنایی با ساختارهای داده ای که R می تواند با آنها کار کند و ویژگی های پیچیده تر زبان. کار با پایگاه های داده، صفحات وب و منابع داده خارجی.

4. نوشتن برنامه های پیچیدهدر زبان R. توسعه مستقل و درک عمیق از ساختار اشیاء کلاس های به اصطلاح S3 و S4.

5. توسعه برنامه های حرفه ایدر زبان R. ایجاد مستقل ماژول های کتابخانه اضافی برای R.

اکثر کاربران متوسط R در مرحله 3 متوقف می شوند زیرا ...

دانش کسب شده در این زمان برای آنها برای انجام وظایف آماری در نمایه فعالیت اصلی حرفه ای خود کاملاً کافی است.

این تقریباً میزان توصیف ما از زبان R در چارچوب این راهنما است.

نصب و پیکربندی محیط آماری اصلی R بسیار ساده است. از جولای 2014، نسخه فعلی R 3.1.1 برای ویندوز 32 و 64 بیتی است (توزیع برای همه سیستم عامل های رایج دیگر نیز موجود است). شما می توانید کیت توزیع سیستم را به همراه مجموعه اولیه 29 بسته (54 مگابایت) کاملاً رایگان از وب سایت اصلی پروژه http://cran.r-project.org یا "Mirror" روسی http://cran دانلود کنید. .gis-lab.info. فرآیند نصب سیستم از توزیع دانلود شده هیچ مشکلی ایجاد نمی کند و نیاز به اظهار نظر خاصی ندارد.

برای راحتی ذخیره اسکریپت ها، داده های منبع و نتایج محاسبات، ارزش انتخاب دایرکتوری کاری ویژه در رایانه کاربر را دارد. استفاده از کاراکترهای سیریلیک در نام دایرکتوری کاری بسیار نامطلوب است.

توصیه می شود با تغییر هر کدام، مسیر دایرکتوری کاری و برخی تنظیمات دیگر را قرار دهید ویرایشگر متن فایل سیستمی C:\Program Files\R\Retc\Rprofile.site (ممکن است مکان متفاوتی در رایانه شما داشته باشد). در مثال زیر، ردیف های اصلاح شده با رنگ سبز مشخص شده اند.

این خطوط علاوه بر مشخص کردن دایرکتوری کاری، پیوندی به منبع روسی برای دانلود بسته های R و راه اندازی خودکار R Commander مشخص می کنند.

لیست فایل Rprofile.site # هر چیزی که از علامت نظر "#" پیروی می کند توسط محیط نادیده گرفته می شود تنظیم نوع نمایش اطلاعات مرجع# option(help_type="text") option(help_type="html") # تنظیم مکان کتابخانه محلی #.Library.site - file.path(chartr("\\", "/", R.home()) , "site-library") # هنگام بارگیری محیط، منوی R Commander را راه اندازی کنید # اگر راه اندازی Rcmdr نیازی به راه اندازی نیست، علائم "#" را اضافه کنید (( old - getOption("defaultPackages") گزینه ها (defaultPackages = c(old, "Rcmdr ") ) )) # تعریف یک آینه CRAN local((r - getOption("repos") r["CRAN"] - "http://cran.gis-lab" options(repos=r))) # تعریف مسیر به دایرکتوری کار (هر مورد دیگری در رایانه شما) setwd ("D:/R/Process/Resampling") در مورد یک "کتاب درسی مقدماتی خوب"، هر یک از توصیه های ما ذهنی خواهد بود. با این حال، شایان ذکر است که معرفی رسمی R توسط W. Venables و D. Smith (Venables, Smith, 2014) و کتاب R. Kabakov (Kabaco, 2011) به رسمیت شناخته شده است، تا حدی به این دلیل که ترجمه روسی آنها در دسترس است. اجازه دهید همچنین به کتابچه راهنمای سنتی برای آدمک‌ها (Meys, Vries, 2012) و کتابچه راهنمای (Lam, 2010) توجه کنیم که با پدانتری هلندی رشک‌آور نوشته شده است. از میان دوره های مقدماتی به زبان روسی، کاملترین آنها کتابهای I. Zaryadov (2010a) و A. Shipunov و همکاران است. (2014).

1.2. کار با کنسول فرمان رابط R محیط آماری R هر مجموعه ای از دستورالعمل های معنی دار زبان R را که در یک فایل اسکریپت موجود است یا به صورت دنباله ای از دستورات صادر شده از کنسول نمایش داده می شود را اجرا می کند. کار با کنسول ممکن است برای کاربران مدرنی که به منوهای دکمه ای عادت دارند دشوار به نظر برسد، زیرا لازم است دستورات فردی را به خاطر بسپارید. با این حال، پس از کسب برخی مهارت‌ها، معلوم می‌شود که بسیاری از روش‌های پردازش داده‌ها را می‌توان سریع‌تر و با دشواری کمتری نسبت به مثلاً همان بسته Statistica انجام داد.

کنسول R یک کادر محاوره ای است که کاربر دستورات را در آن وارد کرده و نتایج اجرای آنها را مشاهده می کند. این پنجره بلافاصله با شروع محیط ظاهر می شود (به عنوان مثال، پس از کلیک بر روی میانبر R در دسکتاپ). علاوه بر این، رابط کاربری گرافیکی استاندارد R (RGui) شامل یک پنجره ویرایش اسکریپت و پنجره های پاپ آپ با اطلاعات گرافیکی (تصاویر، نمودارها و غیره) است.

در حالت فرمان، R می تواند مانند یک ماشین حساب معمولی کار کند:

در سمت راست نماد prompt، کاربر می تواند یک عبارت حسابی دلخواه را وارد کند، کلید Enter را فشار داده و بلافاصله نتیجه را دریافت کند.

برای مثال در دستور دوم در تصویر بالا از توابع فاکتوریل و سینوسی و همچنین p داخلی استفاده کردیم. نتایج به‌دست‌آمده به صورت متنی را می‌توان با ماوس انتخاب کرد و از طریق کلیپ بورد در هر فایل متنی در سیستم عامل (مثلاً یک سند Word) کپی کرد.

هنگام کار با RGui، در همه موارد توصیه می کنیم یک فایل با یک اسکریپت (به عنوان مثال دنباله ای از دستورات زبان R که اقدامات خاصی را انجام می دهد) ایجاد کنید. به عنوان یک قاعده، این یک فایل متنی معمولی با هر نامی است (اما برای قطعیت، با پسوند *.r بهتر است)، که می تواند با یک ویرایشگر معمولی مانند Notepad ایجاد و ویرایش شود. در صورت وجود این فایل، بهتر است آن را در دایرکتوری کاری قرار دهید و سپس پس از راه اندازی R و انتخاب آیتم منوی "File Open Script"، محتویات این فایل در پنجره "R Editor" ظاهر می شود. می توانید دنباله ای از دستورات اسکریپت را از آیتم منوی "Edit Run All" اجرا کنید.

همچنین می توانید با ماوس یک قطعه معنی دار را از هر مکانی در اسکریپت آماده شده (از نام یک متغیر تا کل محتوا) انتخاب کنید و این بلوک را برای اجرا راه اندازی کنید. این را می توان به چهار روش ممکن انجام داد: از اصلی و منوی زمینه، ترکیب کلیدهای Ctrl+R یا دکمه ای در نوار ابزار.

در شکل ارائه شده اقدامات زیر انجام شده است:

° gadm R-object با داده های مربوط به تقسیمات سرزمینی جمهوری بلاروس از منبع اینترنتی رایگان مناطق اداری جهانی (GADM) دانلود شد.

° نام‌های لاتین شهرها با معادل‌های رایج جایگزین می‌شوند.

° با استفاده از تابع spplot() بسته sp، یک نقشه اداری از جمهوری در پنجره گرافیکی نمایش داده می شود که می تواند با استفاده از منو در کلیپ بورد کپی شود یا به عنوان یک فایل گرافیکی متا یا شطرنجی استاندارد ذخیره شود.

در بخش‌های بعدی با جزئیات بیشتری به معنای اپراتورهای جداگانه نگاه خواهیم کرد، اما در اینجا متذکر می‌شویم که با انتخاب در اسکریپت و اجرای ترکیب نمادها Regions@data، کل داده‌های مجموعه داده را در پنجره کنسول دریافت خواهیم کرد. شی و دستوری که از نمادهای انتخاب شده gadm تشکیل شده است، Regions @data$NAME_1 لیستی از نام مراکز اداری را قبل و بعد از اصلاح به ما می دهد.

بنابراین، ویرایشگر R حرکت در یک اسکریپت، ویرایش و اجرای هر ترکیبی از دستورات، و یافتن و جایگزینی بخش‌های خاصی از کد را آسان می‌کند. افزونه RStudio که در بالا ذکر شد به شما امکان می دهد تا علاوه بر برجسته کردن نحو کد، تکمیل خودکار کد، "بسته بندی" یک توالی دستوری در توابع برای استفاده بعدی آنها، کار با اسناد Sweave یا TeX و سایر عملیاتی که برای یک کاربر پیشرفته مفید خواهد بود، انجام دهید. .

R دارای مواد مرجع داخلی گسترده ای است که مستقیماً از RGui قابل دسترسی است.

اگر فرمان help.start() را از کنسول صادر کنید، صفحه‌ای در مرورگر اینترنت شما باز می‌شود که به همه منابع کمکی دسترسی پیدا می‌کند: کتابچه‌های راهنمای اصلی، مطالب نویسنده، پاسخ به سؤالات رایج، فهرست‌های تغییرات، پیوندهایی برای کمک به سایر موارد. اشیاء R و غیره .d.:

با استفاده از دستورات زیر می توان برای توابع خاص راهنمایی دریافت کرد:

° کمک ("foo") یا؟ foo – کمک به تابع foo (نقل ها اختیاری هستند).

° help.search("foo") یا ?? foo – تمام فایل های راهنما حاوی foo را جستجو کنید.

° مثال ("foo") - نمونه هایی از استفاده از تابع foo.

° RSiteSearch ("foo") - جستجو برای پیوندها در کتابچه های راهنمای آنلاین و بایگانی های پستی.

° apropos("foo"، mode="function") - لیستی از تمام توابع با ترکیب foo;

° vignette ("foo") - لیستی از آموزش ها در مورد موضوع foo.

1.3. کار با منوی بسته R Commander یک ابزار مناسب برای تسلط بر محاسبات در R برای یک کاربر تازه کار، R Commander است - یک رابط گرافیکی مستقل از پلت فرم به سبک منوی دکمه ای، که در بسته Rcmdr پیاده سازی شده است. این به شما امکان می دهد مجموعه بزرگی از روش های تجزیه و تحلیل آماری را بدون توسل به حفظ اولیه توابع در زبان دستور انجام دهید ، اما به طور غیرارادی به این امر کمک می کند ، زیرا تمام دستورالعمل های اجرا شده را در یک پنجره خاص نمایش می دهد.

Rcmdr را می توانید مانند هر افزونه دیگری از منوی کنسول R "Packages Install package" نصب کنید، اما بهتر است دستور زیر را اجرا کنید:

install.packages ("Rcmdr", dependencies=TRUE) که در آن فعال کردن گزینه وابستگی ها اطمینان حاصل می کند که مجموعه کاملی از بسته های دیگر که ممکن است هنگام پردازش داده ها از طریق منوی Rcmdr لازم باشد نصب شده است.

R Commander زمانی راه اندازی می شود که بسته Rcmdr از طریق منوی "Packages Enable Package" یا با دستور library(Rcmdr) بارگیری می شود. اگر بنا به دلایلی تصمیم گرفته شد که داده ها را منحصراً با استفاده از R Commander تجزیه و تحلیل کنیم، پس برای دانلود خودکاراین پوسته گرافیکی، هنگام شروع R، باید فایل Rprofile.site را همانطور که در بخش 1.1 نشان داده شده است ویرایش کنید.

بیایید با استفاده از یک مثال به کار در R Commander نگاه کنیم تجزیه و تحلیل همبستگیداده‌های مربوط به میزان آلودگی نرم تنان دوکفه‌ای Dreissena polymorpha توسط Conchophthirus acuminatus مژگانی در سه دریاچه بلاروس (Mastitsky S.E. // BioInvasions Records.

2012. V. 1. P 161-169). در جدول با داده های اولیه که از وب سایت figshare دانلود می کنیم، به دو متغیر طول پوسته نرم تنان (ZMlength، میلی متر) و تعداد مژک داران موجود در نرم تن (CAnumber) علاقه مند خواهیم شد. این مثال در فصول 4 و 5 به تفصیل مورد بحث قرار خواهد گرفت، بنابراین در اینجا به تفصیل به معنای تجزیه و تحلیل نمی پردازیم، بلکه به تکنیک کار با Rcmdr می پردازیم.

در مرحله بعد، حالت بارگذاری داده ها و آدرس لینک اینترنت را در پنجره های پاپ آپ تعریف می کنیم. به راحتی می توان دید که می توانیم همان داده ها را از یک فایل متنی محلی، کتاب کار اکسل یا جدول پایگاه داده بارگیری کنیم. برای اطمینان از اینکه داده های ما به درستی بارگیری شده اند (یا در صورت لزوم آن را ویرایش کنید)، روی دکمه "مشاهده داده ها" کلیک کنید.

پنجره ای برای تعریف سازماندهی داده ها بخشی از جدول بارگذاری شده

در مرحله دوم، در منوی "آمار"، "آزمون همبستگی" را انتخاب کنید:

ما یک جفت متغیر همبسته را انتخاب می کنیم و در پنجره خروجی ضریب همبستگی پیرسون (R = 0.467)، سطح معنی داری آماری به دست آمده (p-value 2.2e-16) و حدود اطمینان 95% را بدست می آوریم.

– – –

نتایج به دست آمده را می توان به راحتی از پنجره خروجی از طریق کلیپ بورد کپی کرد.

اکنون یک نمایش گرافیکی از وابستگی همبستگی دریافت می کنیم. بیایید یک نمودار پراکندگی از وابستگی CAnumber به ZMlength انتخاب کنیم و نمودارهای محدوده لبه، یک خط روند خطی با استفاده از روش حداقل مربعات (به رنگ سبز)، یک خط صاف شده با استفاده از روش رگرسیون محلی (قرمز)، ارائه شده با اطمینان ارائه کنیم. منطقه (خط نقطه چین). برای هر یک از سه دریاچه (متغیر دریاچه)، نقاط تجربی با نمادهای مختلف نشان داده خواهند شد.

– – –

نمودار کپی شده از پنجره گرافیکی R Commander همانطور که معادل کل دکمه منوی R Commander کلیک می شود، دستورالعمل های زبان R در پنجره اسکریپت ظاهر می شود.

در مورد ما آنها به این شکل هستند:

صدف read.table("http://figshare.com/media/download/98923/97987", header=TRUE, sep="\t", na.strings="NA", dec=".", strip. white=TRUE) cor.test(Clams$CAnumber, Clams$ZMlength, alternative="two.sided", method="pearson") scatterplot(CAnumber ~ ZMlength | Lake, reg.line=lm, smooth=TRUE, spread= TRUE, boxplots="xy", span=0.5, ylab="Number of ciliates", xlab="Shell length", by.groups=FALSE, data=Mollusks) خود اسکریپت یا نتایج خروجی (و همچنین هر دو با هم) ) را می توان در فایل ها ذخیره کرد و در هر زمان تکرار کرد. شما می توانید بدون اجرای R Commander با بارگذاری فایل ذخیره شده از طریق کنسول R به همان نتیجه برسید.

به طور کلی، بدون دانستن ساختارهای زبان R (یا به سادگی نمی‌خواهید حافظه خود را با به خاطر سپردن آن‌ها بار کنید)، با استفاده از Rcmdr می‌توانید پردازش داده‌ها را با استفاده از تقریباً تمام روش‌های آماری اولیه انجام دهید. این آزمون‌های پارامتری و ناپارامتریک، روش‌های برازش توزیع‌های مختلف پیوسته و گسسته، تحلیل جداول اقتضایی چند متغیره، تحلیل واریانس تک متغیره و چند متغیره، تحلیل و خوشه‌بندی مؤلفه‌های اصلی، اشکال مختلف مدل‌های رگرسیون تعمیم‌یافته و غیره را ارائه می‌دهد. دستگاه توسعه‌یافته برای تجزیه و تحلیل و آزمایش مدل های به دست آمده شایسته مطالعه دقیق است.

شرح مفصلی از تکنیک‌های کار با R Commander و همچنین ویژگی‌های پیاده‌سازی الگوریتم‌های پردازش داده‌ها را می‌توان در راهنماها یافت (لارسون-هال، 2009؛ کارپ، 2014).

با این حال، همانطور که زبان اشاره نمی تواند جایگزین ارتباطات انسانی در زبان طبیعی شود، دانش زبان R نیز به طور قابل توجهی قابلیت های کاربر را گسترش می دهد و ارتباط با محیط R را لذت بخش و هیجان انگیز می کند. و اینجا تولید خودکاراسکریپت در R Commander می تواند راهی عالی برای خواننده باشد تا با عملگرهای زبان R آشنا شود و ویژگی های فراخوانی عملکردهای فردی را بیاموزد. ما فصل های بعدی کتابچه راهنمای کاربر را به بحث در مورد روش های پردازش داده ها فقط در سطح ساختارهای زبان اختصاص خواهیم داد.

1.4. اشیاء، بسته‌ها، توابع، دستگاه‌ها زبان R متعلق به خانواده زبان‌های برنامه‌نویسی شی گرا سطح بالا است. برای یک غیر متخصص، تعریف دقیق از مفهوم "شیء" کاملاً انتزاعی است. با این حال، برای سادگی، می‌توانیم هر چیزی که در حین کار با اشیاء R ایجاد شده است را صدا کنیم.

دو نوع اصلی از اشیاء وجود دارد:

1. اشیاء در نظر گرفته شده برای ذخیره سازی داده ها ("اشیاء داده") متغیرهای جداگانه، بردارها، ماتریس ها و آرایه ها، لیست ها، عوامل، جداول داده هستند.

2. توابع ("اشیاء تابع") برنامه هایی نامگذاری شده اند که برای ایجاد اشیاء جدید یا انجام اقدامات خاصی بر روی آنها طراحی شده اند.

اشیاء محیط R، که برای استفاده جمعی و رایگان در نظر گرفته شده است، در بسته هایی که با موضوعات مشابه یا روش های پردازش داده ها متحد شده اند، جمع آوری می شوند. تفاوت هایی بین اصطلاحات بسته ("بسته") و کتابخانه ("کتابخانه") وجود دارد. اصطلاح "کتابخانه" دایرکتوری را تعریف می کند که می تواند شامل یک یا چند بسته باشد. اصطلاح "بسته" به مجموعه ای از توابع، صفحات کتابچه راهنمای HTML و نمونه های داده اشیاء در نظر گرفته شده برای آزمایش یا اهداف آموزشی اشاره دارد.

بسته ها در دایرکتوری خاصی از سیستم عامل نصب می شوند یا به شکل حذف نشده، می توانند در فایل های آرشیو *.zip ذخیره و توزیع شوند. فایل های ویندوز(نسخه بسته باید با نسخه خاص R شما مطابقت داشته باشد).

اطلاعات کامل در مورد بسته (نسخه، حوزه موضوعی اصلی، نویسندگان، تاریخ تغییرات، مجوزها، سایر بسته های مرتبط با عملکرد، لیست کامل توابع که هدف آنها را نشان می دهد و غیره) را می توان با دستور به دست آورد.

کتابخانه (help=package_name)، برای مثال:

library(help=Matrix) همه بسته‌های R به یکی از سه دسته تقسیم می‌شوند: پایه ("پایه")، توصیه شده ("توصیه شده") و سایر بسته‌های نصب شده توسط کاربر.

شما می توانید لیستی از آنها را در یک کامپیوتر خاص با صدور دستور library() یا:

installed.packages (اولویت = "پایه") installed.packages (اولویت = "توصیه می شود") # دریافت لیست کاملبسته لیست بسته ها - rownames(installed.packages()) # اطلاعات خروجی به کلیپ بورد با فرمت اکسل write.table(packlist,"clipboard",sep="\t", col.names=NA) بسته های اصلی و توصیه شده معمولاً گنجانده می شوند. به فایل نصبی R.

البته نیازی به نصب فوری بسته های مختلف در رزرو نیست.

برای نصب یک بسته، کافی است آیتم منوی «Packages Install package(s)» را در پنجره فرمان R Console انتخاب کنید یا مثلاً دستور را وارد کنید:

install.packages (c("وگان"، "xlsReadWrite"، "ماشین"))

به عنوان مثال، بسته ها را می توان از "آینه" روسی http://cran.gis-lab.info بارگیری کرد، که برای آن راحت است از نسخه فایل Rprofile.site همانطور که در بخش 1.1 نشان داده شده است استفاده کنید.

یکی دیگر از گزینه های نصب بسته ها این است که به وب سایت http://cran.gis-lab.info/web/packages رفته، بسته مورد نظر را به صورت فایل فشرده انتخاب کرده و در پوشه انتخابی رایانه خود دانلود کنید.

در این مورد، می توانید پیش نمایش تمام اطلاعات روی بسته، به ویژه شرح عملکردهای موجود در آن را مشاهده کنید و تصمیم بگیرید که چقدر به آن نیاز دارید. در مرحله بعد، باید آیتم منوی فرمان "بسته ها را از فایل های فشرده محلی نصب کنید" را اجرا کنید.

هنگامی که کنسول RGui را راه اندازی می کنید، فقط برخی از بسته های اصلی بارگذاری می شوند. برای مقداردهی اولیه هر بسته دیگری، باید دستور کتابخانه (package_name) را قبل از استفاده مستقیم از توابع آن صادر کنید.

با صدور دستور می توانید تعیین کنید که کدام بسته ها در هر لحظه از جلسه بارگذاری می شوند:

sessionInfo() R نسخه 2.13.2 (30-09-2011) پلتفرم: i386-pc-mingw32/i386 (32 بیتی)

– – –

سایر بسته های پیوست شده:

Vegan_2.0-2 permute_0.6-3

بارگیری شده از طریق فضای نام (و پیوست نشده):

Grid_2.13.2 lattice_0.19-33 tools_2.13.2 ما در جدول زیر لیستی (شاید کاملاً کامل نیست) از بسته هایی که در اسکریپت های ارائه شده در این کتاب استفاده شده اند ارائه می دهیم:

بسته‌های R هدف بسته‌های «پایه» ساختارهای پایه R پایه کامپایلر بسته کامپایلر R مجموعه‌ای از جداول با داده‌ها برای آزمایش و نمایش مجموعه داده‌های توابع توابع گرافیکی پایه گرافیک درایورهای دستگاه گرافیک، پالت‌های رنگ، فونت‌ها grدستگاه‌ها توابع برای ایجاد لایه‌های گرافیکی شبکه‌ای برنامه شی‌گرا مؤلفه ها (کلاس ها، روش ها) توابع برای کار با خطوط رگرسیون انواع متفاوت splines توابع اساسی آمار تجزیه و تحلیل آماری روش‌های توابع آماری کلاس S4 stats4 اجزای رابط کاربری (منوها، جعبه‌های انتخاب و غیره) tcltk پشتیبانی اطلاعات، ابزارهای مدیریت و مستندسازی ابزارهای مختلف اشکال‌زدایی، I/O، بایگانی و غیره.

پکیج های Utils "Recommended" توابع مختلف بوت استرپ و رویه های جک نایف راه اندازی الگوریتم های مختلف برای طبقه بندی و کلاس تشخیص غیر سلسله مراتبی الگوریتم هایی برای پارتیشن بندی و خوشه بندی سلسله مراتبی خوشه تجزیه و تحلیل و تأیید کدهای R Code Tools (خواندن و نوشتن فایل های مختلف DSP، DFD با فرمت های مختلف , Stata) توابع خارجی که از بهینه سازی هموارسازی هسته پشتیبانی می کنند KernSmooth توابع گرافیکی با قابلیت توسعه یافته (Sarkar, 2008) شبکه مجموعه ای از داده ها و توابع آماری (Venables, Ripley, 2002) عملیات MASS با ماتریس ها و بردارها و ماتریس اثرات تعمیم یافته ماتریس و مدل های غیر خطی با اثرات مختلط nlme شبکه های عصبیانتشار مستقیم nnet ساخت درختان طبقه بندی و رگرسیون rpart توابع کریجینگ و تجزیه و تحلیل توزیع فضایی نقاط تحلیل بقای فضایی (مدل کاکس و غیره) بسته های نصب شده در حین کار adegenet الگوریتم های تحلیل بازوی فواصل ژنتیکی تحلیل مدل های رگرسیونی - ضمیمه به کتاب (Gelman, Hill, 2007) ماشین رویه های مربوط به تحلیل رگرسیون کاربردی corrplot نمایش ماتریس های همبستگی به صورت گرافیکی fitdistrplus انتخاب پارامترهای توزیع های آماری FWDانتخاب، انتخاب مجموعه ای از متغیرهای اطلاعاتی در مدل های رگرسیون بسته برای تست مجموعه داده های gamair مدل‌های ژئوکره افزودنی برآورد فواصل جغرافیایی ggplot2 بسته گرافیکی پیشرفته با عملکرد بالا DAAG تجزیه و تحلیل داده‌ها و توابع گرافیکی برای کتاب (Maindonald, Braun, 2010) مجموعه توابع Hmisc Harrell HSAUR2 ضمیمه کتاب (Everitt, 20R10, 2010) تجزیه و تحلیل در R jpeg کار با فایل های گرافیکی jpeg lars انواع خاص رگرسیون (LARS، Lasso و غیره) lavaan تحلیل تاییدی و مدل های معادلات ساختاری lmodel2 پیاده سازی مدل های رگرسیون انواع I و II (MA, SMA, RMA) ابزار نقشه ابزار کار موش با نقشه های جغرافیایی روش های تجزیه و تحلیل و پر کردن لحظه های مقادیر از دست رفته توابع محاسبه گشتاورهای نمونه و nortest معیارهای آزمون فرضیه توزیع نرمالمقادیر پرت تجزیه و تحلیل نقاط پرت در داده‌های پاستک تجزیه و تحلیل سری‌های مکانی و زمانی در اکولوژی pls رگرسیون بر روی مولفه‌های اصلی pwr تخمین قدرت آماری فرضیه‌ها تغییر شکل تبدیل انعطاف‌پذیر جداول داده‌ها robustbase روش‌های قوی برای ساخت مدل‌های رگرسیون rootSolve یافتن ریشه‌های متغیر با چندین تابع مقیاس ها انتخاب مقیاس های رنگی sem مدل های معادلات ساختاری semPlot تجسم روابط ساختاری sm تخمین چگالی توزیع و روش های هموارسازی sp کلاس ها و روش های دسترسی به داده های مکانی spatstat روش های آمار فضایی، انتخاب مدل ها spdep وابستگی های فضایی: روش های مدل سازی اطلاعات زمین آماری و مدل سازی ستاره ای آماری درباره مدل های آماری در فرمت های مختلف vcd تجسم داده های طبقه بندی انجام محاسبات محیطی جوامع (اندازه گیری شباهت، تنوع و تودرتوی گیاهی، ترتیب بندی و تجزیه و تحلیل چند متغیره) اگر بخواهیم بسته ای را بارگذاری کنیم که هنوز در R نصب نشده است، یا سعی کنیم از عملکرد بسته ای که هنوز دانلود نشده است، پیام های سیستمی را دریافت خواهیم کرد:

sem(model, data=PoliticalDemocracy) خطا: can't find function "sem" library(lavaan) Error in library(lavaan): هیچ بسته ای به نام "lavaan" وجود ندارد تابع زیر که توسط K. Cichini معرفی شده است، یک ورودی را می گیرد. لیست کاربران استفاده شده از بسته ها و مشخص می کند که کدام یک باید دانلود شود و کدام یک باید از قبل نصب شود. درک اسکریپت مستلزم دانش ساختارهای زبان R است که در بخش بعدی توضیح داده شده است، اما خواننده علاقه مند می تواند بعداً به این دستورات بازگردد.

instant_pkgs - function(pkgs) ( pkgs_miss - pkgs)] # بسته هایی را نصب کنید که برای دانلود آماده نیستند:

if (length(pkgs_miss) 0) ( install.packages(pkgs_miss) ) # دانلود بسته هایی که هنوز دانلود نشده اند:

پیوست - search() attached_pkgs - پیوست نیاز_to_attach - pkgs if (طول(نیاز_به_پیوست) 0) (برای (i در 1:length(نیاز_به_پیوست)) نیاز دارد(نیاز_به_پیوست[i]، کاراکتر.only = TRUE) ) ) # Call

instant_pkgs(c("پایه"، "jpeg"، "وگان"))

شما می توانید لیستی از عملکردهای هر بسته را دریافت کنید، به عنوان مثال، با اجرای دستور:

ls(pos = "package:vegan") توجه: ls() یک تابع هدف کلی برای فهرست کردن اشیا در یک محیط معین است. دستور بالا بسته وگان را به عنوان چنین محیطی نصب می کند. اگر این دستور را بدون پارامتر صادر کنیم، لیستی از اشیاء ایجاد شده در جلسه جاری را دریافت خواهیم کرد.

با صدور دستور ()args می توانید لیستی از آرگومان های پارامترهای ورودی هر تابع در یک بسته بارگذاری شده را دریافت کنید.

به عنوان مثال، هنگام اجرای مدل خطی برای بدست آوردن تابع lm()، که بعداً به طور گسترده از آن استفاده کردیم، پارامترها تنظیم می شوند:

تابع Args(lm) (فرمول، داده، زیرمجموعه، وزن‌ها، na.action، روش = "qr"، مدل = TRUE، x = FALSE، y = FALSE، qr = TRUE، singular.ok = TRUE، تضادها = NULL، offset،...) اگر دستوری را وارد کنید که فقط از مخفف یک تابع تشکیل شده است (مثلاً محاسبه محدوده بین ربعی IQR)، می توانید متن منبع تابع را در کدهای زبان R دریافت کنید:

تابع IQR (x، na.rm = FALSE) diff(quantile(as.numeric(x)، c(0.25, 0.75)، na.rm = na.rm، names = FALSE)) یک کاربر پیشرفته می تواند تغییراتی در این مورد ایجاد کند. کد و "تغییر مسیر" فراخوانی تابع استاندارد به نسخه شما.

با این حال، اگر بخواهیم به کد تابع ()predict که برای محاسبه مقادیر پیش‌بینی‌شده مدل خطی استفاده می‌شود، به همین ترتیب، دریافت خواهیم کرد:

پیش بینی تابع (شیء،...) UseMethod("predict") در این مورد، predict() یک تابع "جهانی" است: بسته به اینکه کدام شی مدل به ورودی آن تغذیه می شود (lm برای رگرسیون خطی، glm برای پواسون یا لجستیک رگرسیون، lme برای مدل اثرات مختلط و غیره)، روش مناسب برای به دست آوردن مقادیر پیش بینی شده به روز می شود.

به طور خاص، این تابع برای پیاده سازی روش های زیر استفاده می شود:

متدها("پیش بینی") predict.ar* predict.Arima* predict.arima0* predict.glm predict.HoltWinters* predict.lm predict.loess* predict.mlm predict.nls* predict.poly predict.ppr* predict.prcomp* predict.princomp* predict.smooth.spline* predict.smooth.spline.fit* predict.StructTS* توابع غیرقابل مشاهده ستاره دار هستند این مثال به ایده های برنامه نویسی شی گرا (OOP) زیربنای چارچوب R مربوط می شود. سبک S3، یک متد، به طور دقیق، تابعی است که بسته به کلاس شی ارائه شده به ورودی آن، توسط تابع عمومی دیگری مانند print()، plot() یا summary() فراخوانی می شود. در این حالت، صفت کلاس مسئول «اشیاء گرایی» است که ارسال صحیح و فراخوانی متد مورد نیاز برای یک شی داده شده را تضمین می کند. بنابراین «تابع روش» برای به دست آوردن مقادیر پیش‌بینی‌شده یک مدل خطی تعمیم‌یافته، هنگام هموارسازی با splines - predict.smooth.spline () و غیره، فراخوانی به predict.glm() خواهد داشت. اطلاعات دقیقمدل S3 OOP را می‌توانید در بخش راهنمای S3Methods و مدل پیشرفته‌تر S4 را در بخش روش‌ها پیدا کنید.

در نهایت، اجازه دهید به چند تکنیک ساده برای ذخیره کار تولید شده در یک جلسه R نگاهی بیندازیم:

° sink (فایل = نام فایل) - نتایج اجرای دستورات بعدی را در زمان واقعی به فایلی با نام داده شده خروجی می دهد. برای خاتمه دادن به این دستور، باید دستور ()sink را بدون پارامتر اجرا کنید.

° save (فایل = نام فایل، لیست اشیاء ذخیره شده) - اشیاء مشخص شده را در یک فایل باینری با فرمت XDR ذخیره می کند، که می توان با هر کدام از آنها کار کرد. سیستم عامل;

° بار (فایل = نام فایل) - اشیاء ذخیره شده را در محیط فعلی بازیابی می کند.

° save.image (file = نام فایل) - تمام اشیاء ایجاد شده در طول کار را به عنوان یک فایل rda خاص R ذخیره می کند.

نمونه ای از انتقال جدول تولید شده با داده ها به کلیپ بورد در قالبی سازگار با ساختار صفحه اکسل، در بالا در این بخش آورده شد. در فصل 6 مثالی از انتقال داده ها از یک شی مدل خطی به یک فایل Word ارائه می شود.

محیط R می تواند تصاویر پیکسلی با کیفیت مورد نیاز را برای تقریباً هر وضوح صفحه نمایش یا دستگاه چاپی تولید کند و همچنین پنجره های گرافیکی حاصل را در فایل هایی با فرمت های مختلف ذخیره کند. برای هر دستگاه خروجی گرافیکی یک تابع درایور وجود دارد: می‌توانید دستور help(Devices) را وارد کنید تا لیست کاملی از درایورها را دریافت کنید.

در بین دستگاه های گرافیکی رایج ترین آنها عبارتند از:

° windows () – پنجره گرافیکی ویندوز (صفحه نمایش، چاپگر یا متافیل).

° png(), jpeg(), bmp(), tiff() – خروجی به فایل شطرنجی با فرمت مناسب.

° pdf(), postscript() – خروجی اطلاعات گرافیکی V فایل پی دی افیا پست اسکریپت

وقتی کار با دستگاه خروجی تمام شد، باید درایور آن را با استفاده از دستور dev.off() غیرفعال کنید. می توان چندین دستگاه خروجی گرافیکی را به طور همزمان فعال کرد و بین آنها سوئیچ کرد: به عنوان مثال، بخش مربوطه را در کتاب شیپونوف و همکارانش ببینید. (1391، ص 278).

1. توصیف زبان R

2.1. انواع داده های زبان R همه اشیاء داده (و بنابراین متغیرها) در R را می توان به کلاس های زیر تقسیم کرد (یعنی انواع شی):

° عددی - اشیایی که شامل اعداد صحیح (عدد صحیح) و اعداد واقعی (دو برابر) می شوند.

° logical - اشیاء منطقی که فقط دو مقدار می گیرند: FALSE (به اختصار F) و TRUE (T)؛

° کاراکتر - اشیاء کاراکتر (مقادیر متغیر در گیومه های دوتایی یا تکی مشخص می شوند).

در R، می‌توانید نام‌هایی برای اشیاء مختلف (توابع یا متغیرها) به دو زبان لاتین و سیریلیک ایجاد کنید، اما لطفاً توجه داشته باشید که a (سیریلیک) و a (لاتین) دو شی متفاوت هستند. علاوه بر این، محیط R به حروف کوچک و بزرگ حساس است، یعنی. حروف کوچک و بزرگ متفاوت است. نام متغیرها (شناسه ها) در R باید با یک حرف (یا نقطه) شروع شود و شامل حروف، اعداد، نقطه و زیرخط باشد.

با کمک یک تیم؟ نام، می توانید بررسی کنید که آیا متغیر یا تابعی با نام مشخص شده وجود دارد یا خیر.

بررسی اینکه آیا یک متغیر به یک کلاس خاص تعلق دارد توسط توابع is.numeric(object_name)، is.integer(name)، is.logical(name)، is.character(name) و تبدیل یک شی به نوع دیگر بررسی می شود. می توانید از توابع as.numeric (name)، as.integer (name)، as.logical (name)، as.character (name) استفاده کنید.

تعدادی شیء خاص در R وجود دارد:

° Inf - بی نهایت مثبت یا منفی (معمولاً حاصل تقسیم یک عدد واقعی بر 0).

° NA - "مقدار از دست رفته" (در دسترس نیست)؛

° NaN - "عدد نیست".

با استفاده از توابع is.nite(name)، is.na(name) و is.nan(name) می توانید بررسی کنید که آیا یک متغیر به هر یک از این انواع خاص تعلق دارد یا خیر.

عبارت R ترکیبی از عناصری مانند عملگر انتساب، عملگرهای حسابی یا منطقی، نام اشیا و نام توابع است. نتیجه اجرای یک عبارت معمولاً بلافاصله در دستور یا پنجره گرافیکی نمایش داده می شود. با این حال، هنگامی که یک عملیات انتساب انجام می شود، نتیجه در شی مربوطه ذخیره می شود و روی صفحه نمایش داده نمی شود.

به عنوان یک عملگر انتساب در R، می توانید از نماد "=" یا یک جفت نماد "-" (تخصیص یک مقدار خاص به شی در سمت چپ) یا "-" (تخصیص یک مقدار به شی در سمت چپ) استفاده کنید. درست). استفاده از "-" سبک برنامه نویسی خوبی در نظر گرفته می شود.

عبارات زبان R خط به خط در یک اسکریپت سازماندهی می شوند. می توانید چندین دستور را در یک خط وارد کنید و آنها را با علامت ";" از هم جدا کنید. همچنین می توان یک فرمان را روی دو (یا چند) خط قرار داد.

اشیاء عددی می توانند عبارات را با استفاده از عملیات حسابی سنتی + (جمع)، – (تفریق)، * (ضرب)، / (تقسیم)، ^ (توان)، %/% (تقسیم عدد صحیح)، %% (باقیمانده) از تقسیم تشکیل دهند. . عملیات دارای اولویت عادی است، به عنوان مثال. ابتدا توان و سپس ضرب یا تقسیم و سپس جمع یا تفریق انجام می شود. عبارات می توانند از پرانتز استفاده کنند و عملیات درون آنها بالاترین اولویت را دارند.

عبارات بولیمی توان با استفاده از عملگرهای منطقی زیر ترکیب کرد:

° "برابر با" == ° "مساوی نیست" != ° "کمتر از" ° "بزرگتر از" ° "کمتر یا مساوی" = ° "بزرگتر از یا مساوی" = ° "منطقی و" و ° "یا منطقی" | ° "منطقی نه"!

SUPPORT, AU TSOURCING SERVICES G&A FUNDS ADMINISTRATION 2nd AMICORP GROUP COMPANY NOOR COMPANY OR GROUP 2nd AMICORP GROUP COMPANY OF CROP W W w.am icor p. c om گروه AMICORP زمینه های فعالیت شرکت مطالب در مورد شرکت خدمات ما خدمات برای مشتریان شرکتی خدمات برای فروش سازمانی ایجاد و مدیریت...”

"موسسه بودجه آموزشی دولت فدرال آموزش عالی حرفه ای "دانشگاه مالی تحت دولت فدراسیون روسیه" گروه "بازاریابی" جهت های مدرن بازاریابی: نظریه، روش، تمرین تک نگاری جمعی تحت سردبیری عمومی S.V. Karpova Moscow 2011 داوران: N.S. پرکالینا - دکترای اقتصاد، استاد، رئیس. گروه بازاریابی "MATI" - دانشگاه دولتی فناوری روسیه به نام. K. E. Tsiolkovsky S.S. سولوویف..."

«خبرنامه دیجیتال کوچک برای CAFE و TEA RDACTION: Ch. ویراستار: Vesela Dabova Br.4 دسامبر, 2011 ویراستاران: Otslabvane s chai Teodora Vasileva Gergana Ivanov انتشارات: ABB همه موارد در بدن هنگام مصرف نوشیدنی چای چگونه است و چگونه همه موارد با نای sigurniyat و شروع سالم ضعیف می شوند. برای namalyavane در tegloto e redovnata مصرف برای یک فنجان چای. نظرات مختلفی در مورد پایایی این نظریه وجود دارد، اما حقایق بسیار کمی ثابت می کند که هر فنجان چای با رژیم تعریف شده در ... ترکیب می شود.

"فضای رادیکال کنفرانس علمی بین رشته ای بین رشته ای در بین رشته ها RCS 2015 کتاب کنفرانس ویراستاران چکیده Romana Bokovi Miljana Zekovi Slaana Milievi NOVI SAD /21PTEMB, NOVI SAD /21PTEMB 2015 In Between Disciplines Conference Book of Abstracts Editors: Romana Bokovi Miljana Zekovi Slaana Milievi شابک: 978-86-7892-733-1 صفحه آرایی: ماجا مومیروف طرح جلد: استفان ووجی انتشارات گروه معماری و شهرسازی، دانشکده علوم فنی،...»

"دانشگاه ایالتی سنت پترزبورگ، دانشکده جغرافیا و ژئواکولوژی گروه ژئومورفولوژی پایان نامه دیپلم (کار مقدماتی نهایی) با موضوع: "ویژگی های ژئومورفولوژیکی و دیرین اقلیم دریاچه های قطب شمال (با استفاده از نمونه دریاچه ها در بخش مرکزی قطب شمال روسیه)" تکمیل شد. توسط: دانشجوی عصرانه النا الکساندرونا موروزوا سرپرستان علمی: دکترای جغرافیا، پروفسور. بولشیانوف دیمیتری یوریویچ دکترای ارشد، ارشد معلم Savelyeva Larisa Anatolyevna داور: دکترا، رئیس ..."

ماوس Apacer M811 یک mini-SUV لیزری برای کیت است. http://news.kosht.com/computer/mouse/2009/11/26/mysh_apacer_m811. افزونه جستجو برای قیمت های روزانه KOSHT.com برای مرورگر فایرفاکس. با یک کلیک نصب کنید. یک کیلوبایت صفحه اصلی اخبار قیمت ها اطلاعیه ها مشاغل انجمن ها شرکت ها Mobi یافتن اخبار خود همه اخبار KOSTA رایانه های شخصی و اجزای سازنده ماوس رایانه های شخصی و قطعات موش ها همه اخبار KOSTA بهترین ها کامپیوترهای بازیمحاسبه آنلاین در UltraPrice.by Mouse Apacer M811 – mini-SUV لیزری [...»

"سازمان فدرال آموزش و پرورش موسسه آموزشی دولتی آموزش عالی حرفه ای دانشگاه صنعتی ایالتی مسکو (GOU MGIU) "سیستم های اطلاعاتی و فناوری" بخش "پشتیبانی ویژه مدیریت و مدرک کارشناسی ارشد" سیستم های اطلاعاتی» دانشجوی تاتیانا آندریونا چوماکوا با موضوع "محاسبه جریان های جدا شده در پشت بدنه ضعیف" رئیس کار: پروفسور، دکترای فیزیک و ریاضیات. n الکسین ولادیمیر آداموویچ..."

«R WIPO A/45/3 اصل: انگلیسی تاریخ: 15 اوت 2008 سازمان جهانی مالکیت فکری ژنو مجمع کشورهای عضو وایپو چهل و پنجمین سری جلسات ژنو، 22-30 سپتامبر، مدیرکل OBSADMORS, 200 I. پذیرش سازمان های بین المللی غیردولتی به عنوان ناظر 1. مجامع در جلسات قبلی خود تعدادی از اصول را اتخاذ کردند که باید هنگام ارجاع سازمان های غیر دولتی بین المللی اعمال شوند...».

«1 اولگ سانایف. دوره ای در سراسر جهان که چهار سال طول می کشد و صد دلار هزینه دارد با مدت زمان سفر اوگنی الکساندرویچ گووزدف با قایق بادبانی لنا، که در عنوان ذکر شده است، همه چیز مرتب است - چهار سال به علاوه دو هفته: در 7 ژوئیه 1992، او بندر ماخاچکالا را ترک کرد، در 19 ژوئیه 1996، او بازگشت. اما با پول، این یک اغراق آشکار است، یا بهتر است بگوییم دست کم گرفتن: مطمئناً نمی توانید چهار سال با صد دلار زندگی کنید - پاهای خود را دراز خواهید کرد. اما گووزدف هنگام شروع سفر خود دقیقاً همین مقدار را در اختیار داشت. و حداقل پاها..."

"مؤسسه مدیریت، دانشگاه تحقیقاتی دانشگاه دولتی بلگورود، دانشگاه تحقیقات ملی بلگورود، فناوری‌های تشکیل امنیت تامین امنیت تشکیل استخر ذخیره پرسنل برای خدمات ایالتی و شهرداری و شهرداری چکیده: خلاصه: مقاله بحث می‌کند..."

یادداشت‌های لیدیا یانووسکایا در مورد میخائیل بولگاکوف MOSCOW “TEXT” UDC 821.161.1 BBK 84 (2Ros-Rus)6-44 Ya64 ISBN 978-5-7516-0660-2 ISBN 8-4985 ) "متن"، 2007 "BRAVO، ENCORE، PAWNSHOP!" "BRAVO، BIS، POWNSHOP!" من نمی دانم دفتر تحریریه مجله یونس امروز در مسکو کجاست. آیا چنین مجله ای هنوز وجود دارد؟ در اواسط دهه 70، این جوانترین و زیباترین تحریریه در مسکو در Sadovaya-Triumfalnaya، در مجاورت میدان مایاکوفسکی قرار داشت و فضایی کوچک اما بسیار دنج را اشغال می کرد.

"پیوست 1 فرم های درخواست برای مسابقات 2013 فرم "T". صفحه عنوان درخواست به بنیاد علوم بشردوستانه روسیه نام پروژه شماره پروژه نوع پروژه (a, c, d, e, f) حوزه دانش (کد) کد طبقه بندی بنیاد علوم بشردوستانه روسیه کد GRNTI (http://www grnti.ru/) جهت اولویت توسعه علم و فناوری و فناوری در فدراسیون روسیه، تکنولوژی بحرانی1 نام خانوادگی، نام، نام خانوادگی مدیر شماره تلفن تماس مدیر پروژه پروژه نام کامل و کوتاه سازمانی که باید از طریق آن انجام شود...”

«گزارش FNI 8/2014 اجرای سیاست‌های اقلیم و انرژی اتحادیه اروپا در لهستان: از اروپایی‌سازی تا قطبی‌سازی؟ Jon Birger Skjrseth در حال اجرای سیاست‌های اقلیم و انرژی اتحادیه اروپا در لهستان: از اروپایی‌سازی تا قطبی‌سازی؟ جان بیرگر اسکیرسث [ایمیل محافظت شده]دسامبر 2014 حق چاپ © موسسه Fridtjof Nansen 2014 عنوان اجرای سیاست‌های آب و هوا و انرژی اتحادیه اروپا در لهستان: از اروپایی‌سازی تا قطبی‌سازی؟ نوع انتشار و تعداد صفحات گزارش FNI 8/2014 57 نویسنده ISBN 978-82-7613-683-8 Jon...”

""یادداشت های علمی TOGU" جلد 6، شماره 4، 2015 ISSN 2079-8490 انتشارات علمی الکترونیکی "یادداشت های علمی TOGU" 2015، دوره 6، شماره 4، ص 173 - 178 گواهینامه 7766 El No. مورخ 05.05.2010 http://pnu.edu.ru/ru/ejournal/about/ [ایمیل محافظت شده] UDC 316.33 © 2015 I. A. Gareeva، دکترای جامعه شناسی. علوم، A. G. Kiseleva (دانشگاه دولتی اقیانوس آرام، خاباروفسک) شکل گیری سیستم های بیمه اجتماعی این مقاله شکل گیری سیستم های بیمه اجتماعی و وضعیت فعلی آن را تجزیه و تحلیل می کند.

«برنامه کنفرانس چیانگ مای، تایلند نوامبر، 2015 APCBSS کنفرانس آسیا-اقیانوسیه در زمینه علوم تجاری و اجتماعی ICEI کنفرانس بین المللی نوآوری در آموزش و پرورش APCLSE کنفرانس آسیا-اقیانوسیه در علوم و مهندسی زندگی APCBSS کنفرانس آسیا-اقیانوسیه در زمینه علوم تجاری و اجتماعی ISBN978-986- 90263-0-7 کنفرانس بین المللی ICEI در زمینه نوآوری در آموزش ISBN 978-986-5654-33-7 APCLSE کنفرانس آسیا و اقیانوسیه در زمینه علوم و مهندسی زندگی ISBN 978-986-90052-9-6 محتوای محتوا..."

وبلاگ "R: تجزیه و تحلیل داده ها و تجسم" بیش از سه سال و نیم است که وجود دارد. چند ماه پیش، این ایده به وجود آمد که پیام‌های روش‌شناختی منتشر شده در اینجا در تمام این مدت، در قالب خلاصه شود. کتاب الکترونیکی. نویسنده این ایده و متعاقباً نویسنده مشترک این کتاب، دکتر علوم زیستی ولادیمیر کیریلوویچ شیتیکوف () بود. ما خوشحالیم که نتیجه را به عنوان هدیه سال نو به شما ارائه می دهیم.

ابزار "تجزیه و تحلیل آماری و تجسم داده ها با استفاده از R"در درجه اول به دانشجویان، دانشجویان فارغ التحصیل، دانشمندان جوان و با سابقه، و همچنین تحلیلگران حرفه ای که تجربه قبلی کار با R را نداشته اند، خطاب می شود. ما با پیروی از سنت های وبلاگ، در صورت امکان سعی کردیم از سوء استفاده از "آیین" جلوگیری کنیم. عبارات مشخصه کتابهای متعدد آمار کاربردی، با استناد به قضایای معروف و استناد به فرمولهای محاسباتی چند طبقه. تأکید قبل از هر چیز بر کاربرد عملی بود - به طوری که خواننده، با هدایت آنچه می خواند، بتواند داده های خود را تجزیه و تحلیل کند. و نتایج را به همکاران ارائه دهید.کتاب شامل 9 فصل است که موضوعات زیر را در بر می گیرد:

فصل 1: مولفه های اساسی محیط آماری R
فصل 2: شرح زبان R
فصل 3: ویژگی های اصلی گرافیک R
فصل چهارم: آمار توصیفی و توزیع برازش
فصل پنجم: روش ها و معیارهای کلاسیک آمار
فصل ششم: مدل های خطی در تحلیل واریانس
فصل هفتم: مدل های رگرسیونی روابط بین متغیرهای کمی
فصل هشتم: مدل های رگرسیون تعمیم یافته، ساختاری و دیگر
فصل نهم: تحلیل فضایی و ایجاد کارتوگرام

همچنین کتابشناسی گسترده و فهرستی از منابع آنلاین مفید در R وجود دارد.

نسخه رسمی فعلی کتاب در فرمت PDF(~11 مگابایت) در دسترس برای دانلود رایگان از دو سایت:

مخزن GitHub: https://github.com/ranalytics/r-tutorials
وب سایت موسسه اکولوژی حوضه ولگا RAS: http://www.ievbras.ru/ecostat/Kiril/R/

در همان دو منبع می‌توانید اسکریپت‌های کد R و مجموعه داده‌های مورد نیاز برای بازتولید نمونه‌های مورد بحث در کتاب را بیابید.

قدردان هر یک از نظرات و پیشنهادات شما در رابطه با این کار خواهیم بود - لطفاً آنها را از طریق ایمیل rtutorialsbook["dog"]gmail.com ارسال کنید.

همانطور که در بالا ذکر شد، این کتاب کاملاً رایگان توزیع می شود. با این حال، اگر آن را مفید می‌دانید و مناسب می‌دانید از کار نویسندگان تشکر کنید، می‌توانید هر مبلغی را با استفاده از دکمه زیر انتقال دهید (کلیه تراکنش‌ها در حالت امناز طریق سیستم پرداخت الکترونیکی

خواندن:

نحوه روغن کاری کولر پردازنده، کارت گرافیک، منبع تغذیه و کامپیوتر چرا یک لپ تاپ به یک SSD کوچک نیاز دارد و آیا ارزش نصب ویندوز روی آن را دارد؟ تعمیر فلش مموری با استفاده از برنامه ها نحوه تعمیر پورت USB در لپ تاپ ساختار دیسک آسیب دیده است، خواندن غیرممکن است، چه باید بکنم؟ کامپیوتر از چه چیزی تشکیل شده است؟

خواندن: