Heim - Mobile Geräte
Methodisches Handbuch „Statistische Analyse und Visualisierung von Daten mit R.“ Methodisches Handbuch „Statistische Analyse und Visualisierung von Daten mit R“ In R gibt es eine Reihe spezieller Objekte

Kursprogramm

Elemente der Programmierung in R

  • Beschreibende Statistik und Visualisierung
  • Was ist zum Beispiel wichtiger: der durchschnittliche Scheck oder der typische Scheck?

Clusteranalyse

  • Welches Problem wird gelöst? Teilen Sie eine Gruppe von Objekten in Untergruppen auf.
  • Beispielaufgabe. Segmentierung von Websites, Identifizierung ähnlicher Websites.
  • Untersuchte Methoden. Hierarchische Clusteranalyse, K-Means-Methode, K-Medoid-Methode.

Testen statistischer Hypothesen

  • Welches Problem wird gelöst? Vergleichen Sie zwei Gruppen von Objekten.
  • Beispielaufgabe. A/B-Testing des Nutzerverhaltens auf verschiedene Versionen Seiten der Website.
  • Untersuchte Methoden. Proportionentest, Student-T-Test, Livigne-Test, Wilcoxon-Mann-Whitney-Test

Lineare Regressionsanalyse.

  • Beispielaufgabe. Schätzen Sie, wie stark die Preise für Gebrauchtwagen nach der Erhöhung der Zölle gesunken sind.
  • Untersuchte Methoden. Variablenauswahl, Kollinearität, einflussreiche Beobachtungen, Analyse von Residuen. Nichtparametrische Regression (Kernel-Glättung). Vorhersage kurzer Zeitreihen mit saisonaler Komponente mithilfe linearer Regression

Prognose

  • Welches Problem wird gelöst? Erstellen Sie eine Zeitreihenprognose
  • Beispielaufgabe. Prognostizieren Sie den Website-Verkehr für 6 Monate im Voraus.
  • Die untersuchte Methode. Exponentielle Glättung

Maschinelles Lernen (Mustererkennung)

  • Beispielaufgabe. Erkennen Sie das Geschlecht und Alter jedes Website-Besuchers
  • Untersuchte Methoden. CART-Methode (K-Nearest Neighbor Classification Trees). Zufällige Wälder. Gradientenverstärkungsmaschine

Kursnoten

Den Zuhörern wird 14 gegeben Laborarbeit. Die Benotung der Lehrveranstaltung erfolgt nach folgender Regel:

  • Ausgezeichnet – alle Arbeiten wurden angenommen;
  • Gut – alle Werke wurden angenommen, bis auf eines?;
  • Zufriedenstellend – alle Arbeiten bis auf zwei werden angenommen;
  • Unbefriedigend – in anderen Fällen.

Das ist die Laborarbeit

  • Der Zuhörer erhält einen Datensatz und eine Frage.
  • Der Zuhörer beantwortet die Frage und untermauert seine Aussagen mit Tabellen, Grafiken und einem in der R-Sprache geschriebenen Skript.
  • Der Zuhörer beantwortet zusätzliche Fragen.

Beispielfrage. Schlagen Sie Parameter vor, die den optimalen Betrieb des Random Forest-Algorithmus bei der Erkennung einer Weinmarke auf der Grundlage der Ergebnisse der chemischen Analyse gewährleisten.

Was Sie wissen müssen, um an dem Kurs teilnehmen zu können

Es wird davon ausgegangen, dass die Kursteilnehmer bereits einen Kurs in Wahrscheinlichkeitstheorie besucht haben.

Literatur

  • Shipunov, Baldin, Volkova, Korobeinikov, Nazarova, Petrov, Sufiyanov Visuelle Statistik. Mit R
  • Masticsky, Shitikov Statistische Analyse und Datenvisualisierung mit R
  • Bishop-Mustererkennung und maschinelles Lernen.
  • James, Witten, Hastie, Tibshirani. Eine Einführung in das statistische Lernen. Mit Anwendungen in R.
  • Hastie, Tibshirani, Friedman. Die Elemente des statistischen Lernens_Data Mining, Inferenz und Vorhersage 2+ed
  • Crawley. Das R-Buch.
  • Kabacoff R in Aktion. Datenanalyse und Grafiken mit R.

Lehrer

Liste der Vorträge

Einführung in R: Grundbefehle. Median, Quantile und Quartile. Histogramm. Balkendiagramm. Kreisdiagramm. Streudiagramm. Streudiagrammmatrix. Verwendung von Farbe in Grafiken. Kästchen mit Schnurrhaaren (Kastendiagramm). Typische Stichprobenbeobachtung: arithmetisches Mittel, Median oder getrimmter Mittelwert. Auswahl einer Methode zur Beschreibung eines typischen Werts, der den analysierten Daten angemessen ist. Lognormalverteilung. Ausreißer und extreme Beobachtungen.

Hierarchische Clusteranalyse. Cluster, Abstände zwischen Objekten, Abstände zwischen Clustern. Algorithmus zum Erstellen eines Dendrogramms. Geröll/Ellenbogen. Datenstandardisierung. Typische Fehler bei der Datenaufbereitung. Interpretation der Ergebnisse.

K-means-Methode. Zufallszahlensensoren, Sensorkorn. Visualisierung des k-means-Methodenalgorithmus. Methoden zur Bestimmung der Anzahl von Clustern. NbClust-Bibliothek. Geröll/Ellenbogen. Mehrdimensionale Skalierung zur Clustervisualisierung.

Testen statistischer Hypothesen. Hypothesen zur Übereinstimmung, Homogenität, Unabhängigkeit, Hypothesen zu Verteilungsparametern.

Testen statistischer Hypothesen. Fehler vom Typ I und Typ II, p-Wert und Signifikanzniveau, Algorithmus zum Testen statistischer Hypothesen und Interpretation der Ergebnisse. Hypothese der Normalverteilung. Shapiro-Wilk- und Kolmogorov-Smirnov-Tests. Unbedeutende Abweichungen von der Normalität. Vergleich von Proben. Unabhängige und gepaarte Proben. Auswahl zwischen Student-t-Test, Mann-Whitney-Wilcoxon-Test und Stimmungstest. Sorten von Student-t-Tests und Vergleich von Varianzen. Visualisierung für Vergleiche. Einseitige und zweiseitige Tests.

Testen statistischer Hypothesen. Vergleich von Proben. Unabhängige und gepaarte Proben. Auswahl zwischen Student-t-Test, Mann-Whitney-Wilcoxon-Test und Stimmungstest. Sorten von Student-t-Tests und Vergleich von Varianzen. Visualisierung für Vergleiche. Einseitige und zweiseitige Tests. Unabhängigkeit. Pearson-, Kendall- und Spearman-Korrelationskoeffizienten, typische Fehler wenn man den Zusammenhang zwischen zwei Phänomenen untersucht. Visuelle Prüfung der Befunde.

Modell der linearen Regressionsanalyse, Interpretation von Koeffizientenschätzungen, multiples Bestimmtheitsmaß. Interpretation des multiplen Bestimmtheitsmaßes, Einschränkungen seines Anwendungsbereichs. Identifizierung der wichtigsten Prädiktoren und Bewertung des Beitrags jedes Prädiktors. Algorithmen zur Anpassung der konstruierten Modelle. Kollinearität.

Lineare Regressionsanalyse: Vorhersage kurzer Zeitreihen.

Prognose basierend auf einem Regressionsmodell mit saisonalen Indikatorvariablen (Dummy, Struktur). Trend, saisonale Komponenten, Veränderung in der Art der Reihe, Ausreißer. Die Logarithmierung ist eine Technik zur Umwandlung multiplikativer Saisonalität in additive Saisonalität. Indikatorvariablen. Umschulung.

Lineare Regression – Analyse von Residuen. Verstöße gegen Modellrestriktionen des Gauß-Markov-Theorems. Rückstandsanalyse. Spezifikationsfehler. Multikollinearität, Toleranz und VIF. Überprüfung der Konstanz der Varianzen der Residuen. Korrektur von Modellen bei Abweichungen in der Verteilung der Residuen von der Normalität. Cooks Distanz und Hebelwirkung. Durbin-Watson-Statistik. Reduzierung der Anzahl saisonaler Anpassungen.

Exponentielle Glättung Holt-Winters-Methode. Lokaler Trend, lokale Saisonalität.

Terminologie: Maschinelles Lernen, Künstliche Intelligenz, Data Mining und Mustererkennung.

K-Nearest-Neighbor-Methode. Die Konsistenz der Methode. Faules Lernen (faules Lernen). Funktionsauswahl. Kreuzvalidierung. k-fache Kreuzvalidierung. Überanpassung. Trainings- und Testmuster.

Beispiele für die K-Nearest-Neighbor-Methode. Bestimmung der Anzahl der nächsten Nachbarn. Kontingenztabelle zur Bestimmung der Qualität der Methode.

CART-Klassifizierungsbäume. Geometrische Darstellung. Darstellung als Satz logischer Regeln. Baumansicht. Knoten, Eltern und Kinder, Blattknoten. Schwellenwerte. rpart-Bibliothek. Verunreinigungsmaßnahmen. Methoden zur Reinheitsmessung: Gini, Entropie, Klassifizierungsfehler. Baumlernregeln. Bibliothek rpart.plot.

Letztes Mal (im November 2014; ich schäme mich sehr, dass ich mit der Fortsetzung so lange gedauert habe!) habe ich über die grundlegenden Fähigkeiten der R-Sprache gesprochen, obwohl alle üblichen Kontrollkonstrukte wie Schleifen und bedingte Blöcke vorhanden sind. Der klassische Ansatz zur iterationsbasierten Datenverarbeitung ist weit davon entfernt beste Lösung, da Zyklen in R ungewöhnlich langsam. Jetzt erkläre ich Ihnen, wie Sie tatsächlich mit Daten arbeiten müssen, damit der Berechnungsprozess Sie nicht dazu zwingt, zu viele Tassen Kaffee zu trinken und auf das Ergebnis zu warten. Darüber hinaus werde ich etwas Zeit darauf verwenden, über die Verwendung moderner Datenvisualisierungstools in R zu sprechen. Denn die Bequemlichkeit, Datenverarbeitungsergebnisse in der Praxis zu präsentieren, ist nicht weniger wichtig als die Ergebnisse selbst. Beginnen wir mit etwas Einfachem.

Vektoroperationen

Wie wir uns erinnern, Grundtyp in R ist überhaupt keine Zahl, sondern ein Vektor, und die grundlegenden arithmetischen Operationen arbeiten Element für Element mit Vektoren:

> x<- 1:6; y <- 11:17 >x + y 12 14 16 18 20 22 18 > x > 2 FALSCH FALSCH WAHR WAHR WAHR WAHR > x * y 11 24 39 56 75 96 17 > x / y 0,09090909 0,16666667 0,23076923 0,28571429 0. 3 3333333 0,37500000 0,05882353

Hier ist alles ganz einfach, aber es ist ganz logisch, die Frage zu stellen: Was passiert, wenn die Längen der Vektoren nicht übereinstimmen? Wenn wir, sagen wir, k schreiben<- 2, то будет ли x * k соответствовать умножению вектора на число в математическом смысле? Короткий ответ - да. В более общем случае, когда длина векторов не совпадает, меньший вектор просто продолжается повторением:

>z<- c(1, 0.5) >x * z 1 1 3 2 5 3

Bei Matrizen verhält es sich ungefähr gleich.

>x<- matrix(1:4, 2, 2); y <- matrix(rep(2,4), 2, 2) >x * y [,1] [,2] 2 6 4 8 > x / y [,1] [,2] 0,5 1,5 1,0 2,0

In diesem Fall sieht die „normale“ und nicht bitweise Matrixmultiplikation folgendermaßen aus:

> x %*% y [,1] [,2] 8 8 12 12

Das alles ist natürlich sehr gut, aber was machen wir, wenn wir unsere eigenen Funktionen auf die Elemente von Vektoren oder Matrizen anwenden müssen, d. h. wie geht das ohne Schleife? Der Ansatz, den R zur Lösung dieses Problems verwendet, ist dem, was wir von funktionalen Sprachen gewohnt sind, sehr ähnlich – er erinnert an die Map-Funktion in Python oder Haskell.

Nützliche Funktion lapply und seine Freunde

Die erste Funktion in dieser Familie ist lapply. Es ermöglicht Ihnen, eine bestimmte Funktion auf jedes Element einer Liste oder eines Vektors anzuwenden. Darüber hinaus ist das Ergebnis unabhängig von der Art des Arguments genau die Liste. Das einfachste Beispiel mit Lambda-Funktionen:

>q<- lapply(c(1,2,4), function(x) x^2) >q 1 4 16

Wenn die Funktion, die Sie auf eine Liste oder einen Vektor anwenden möchten, mehr als ein Argument erfordert, können diese Argumente über lapply übergeben werden.

>q<- lapply(c(1,2,4), function(x, y) x^2 + y, 3)

Die Funktion funktioniert ähnlich mit einer Liste:

>x<- list(a=rnorm(10), b=1:10) >lapply(x, Mittelwert)

Hier gibt die Funktion rnorm die Normalverteilung an (in diesem Fall zehn normalverteilte Zahlen im Bereich von 0 bis 1) und „mean“ berechnet den Durchschnittswert. Die Funktion sapply ist genau die gleiche wie die Funktion lapply, außer dass sie versucht, das Ergebnis zu vereinfachen. Wenn beispielsweise jedes Element einer Liste die Länge 1 hat, wird anstelle einer Liste ein Vektor zurückgegeben:

> sapply(c(1,2,4), function(x) x^2) 1 4 16

Wenn das Ergebnis eine Liste von Vektoren gleicher Länge ist, gibt die Funktion eine Matrix zurück, aber wenn nichts klar ist, dann nur eine Liste, wie lapply.

>x<- list(1:4, 5:8) >sapply(x, function(x) x^2) [,1] [,2] 1 25 4 36 9 49 16 64

Um mit Matrizen zu arbeiten, ist es praktisch, die Apply-Funktion zu verwenden:

>x<- matrix(rnorm(50), 5, 10) >apply(x, 2, mean) > apply(x, 1, sum)

Hier erstellen wir zunächst eine Matrix aus fünf Zeilen und zehn Spalten, berechnen dann zunächst den Durchschnitt über die Spalten und dann die Summe in den Zeilen. Um das Bild zu vervollständigen, sollte angemerkt werden, dass die Aufgabe, den Durchschnitt und die Summe von Zeilen zu berechnen, so häufig vorkommt, dass R für diesen Zweck spezielle Funktionen bereitstellt: rowSums, rowMeans, colSums und colMeans.
Die Apply-Funktion kann auch für mehrdimensionale Arrays verwendet werden:

> arr<- array(rnorm(2 * 2 * 10), c(2, 2, 10)) >apply(arr, c(1,2), Mittelwert)

Der letzte Aufruf kann durch eine besser lesbare Option ersetzt werden:

> rowMeans(arr, dim = 2)

Kommen wir zur Mapply-Funktion, die ein mehrdimensionales Analogon von Lapply ist. Beginnen wir mit einem einfachen Beispiel, das direkt in der Standard-R-Dokumentation zu finden ist:

> mapply(rep, 1:4, 4:1) 1 1 1 1 2 2 2 3 3 4

Wie Sie sehen, wird hier die rep-Funktion auf eine Reihe von Parametern angewendet, die aus zwei Sequenzen generiert werden. Die rep-Funktion selbst wiederholt einfach das erste Argument so oft, wie es als zweites Argument angegeben ist. Der vorherige Code entspricht also einfach dem Folgenden:

> list(rep(1,4), rep(2,3), rep(3,2), rep(4,1))

Manchmal ist es notwendig, eine Funktion auf einen Teil eines Arrays anzuwenden. Dies kann mit der Tapply-Funktion erfolgen. Schauen wir uns das folgende Beispiel an:

>x<- c(rnorm(10, 1), runif(10), rnorm(10,2)) >F<- gl(3,10) >tapply(x,f,mean)

Zuerst erstellen wir einen Vektor, dessen Teile aus Zufallsvariablen mit unterschiedlichen Verteilungen gebildet werden, dann generieren wir einen Vektor von Faktoren, der nichts weiter als zehn Einsen, dann zehn Zweien und ebenso viele Dreien ist. Dann berechnen wir den Durchschnitt für die entsprechenden Gruppen. Die Tapply-Funktion versucht standardmäßig, das Ergebnis zu vereinfachen. Diese Option kann durch Angabe von simply=FALSE als Parameter deaktiviert werden.

> tapply(x, f, range,simplify=FALSE)

Wenn von den Apply-Funktionen die Rede ist, spricht man normalerweise auch von der Split-Funktion, die einen Vektor in Teile aufteilt, ähnlich wie bei tapply . Wenn wir also split(x, f) aufrufen, erhalten wir eine Liste mit drei Vektoren. Das lapply/split-Paar funktioniert also genauso wie tapply, wobei der Vereinfachungswert auf FALSE gesetzt ist:

> lapply(split(x, f), Mittelwert)

Die Split-Funktion ist über die Arbeit mit Vektoren hinaus nützlich: Sie kann auch für die Arbeit mit Datenrahmen verwendet werden. Betrachten Sie das folgende Beispiel (ich habe es aus dem R-Programmierkurs auf Coursera ausgeliehen):

> Bibliothek(Datensätze) > Kopf(Luftqualität) Ozon Solar.R Windtemperatur Monat Tag 1 41 190 7,4 67 5 1 2 36 118 8,0 72 5 2 3 12 149 12,6 74 5 3 4 18 313 11,5 62 5 4 5 NA NA 14,3 56 5 5 6 28 NA 14,9 66 5 6 > s<- split(airquality, airquality$Month) >lapply(s, function(x) colMeans(x[, c("Ozone", "Solar.R", "Wind")]))

Hier arbeiten wir mit einem Datensatz, der Informationen über die Luftbedingungen (Ozon, Sonneneinstrahlung, Wind, Temperatur in Fahrenheit, Monat und Tag) enthält. Wir können ganz einfach Monatsdurchschnitte melden, indem wir Split und Lapply verwenden, wie im Code gezeigt. Wenn wir jedoch sapply verwenden, erhalten wir das Ergebnis in einer bequemeren Form:

> sapply(s, function(x) colMeans(x[, c("Ozone", "Solar.R", "Wind")])) 5 6 7 8 9 Ozon NA NA NA NA NA Solar.R NA 190.16667 216.483871 NA 167,4333 Wind 11,62258 10,26667 8,941935 8,793548 10,1800

Wie Sie sehen, sind einige Werte nicht definiert (und dafür wird der reservierte Wert NA verwendet). Dies bedeutet, dass einige (mindestens ein) Werte in den Spalten Ozone und Solar.R ebenfalls undefiniert waren. In diesem Sinne verhält sich die Funktion colMeans völlig korrekt: Wenn es undefinierte Werte gibt, dann ist der Durchschnitt undefiniert. Das Problem kann gelöst werden, indem die Funktion mithilfe des Parameters na.rm=TRUE gezwungen wird, NA-Werte zu ignorieren:

> sapply(s, function(x) colMeans(x[, c("Ozone", "Solar.R", "Wind")], na.rm=TRUE)) 5 6 7 8 9 Ozon 23.61538 29.44444 59.115385 59.961538 31.44828 Solar.R 181,29630 190,16667 216,483871 171,857143 167,43333 Wind 11,62258 10,26667 8,941935 8,793548 10,18000

Warum braucht man so viele Funktionen, um sehr ähnliche Probleme zu lösen? Ich denke, diese Frage wird sich jeder Zweite stellen, der das alles gelesen hat. Alle diese Funktionen versuchen tatsächlich, das Problem der Verarbeitung von Vektordaten ohne Verwendung von Schleifen zu lösen. Aber es ist eine Sache, eine hohe Dzu erreichen, und eine ganz andere, zumindest einen Teil der Flexibilität und Kontrolle zu erlangen, die Kontrollkonstrukte wie Schleifen und bedingte Anweisungen bieten.

Datenvisualisierung

Das R-System ist unglaublich reich an Datenvisualisierungstools. Und hier stehe ich vor einer schwierigen Entscheidung – worüber ich sprechen soll, wenn die Fläche so groß ist. Wenn es bei der Programmierung einen Grundsatz an Funktionen gibt, ohne den nichts geht, dann gibt es bei der Visualisierung eine Vielzahl unterschiedlicher Aufgaben, von denen jede (in der Regel) auf verschiedene Arten gelöst werden kann was seine eigenen Vor- und Nachteile hat. Darüber hinaus gibt es immer viele Optionen und Pakete, mit denen Sie diese Probleme auf unterschiedliche Weise lösen können.
Um StandardmittelÜber Visualisierung in R wurde schon viel geschrieben, daher möchte ich hier über etwas Interessanteres sprechen. In den letzten Jahren erfreut sich das Paket immer größerer Beliebtheit ggplot2, also lasst uns über ihn reden.

Um mit ggplot2 arbeiten zu können, müssen Sie die Bibliothek mit dem Befehl install.package("ggplot2") installieren. Als nächstes verbinden wir es zur Verwendung:

> Bibliothek("ggplot2") > Kopf (Diamanten) Karatschliff Farbe Klarheit Tiefentabelle Preis x y z 1 0,23 Ideal E SI2 61,5 55 326 3,95 3,98 2,43 2 0,21 Premium E SI1 59,8 61 326 3,89 3,84 2,31 3 0,23 Gut E VS1 56, 9 65 327 4,05 4,07 2,31 4 0,29 Premium I VS2 62,4 58 334 4,20 4,23 2,63 5 0,31 Gut J SI2 63,3 58 335 4,34 4,35 2,75 6 0,24 Sehr gut J VVS2 62,8 57. 3 36 3,9 4 3,96 2,48 > Kopf (mtcars) mpg cyl disp hp drat Gewicht qsec vs. Getriebevergaser Mazda RX4 21,0 6 160 110 3,90 2,620 16,46 0 1 4 4 Mazda RX4 Wag 21,0 6 160 110 3,90 2,875 17,02 0 1 4 4 Datsun 710 22,8 4 108 93. 3,8 5 2. 320 18,61 1 1 4 1 Hornet 4 Antrieb 21,4 6 258 110 3,08 3,215 19,44 1 0 3 1 Hornet Sportabout 18,7 8 360 175 3,15 3,440 17,02 0 0 3 2 Valiant 18,1 6 225 105 2,76 3,460 20,22 1 0 3 1

Die Diamonds- und Mtcars-Daten sind Teil des ggplot2-Pakets und mit ihnen werden wir jetzt arbeiten. Beim ersten ist alles klar – es handelt sich um Daten über Diamanten (Reinheit, Farbe, Kosten usw.), und beim zweiten Satz handelt es sich um Daten aus Straßentests (Anzahl der Meilen pro Gallone, Anzahl der Zylinder …) der produzierten Autos 1973–1974 aus der amerikanischen Zeitschrift Motor Trends. Ausführlichere Informationen zu den Daten (z. B. Dimensionalität) erhalten Sie durch Eingabe von ?diamonds oder ?mtcars .

Zur Visualisierung stellt das Paket viele Funktionen bereit, von denen qplot für uns jetzt die wichtigste sein wird. Mit der ggplot-Funktion haben Sie deutlich mehr Kontrolle über den Prozess. Alles, was mit qplot möglich ist, kann auch mit ggplot erledigt werden. Schauen wir uns das an einfaches Beispiel:

> qplot(clarity, data=diamonds, fill=cut, geom="bar")

Der gleiche Effekt kann mit der ggplot-Funktion erzielt werden:

> ggplot(diamonds, aes(clarity, fill=cut)) + geom_bar()

Der Aufruf von qplot sieht jedoch einfacher aus. In Abb. In Abb. 1 sehen Sie, wie die Abhängigkeit der Anzahl der Diamanten mit unterschiedlicher Schliffqualität von der Reinheit aufgetragen ist.

Lassen Sie uns nun die Abhängigkeit der Kilometerleistung pro Kraftstoffeinheit von Autos von ihrer Masse darstellen. Das resultierende Streudiagramm (oder Streudiagramm). Streudiagramm) vorgestellt
in Abb. 2.

> qplot(wt, mpg, data=mtcars)

Sie können auch eine Farbanzeige der Viertelmeile-Beschleunigungszeit (qsec) hinzufügen:

> qplot(wt, mpg, data=mtcars, color=qsec)

Bei der Visualisierung können Sie Daten auch transformieren:

> qplot(log(wt), mpg - 10, data=mtcars)

In manchen Fällen erscheinen diskrete Farbunterteilungen repräsentativer als kontinuierliche. Wenn wir beispielsweise Informationen über die Anzahl der Zylinder anstelle der Beschleunigungszeit in Farbe anzeigen möchten, müssen wir angeben, dass der Wert diskreter Natur ist (Abb. 3):

> qplot(wt, mpg, data=mtcars, color=factor(cyl))

Sie können die Größe der Punkte auch ändern, indem Sie beispielsweise size=3 verwenden. Wenn Sie Diagramme auf einem Schwarzweißdrucker ausdrucken möchten, ist es besser, keine Farben zu verwenden, sondern die Form der Markierung je nach Faktor zu ändern. Dies kann durch Ersetzen von color=factor(cyl) durch shape=factor(cyl) erfolgen.
Der Diagrammtyp wird mithilfe des Parameters geom angegeben. Bei Streudiagrammen lautet der Wert dieses Parameters „points“ .

Nehmen wir nun an, wir möchten einfach ein Histogramm der Anzahl der Autos mit dem entsprechenden Zylinderwert erstellen:

> qplot(factor(cyl), data=mtcars, geom="bar") > qplot(factor(cyl), data=mtcars, geom="bar", color=factor(cyl)) > qplot(factor(cyl) , data=mtcars, geom="bar", fill=factor(cyl))

Der erste Aufruf zeichnet einfach drei Histogramme für verschiedene Zylinderwerte. Es muss gesagt werden, dass der erste Versuch, dem Histogramm Farbe hinzuzufügen, nicht zum erwarteten Ergebnis führt – die schwarzen Balken werden immer noch schwarz sein, aber nur einen farbigen Umriss haben. Aber der letzte Aufruf von qplot erzeugt ein schönes Histogramm, wie in Abb. 4.

Hier sollten wir uns im Klaren sein. Tatsache ist, dass das aktuelle Objekt, das wir erstellt haben, kein Histogramm im engeren Sinne des Wortes ist. Typischerweise ist ein Histogramm eine ähnliche Anzeige für kontinuierliche Daten. IN Englisch Balkendiagramm(das haben wir gerade gemacht) und Histogramm- das sind zwei unterschiedliche Konzepte (siehe die entsprechenden Artikel auf Wikipedia). Hier werde ich mit einiger Deutlichkeit das Wort „Histogramm“ für beide Konzepte verwenden, da ich davon überzeugt bin, dass die Natur der Daten für sich selbst spricht.

Kehren wir zu Abb. zurück. 1, dann bietet ggplot2 mehrere nützliche Optionen zum Positionieren von Plots (der Standardwert ist position="stack"):

> qplot(clarity, data=diamonds, geom="bar", fill=cut, position="dodge") > qplot(clarity, data=diamonds, geom="bar", fill=cut, position="fill") > qplot(clarity, data=diamonds, geom="bar", fill=cut, position="identity")

Bei der ersten der vorgeschlagenen Optionen werden Diagramme nebeneinander dargestellt, wie in Abb. In Abb. 5 zeigt die zweite die Anteile von Diamanten unterschiedlicher Schliffqualität an der Gesamtzahl der Diamanten einer bestimmten Reinheit (Abb. 6).

Schauen wir uns nun ein Beispiel eines echten Histogramms an:

> qplot(Karat, Daten=Diamanten, Geom="Histogramm", Bandbreite=0,1) > qplot(Karat, Daten=Diamanten, Geom="Histogramm", Bandbreite=0,05)

Hier zeigt der Bandbreitenparameter lediglich an, wie breit das Band im Histogramm ist. Ein Histogramm zeigt, wie viele Daten in welchem ​​Bereich liegen. Die Ergebnisse sind in Abb. dargestellt. 7 und 8.

Wenn wir manchmal ein Modell zeichnen müssen (linear oder sagen wir Polynom), können wir dies direkt in qplot tun und das Ergebnis sehen. Beispielsweise können wir mpg vs. Massengewicht direkt über dem Streudiagramm darstellen:

> qplot(wt, mpg, data=mtcars, geom=c("point", "smooth"))

Als Modell wird standardmäßig die lokale Polynomregression (method="loess") verwendet. Das Ergebnis der Arbeit sieht wie in Abb. 9, wobei der dunkelgraue Balken den Standardfehler darstellt. Es wird standardmäßig angezeigt. Sie können es deaktivieren, indem Sie se=FALSE schreiben.

Wenn wir versuchen möchten, ein lineares Modell an diese Daten anzupassen, kann dies einfach durch die Angabe von method=lm erfolgen (Abb. 10).

Und zum Schluss müssen wir natürlich zeigen, wie man Kreisdiagramme erstellt:

>t<- ggplot(mtcars, aes(x=factor(1), fill=factor(cyl))) + geom_bar(width=1) >t + coord_polar(theta="y")

Hier verwenden wir die flexiblere ggplot-Funktion. Das funktioniert so: Zuerst erstellen wir ein Diagramm, das die Anteile von Autos mit unterschiedlicher Zylinderzahl an der Gesamtmasse zeigt (Abb. 11), dann konvertieren wir das Diagramm in Polarkoordinaten (Abb. 12).

Statt einer Schlussfolgerung

Jetzt sind wir mit R vertraut. Was kommt als nächstes? Es ist klar, dass hier die grundlegendsten Funktionen von ggplot2 vorgestellt und Fragen im Zusammenhang mit der Vektorisierung besprochen werden. Es gibt mehrere gute Bücher über R, die es wert sind, erwähnt zu werden, und es lohnt sich sicherlich, sie häufiger zu konsultieren als die Dienste eines Unternehmens von sehr aufdringlicher Güte. Erstens ist dies das Buch von Norman Matloff (Norman Matloff) The Art of R Programming. Wenn Sie bereits Erfahrung in der Programmierung in R haben, ist The R Inferno von P. Burns hilfreich für Sie. Auch das klassische Buch „Software for Data Analysis“ von John Chambers ist durchaus passend.

Wenn wir über Visualisierung in R sprechen, dann gibt es ein gutes Buch „R Graphics Cookbook“ von W. Chang (Winston Chang). Die Beispiele für ggplot2 in diesem Artikel stammen aus dem Tutorial: ggplot2. Wir sehen uns im nächsten Artikel: Datenanalyse und maschinelles Lernen in R!

„STATISTISCHE ANALYSE UND VISUALISIERUNG VON DATEN UNTER VERWENDUNG VON R Graswurzelfruchtlaub Heidelberg – London – Toljatti 2014, …“

-- [ Seite 1 ] --

S.E. Mastitsky, V.K. Shitikov

STATISTISCHE ANALYSE UND

VISUALISIERUNG VON DATEN MIT R

Graswurzeln Früchte Laub

Heidelberg – London – Toljatti

2014, Sergey Eduardovich Mastitsky, Vladimir Kirillovich Shitikov

Website: http://r-analytics.blogspot.com

Dieses Werk wird unter der Lizenz vertrieben

Creative Commons-Namensnennung – nicht kommerziell

Einsatz – unter gleichen Bedingungen 4.0 Weltweit.“ Unter dieser Lizenz dürfen Sie dieses Werk frei kopieren, verbreiten und ändern, vorausgesetzt, Sie geben die Autoren und die Quelle genau an. Wenn Sie dieses Werk verändern oder in Ihren eigenen Werken verwenden, dürfen Sie das Ergebnis nur unter derselben oder einer ähnlichen Lizenz verbreiten. Es ist untersagt, dieses Werk ohne Genehmigung der Autoren für kommerzielle Zwecke zu nutzen. Weitere Informationen zur Lizenz finden Sie unter www.creativecommons.com

Bitte zitieren Sie dieses Buch wie folgt:

Mastitsky S.E., Shitikov V.K. (2014) Statistische Analyse und Datenvisualisierung mit R.

– Elektronisches Buch, Zugangsadresse:

http://r-analytics.blogspot.com

VORWORT 5

1. HAUPTKOMPONENTEN DER STATISTISCHEN UMGEBUNG R 8


1.1. Entstehungsgeschichte und Grundprinzipien der Organisation 8 der R-Umgebung

1.2. Arbeiten mit Befehlskonsole Schnittstelle R 11

1.3. Arbeiten mit R Commander 13-Menüs

1.4. Objekte, Pakete, Funktionen, Geräte 17

2. SPRACHBESCHREIBUNG R 23

2.1. R 23 Datentypen

2.2. Vektoren und Matrizen 24

2.3. Faktoren 29

2.4. Listen und Tabellen 31

2.5. Daten in R 37 importieren

2.6. Darstellung von Datum und Uhrzeit; Zeitreihe 40

2.7. Organisation der Berechnungen: Funktionen, Zweige, Schleifen 46

2.8. Vektorisierte Berechnungen in R mit Apply-50-Funktionen

3. GRUNDLEGENDE GRAFIKFUNKTIONEN R 58

3.1. Scatterplots plot() und Grafikoptionen 58 Funktionen

3.2. Histogramme, Kernel-Dichtefunktionen und cdplot()-Funktion 66

3.3. Reichweitendiagramme 74

3.4. Kreis- und Balkendiagramme 77

3.5. Cleveland-Diagramme und eindimensionale Streudiagramme 84

4. BESCHREIBENDE STATISTIK UND FIT 97

VERTEILUNG

–  –  –

VORWORT

Eines der wichtigsten Werkzeuge zum Verständnis der Welt ist die Verarbeitung von Daten, die eine Person aus verschiedenen Quellen erhält. Das Wesen der modernen statistischen Analyse ist ein interaktiver Prozess, der aus der Erkundung, Visualisierung und Interpretation eingehender Informationsflüsse besteht.

Die Geschichte der letzten 50 Jahre ist auch die Geschichte der Entwicklung der Datenanalysetechnologie.

Einer der Autoren erinnert sich gerne an das Ende der 60er Jahre und sein erstes Programm zur Berechnung der Paarkorrelation, das mit Metallstiften auf dem „Arbeitsfeld“ von 150 Zellen des über 200 kg schweren Personalcomputers „Promin-2“ getippt wurde.

Heutzutage sind Hochleistungscomputer erschwinglich Software ermöglichen Ihnen die Implementierung eines vollständigen Zyklus des Informationstechnologieprozesses, der im Allgemeinen aus den folgenden Schritten besteht:

° Zugriff auf verarbeitete Daten (Herunterladen aus verschiedenen Quellen und Zusammenstellen einer Reihe miteinander verbundener Quelltabellen);

° Bearbeiten geladener Indikatoren (Ersetzen oder Entfernen fehlender Werte, Konvertieren von Merkmalen in eine praktischere Form);

° Daten mit Anmerkungen versehen (um sich daran zu erinnern, was die einzelnen Daten darstellen);

° Empfangen allgemeine Informationenüber die Struktur der Daten (Berechnung deskriptiver Statistiken zur Charakterisierung der analysierten Indikatoren);

° grafische Darstellung Daten- und Berechnungsergebnisse in einer klaren, informativen Form (ein Bild sagt tatsächlich manchmal mehr als tausend Worte);

° Datenmodellierung (Abhängigkeiten finden und statistische Hypothesen testen);

° Präsentation der Ergebnisse (Erstellung von Tabellen und Diagrammen in akzeptabler Publikationsqualität).

In einer Umgebung, in der dem Benutzer Dutzende von Anwendungssoftwarepaketen zur Verfügung stehen, ist das Problem der Wahl (manchmal tragisch, wenn wir uns an „Buridans Esel“ erinnern) relevant: Welche Datenanalysesoftware sollte für Ihre praktische Arbeit bevorzugt werden? Hierbei werden in der Regel die Besonderheiten des zu lösenden Problems, die Effizienz der Einrichtung von Verarbeitungsalgorithmen, die Kosten für den Kauf von Programmen sowie der Geschmack und die persönlichen Vorlieben des Analysten berücksichtigt. Gleichzeitig kann beispielsweise die Vorlage Statistica mit ihren mechanischen Menütasten einen kreativen Forscher, der den Fortschritt des Rechenprozesses lieber unabhängig steuern möchte, nicht immer zufriedenstellen. Kombinieren verschiedene Arten Analyse, haben Zugriff auf Zwischenergebnisse, verwalten den Stil der Datenanzeige, fügen eigene Erweiterungen von Softwaremodulen hinzu und erstellen Abschlussberichte in der erforderlichen Form, ermöglichen kommerzielle Computersysteme, die hochentwickelte Befehlssprachentools wie Matlab, SPSS enthalten usw. Eine hervorragende Alternative dazu ist freie Software. Die R-Umgebung ist eine moderne und sich ständig weiterentwickelnde Allzweck-Statistikplattform.



Heute ist R unangefochtener Spitzenreiter unter den frei verteilten statistischen Analysesystemen, was sich beispielsweise daran zeigt, dass das R-System 2010 den jährlichen Open-Software-Wettbewerb Bossie Awards in mehreren Kategorien gewann. Führende Universitäten der Welt, Analysten großer Unternehmen und Forschungszentren nutzen R ständig, wenn sie wissenschaftliche und technische Berechnungen durchführen und große Informationsprojekte erstellen. Der weit verbreitete Statistikunterricht auf der Grundlage von Paketen dieser Umgebung und die volle Unterstützung der wissenschaftlichen Gemeinschaft haben dazu geführt, dass die Reduzierung von R-Skripten allmählich zu einem allgemein akzeptierten „Standard“ sowohl in Zeitschriftenpublikationen als auch in der informellen Kommunikation zwischen Wissenschaftlern wird die Welt.

Das Haupthindernis für russischsprachige Benutzer bei der Beherrschung von R besteht natürlich darin, dass fast die gesamte Dokumentation zu dieser Umgebung auf Englisch vorliegt. Erst seit 2008, durch die Bemühungen von A.V. Shipunova, E.M. Baldina, S.V. Petrova, I.S. Zaryadova, A.G. Buchowez und andere Enthusiasten, methodische Handbücher und Bücher erschienen auf Russisch (Links zu ihnen finden Sie in der Referenzliste am Ende dieses Buches; es gibt auch Links zu Bildungsressourcen, deren Autoren einen sinnvollen Beitrag zur Förderung leisten). von R unter russischsprachigen Benutzern).

Dieses Handbuch fasst eine Reihe methodischer Botschaften zusammen, die einer der Autoren seit 2011 im Blog „R: Datenanalyse und Visualisierung“ veröffentlicht hat.

(http://r-analytics.blogspot.com). Wir hielten es für ratsam, das gesamte etwas unzusammenhängende Material zur Vereinfachung für die Leser in konzentrierter Form darzustellen und einige Abschnitte zur Vervollständigung der Darstellung zu erweitern.

Die ersten drei Kapitel enthalten detaillierte Anweisungen zum Arbeiten mit den interaktiven Komponenten von R, eine detaillierte Beschreibung der Sprache und die grundlegenden grafischen Fähigkeiten der Umgebung.

Dieser Teil des Buches ist für Programmierneulinge leicht zugänglich, obwohl Leser, die bereits mit der R-Sprache vertraut sind, dort möglicherweise interessante Codeschnipsel finden oder die bereitgestellten Beschreibungen der grafischen Parameter als Referenz verwenden können.

Die folgenden Kapitel (4-8) enthalten eine Beschreibung gängiger Verfahren zur Datenverarbeitung und Erstellung statistischer Modelle, die anhand mehrerer Dutzend Beispiele veranschaulicht wird. Dazu gehören kurze Beschreibung Analysealgorithmen, die wichtigsten erzielten Ergebnisse und ihre mögliche Interpretation. Wir haben versucht, den Missbrauch „ritueller“ Phrasen, die für zahlreiche Handbücher zur angewandten Statistik typisch sind, nach Möglichkeit zu vermeiden, indem wir bekannte Theoreme und mehrstöckige Berechnungsformeln zitierten. Der Schwerpunkt lag zunächst auf der praktischen Anwendung – damit der Leser, angeleitet durch das Gelesene, seine Daten analysieren und die Ergebnisse den Kollegen präsentieren konnte.

Die Abschnitte dieses Teils sind entsprechend der Komplexität des präsentierten Materials aufgebaut.

Die Kapitel 4 und 5 richten sich an Leser, die sich für Statistik nur im Rahmen eines einführenden Universitätskurses interessieren. Die Kapitel 6 und 7 stellen im Rahmen der einheitlichen Theorie allgemeiner linearer Modelle Varianz- und Regressionsanalysen vor und stellen verschiedene Algorithmen für die Untersuchung und strukturelle Identifizierung von Modellen bereit. Kapitel 8 ist einigen modernen Methoden zur Konstruktion und Analyse verallgemeinerter Regressionsmodelle gewidmet.

Da die räumliche Analyse und die Darstellung der Ergebnisse auf geografischen Karten und Diagrammen für den Forscher von ständigem Interesse sind, werden in Kapitel 9 einige Beispiele für solche Visualisierungstechniken vorgestellt.

Wir richten uns mit unserem Handbuch an Studenten, Doktoranden sowie junge und etablierte Wissenschaftler, die die Datenanalyse und -visualisierung mithilfe der R-Umgebung beherrschen möchten. Wir hoffen, dass Sie am Ende der Lektüre dieses Handbuchs ein gewisses Verständnis dafür haben, wie R funktioniert. Hier erhalten Sie weitere Informationen sowie die Bewältigung einfacher und komplexer Datenanalyseaufgaben.

Dateien mit R-Code-Skripten für alle Kapitel des Buches sowie die für deren Ausführung erforderlichen Quelldatentabellen stehen im GitHub-Repository https://github.com/ranalytics/r-tutorials kostenlos zum Download zur Verfügung von der Website des Instituts für Ökologie des Wolga-Beckens RAS Link http://www.ievbras.ru/ecostat/Kiril/R/Scripts.zip.

Es ist zu beachten, dass der Text in diesem Handbuch in der Autorenausgabe vorliegt und daher trotz aller unserer Bemühungen die Möglichkeit besteht, dass er Tippfehler, grammatikalische Ungenauigkeiten und unglückliche Formulierungen enthält. Für die Meldung dieser sowie weiterer festgestellter Mängel sind wir Ihnen, lieber Leser, dankbar E-Mail [email protected]. Auch für weitere Kommentare und Anregungen zu dieser Arbeit sind wir Ihnen dankbar.

–  –  –

1. HAUPTKOMPONENTEN DER STATISTISCHEN UMGEBUNG R

1.1. Entstehungsgeschichte und Grundprinzipien der Organisation der R-Umgebung Das System der statistischen Analyse und Datenvisualisierung R besteht aus folgenden Hauptteilen:

° Hochrangige Programmiersprache R, die es einer Zeile ermöglicht, verschiedene Operationen mit Objekten, Vektoren, Matrizen, Listen usw. zu implementieren;

° eine große Menge an Datenverarbeitungsfunktionen, die in separaten Paketen zusammengefasst sind;

° ein entwickeltes Unterstützungssystem, einschließlich der Aktualisierung der Umgebungskomponenten, interaktiver Hilfe und verschiedener Bildungsressourcen, die sowohl für das anfängliche Studium von R als auch für nachfolgende Konsultationen zu aufkommenden Schwierigkeiten konzipiert sind.

Der Beginn der Reise geht auf das Jahr 1993 zurück, als die beiden jungen neuseeländischen Wissenschaftler Ross Ihaka und Robert Gentleman ihre Neuentwicklung ankündigten, die sie R nannten. Sie basierten auf der Programmiersprache des entwickelten kommerziellen statistischen Datenverarbeitungssystems S-PLUS und schuf seine kostenlose, kostenlose Implementierung, die sich von ihrem Vorgänger durch ihre leicht erweiterbare modulare Architektur unterscheidet. Bald entstand ein verteiltes System zum Speichern und Verteilen von Paketen für R, bekannt unter der Abkürzung „CRAN“ (Comprehensive R Archive Network – http://cran.r-project.org), die Hauptidee der Organisation Dazu gehört die ständige Erweiterung, gemeinsame Erprobung und betriebliche Verbreitung der eingesetzten Datenverarbeitungswerkzeuge.

Es stellte sich heraus, dass sich ein solches Produkt kontinuierlicher und gut koordinierter Bemühungen der mächtigen „kollektiven Intelligenz“ Tausender selbstloser intellektueller Entwickler als viel effektiver erwies als kommerzielle Statistikprogramme, deren Lizenzkosten mehrere Tausend betragen können Dollar. Da R die Lieblingssprache professioneller Statistiker ist, stehen R-Benutzern auf der ganzen Welt schnell die neuesten Fortschritte in der Statistikwissenschaft in Form zusätzlicher Bibliotheken zur Verfügung. Kein kommerzielles statistisches Analysesystem entwickelt sich heute so schnell. R verfügt über ein großes Heer von Benutzern, die die Autoren weiterer Bibliotheken und das R-System selbst über erkannte Fehler informieren, die umgehend behoben werden.

Die Berechnungssprache R erfordert zwar einige Anstrengungen zur Beherrschung, bemerkenswerte Suchfähigkeiten und ein enzyklopädisches Gedächtnis, ermöglicht es Ihnen jedoch, schnell Berechnungen durchzuführen, die in ihrer Vielfalt praktisch „so unerschöpflich wie ein Atom“ sind. Bis Juli 2014 haben Enthusiasten aus aller Welt 6.739 zusätzliche Bibliotheken für R geschrieben, darunter 137.506 Funktionen (siehe

http://www.rdocumentation.org), die die Grundfunktionen des Systems deutlich erweitern. Es ist sehr schwer, sich irgendeine Klasse vorzustellen statistische Methoden, das heute noch nicht in Form von R-Paketen implementiert ist, einschließlich natürlich des gesamten „Gentleman-Sets“: lineare und verallgemeinerte lineare Modelle, nichtlineare Regressionsmodelle, experimentelles Design, Zeitreihenanalyse, klassische parametrische und nichtparametrische Tests, Bayesianische Statistik, Clusteranalyse und Glättungsmethoden. Mit Hilfe leistungsstarker Visualisierungstools können die Ergebnisse der Analyse in Form verschiedener Grafiken und Diagramme zusammengefasst werden. Zusätzlich zur traditionellen Statistik umfasst die entwickelte Funktionalität einen großen Satz numerischer mathematischer Algorithmen, Optimierungsmethoden und Lösungen Differentialgleichungen, Mustererkennung usw. Genetiker und Soziologen, Linguisten und Psychologen, Chemiker und Ärzte sowie Spezialisten für GIS und Webtechnologien können in R-Paketen ihre eigenen spezifischen Methoden der Datenverarbeitung entdecken.

Die „proprietäre“ Dokumentation für R ist sehr umfangreich und nicht immer gut geschrieben (in der seltsamen Tradition der englischsprachigen Literatur werden zu viele Worte für die Beschreibung trivialer Wahrheiten verwendet). wichtige Punkte Muster durchlaufen). Darüber hinaus haben jedoch weltweit führende Verlage (Springer, Cambridge University Press und Chapman & Hall / CRC) oder einfach einzelne Teams von Enthusiasten eine große Anzahl von Büchern veröffentlicht, die verschiedene Aspekte der Datenanalyse in R beschreiben (siehe z. B , das Literaturverzeichnis auf der Website „Encyclopedia of Psychodiagnostics“, http://psylab.info/R:Literature). Darüber hinaus gibt es mehrere aktive internationale und russische R-Benutzerforen, in denen jeder um Hilfe bei einem Problem bitten kann. In der Bibliographie listen wir einige Hundert Bücher und Internet-Links auf, denen wir beim Erlernen von R besondere Aufmerksamkeit schenken sollten.

Die direkte Ausbildung in der praktischen Arbeit in R besteht aus a) der Beherrschung der Konstrukte der R-Sprache und dem Kennenlernen der Funktionen zum Aufrufen von Funktionen zur Datenanalyse und b) dem Erwerb von Fähigkeiten im Umgang mit Programmen, die bestimmte Methoden der Datenanalyse und -visualisierung implementieren .

Die Wahl der R-Benutzeroberflächen-Tools ist umstritten und hängt stark vom Benutzergeschmack ab. Selbst maßgebliche Experten sind sich nicht einig.

Einige glauben, dass es nichts Besseres als die Standard-R-Konsolenschnittstelle gibt, andere glauben, dass es sich für bequemes Arbeiten lohnt, eine der verfügbaren integrierten Entwicklungsumgebungen (IDEs) mit einem umfangreichen Satz an Tastenmenüs zu installieren. Beispielsweise ist die kostenlose integrierte Entwicklungsumgebung RStudio eine großartige Option.

Im Folgenden konzentrieren wir uns auf die Beschreibung der Konsolenversion und die Arbeit mit R Commander. Die weitere Recherche des Lesers kann jedoch durch eine Rezension verschiedener Versionen der IDE unterstützt werden, die im Anhang des Buches von Shipunov et al. vorgestellt wird. (2014).

Ein R-Experte, Joseph Rickert, glaubt, dass der Prozess des Erlernens von R in die folgenden Phasen unterteilt werden kann (weitere Einzelheiten finden Sie unter:

sein Artikel auf inside-r.org):

1. Vertrautheit mit den allgemeinen Prinzipien der Kultur der R-Community und der Softwareumgebung, in der die R-Sprache entwickelt wurde und funktioniert. Besuch der Haupt- und Hilfsressourcen und Beherrschung eines guten Einführungslehrbuchs. R auf dem Computer des Benutzers installieren und die ersten Testskripte ausführen.

2. Lesen von Daten aus Standard-Betriebssystemdateien und sichere Verwendung von R-Funktionen zur Durchführung einer begrenzten Reihe statistischer Analyseverfahren, die dem Benutzer vertraut sind.

3. Verwendung der Grundstrukturen der R-Sprache zum Schreiben einfacher Programme.

Schreiben Sie Ihre eigenen Funktionen. Kennenlernen der Datenstrukturen, mit denen R arbeiten kann, und der komplexeren Funktionen der Sprache. Arbeiten mit Datenbanken, Webseiten und externen Datenquellen.

4. Schreiben komplexe Programme in der R-Sprache. Eigenständige Entwicklung und tiefes Verständnis der Struktur von Objekten der sogenannten S3- und S4-Klassen.

5. Entwicklung professionelle Programme in der R-Sprache. Eigenständige Erstellung zusätzlicher Bibliotheksmodule für R.

Die meisten durchschnittlichen R-Benutzer hören bei Stufe 3 auf, weil...

Die bis dahin erworbenen Kenntnisse reichen für die Durchführung statistischer Aufgaben im Rahmen ihrer hauptberuflichen Tätigkeit völlig aus.

Dies entspricht ungefähr dem Umfang unserer Beschreibung der R-Sprache im Rahmen dieses Handbuchs.

Die Installation und Konfiguration der grundlegenden R-Statistikumgebung ist recht einfach. Die aktuelle Version mit Stand Juli 2014 ist R 3.1.1 für 32- und 64-Bit-Windows (Distributionen für alle anderen gängigen Betriebssysteme sind ebenfalls verfügbar). Sie können das Systemverteilungskit zusammen mit einem Basissatz von 29 Paketen (54 Megabyte) völlig kostenlos von der Hauptprojektwebsite http://cran.r-project.org oder dem russischen „Spiegel“ http://cran herunterladen .gis-lab.info. Die Installation des Systems aus der heruntergeladenen Distribution bereitet keine Schwierigkeiten und erfordert keine besonderen Kommentare.

Zur bequemen Speicherung von Skripten, Quelldaten und Berechnungsergebnissen lohnt es sich, ein spezielles Arbeitsverzeichnis auf dem Computer des Benutzers auszuwählen. Es ist höchst unerwünscht, im Namen des Arbeitsverzeichnisses kyrillische Zeichen zu verwenden.

Es ist ratsam, den Pfad zum Arbeitsverzeichnis und einige andere Einstellungsoptionen durch Ändern festzulegen Texteditor Systemdatei C:\Programme\R\Retc\Rprofile.site (möglicherweise befindet es sich an einem anderen Speicherort auf Ihrem Computer). Im Beispiel unten sind die geänderten Zeilen grün markiert.

Zusätzlich zur Angabe des Arbeitsverzeichnisses geben diese Zeilen einen Link zur russischen Quelle zum Herunterladen von R-Paketen und zum automatischen Starten von R Commander an.

Auflistung der Rprofile.site-Datei # Alles, was auf das Kommentarsymbol „#“ folgt, wird von der Umgebung ignoriert # options(papersize="a4") # options(editor="notepad") # options(pager="internal") # Anzeigetyp einstellen Referenzinformationen# options(help_type="text") options(help_type="html") # lokalen Bibliotheksspeicherort festlegen #.Library.site - file.path(chartr("\\", "/", R.home()) , "site-library") # Starten Sie beim Laden der Umgebung das R Commander-Menü # Fügen Sie „#“-Zeichen hinzu, wenn der Start von Rcmdr nicht erforderlich ist local(( old - getOption("defaultPackages") options(defaultPackages = c(old, "Rcmdr ") ) )) # Definieren Sie einen Spiegel CRAN local((r - getOption("repos") r["CRAN"] - "http://cran.gis-lab" options(repos=r))) # Definieren Sie den Pfad zum Arbeitsverzeichnis (jedes andere auf Ihrem Computer) setwd("D:/R/Process/Resampling") Was ein „gutes Einführungslehrbuch“ betrifft, sind alle unsere Empfehlungen subjektiv. Erwähnenswert sind jedoch die offiziell anerkannte Einführung in R von W. Venables und D. Smith (Venables, Smith, 2014) und das Buch von R. Kabakov (Kabaco, 2011), teilweise auch weil deren russische Übersetzung vorliegt. Beachten wir auch das traditionelle „Handbuch für Dummies“ (Meys, Vries, 2012) und das Handbuch (Lam, 2010), das mit beneidenswerter niederländischer Pedanterie verfasst wurde. Von den Einführungskursen in die russische Sprache sind die Bücher von I. Zaryadov (2010a) und A. Shipunov et al. die umfassendsten. (2014).

1.2. Arbeiten mit der R-Schnittstellen-Befehlskonsole Die R-Statistikumgebung führt einen beliebigen Satz sinnvoller R-Sprachanweisungen aus, die in einer Skriptdatei enthalten sind oder als eine Folge von Befehlen dargestellt werden, die von der Konsole ausgegeben werden. Die Arbeit mit der Konsole kann für moderne Benutzer, die an Menüs mit Drucktasten gewöhnt sind, schwierig erscheinen, da man sich die Syntax der einzelnen Befehle merken muss. Nach dem Erwerb einiger Fähigkeiten stellt sich jedoch heraus, dass viele Datenverarbeitungsvorgänge schneller und mit weniger Aufwand durchgeführt werden können als beispielsweise im selben Statistica-Paket.

Die R-Konsole ist ein Dialogfeld, in dem der Benutzer Befehle eingibt und die Ergebnisse ihrer Ausführung sieht. Dieses Fenster erscheint sofort beim Start der Umgebung (z. B. nach einem Klick auf die R-Verknüpfung auf dem Desktop). Darüber hinaus umfasst die standardmäßige grafische R-Benutzeroberfläche (RGui) ein Skriptbearbeitungsfenster und Popup-Fenster mit grafischen Informationen (Bilder, Diagramme usw.).

Im Befehlsmodus kann R beispielsweise wie ein normaler Taschenrechner funktionieren:

Rechts neben dem Eingabeaufforderungssymbol kann der Benutzer einen beliebigen arithmetischen Ausdruck eingeben, die Eingabetaste drücken und erhält sofort das Ergebnis.

Im zweiten Befehl im Bild oben haben wir beispielsweise die Fakultäts- und Sinusfunktionen sowie das integrierte p verwendet. Die in Textform erhaltenen Ergebnisse können mit der Maus ausgewählt und über die Zwischenablage in eine beliebige Textdatei im Betriebssystem (z. B. ein Word-Dokument) kopiert werden.

Bei der Arbeit mit RGui empfehlen wir in jedem Fall die Erstellung einer Datei mit einem Skript (also einer Folge von R-Sprachbefehlen, die bestimmte Aktionen ausführen). In der Regel handelt es sich dabei um eine normale Textdatei mit beliebigem Namen (aus Gründen der Sicherheit besser mit der Erweiterung *.r), die mit einem normalen Editor wie Notepad erstellt und bearbeitet werden kann. Wenn diese Datei vorhanden ist, legen Sie sie am besten im Arbeitsverzeichnis ab. Nach dem Starten von R und der Auswahl des Menüpunkts „Datei Skript öffnen“ wird der Inhalt dieser Datei im Fenster „R-Editor“ angezeigt. Über den Menüpunkt „Bearbeiten, Alle ausführen“ können Sie eine Folge von Skriptbefehlen ausführen.

Sie können auch mit der Maus an einer beliebigen Stelle im vorbereiteten Skript ein aussagekräftiges Fragment auswählen (vom Namen einer Variablen bis zum gesamten Inhalt) und diesen Block zur Ausführung starten. Dies kann auf vier Arten erfolgen: von der Haupt- und Kontextmenü, die Tastenkombination Strg+R oder eine Schaltfläche in der Symbolleiste.

In der dargestellten Abbildung wurden folgende Aktionen durchgeführt:

° das R-Objekt gadm mit Daten zur territorialen Aufteilung der Republik Belarus wurde von der kostenlosen Internetquelle Global Administrative Areas (GADM) heruntergeladen;

° Latinisierte Städtenamen werden durch häufig verwendete Äquivalente ersetzt;

° Mit der Funktion spplot() des SP-Pakets wird im Grafikfenster eine Verwaltungskarte der Republik angezeigt, die über das Menü in die Zwischenablage kopiert oder als Standard-Meta- oder Rastergrafikdatei gespeichert werden kann.

Wir werden uns in den folgenden Abschnitten genauer mit der Bedeutung der einzelnen Operatoren befassen, hier werden wir jedoch darauf hinweisen, dass wir durch Auswahl im Skript und Ausführen der Symbolkombination Regions@data im Konsolenfenster den gesamten Datensatz erhalten Das Objekt und ein aus den ausgewählten Symbolen zusammengesetzter Befehl gadm, Regions @data$NAME_1 geben uns eine Liste mit Namen von Verwaltungszentren vor und nach seiner Änderung.

Somit erleichtert der R-Editor das Navigieren durch ein Skript, das Bearbeiten und Ausführen beliebiger Befehlskombinationen sowie das Suchen und Ersetzen bestimmter Codeteile. Mit dem oben erwähnten RStudio-Add-on können Sie zusätzlich Code-Syntax-Hervorhebung, automatische Code-Vervollständigung, „Verpacken“ von Befehlssequenzen in Funktionen für deren spätere Verwendung, Arbeiten mit Sweave- oder TeX-Dokumenten und andere Vorgänge durchführen, die für einen fortgeschrittenen Benutzer nützlich sind.

R verfügt über umfangreiches integriertes Referenzmaterial, auf das direkt über RGui zugegriffen werden kann.

Wenn Sie den Befehl help.start() über die Konsole eingeben, wird in Ihrem Internetbrowser eine Seite geöffnet, die Zugriff auf alle Hilferessourcen bietet: grundlegende Handbücher, Autorenmaterialien, Antworten auf häufig gestellte Fragen, Änderungslisten, Links zu Hilfe usw R-Objekte usw. .d.:

Hilfe zu bestimmten Funktionen erhalten Sie mit den folgenden Befehlen:

° help("foo") oder? foo – Hilfe für die Funktion foo (Anführungszeichen sind optional);

° help.search("foo") oder ?? foo – nach allen Hilfedateien suchen, die foo enthalten;

° example("foo") – Beispiele für die Verwendung der foo-Funktion;

° RSiteSearch("foo") – Suche nach Links in Online-Handbüchern und Mailing-Archiven;

° apropos("foo", mode="function") – Liste aller Funktionen mit der Kombination foo;

° vignette("foo") – Liste von Tutorials zum Thema foo.

1.3. Arbeiten mit den Menüs des R-Commander-Pakets Ein praktisches Werkzeug zum Beherrschen von Berechnungen in R für einen unerfahrenen Benutzer ist R Commander – eine plattformunabhängige grafische Oberfläche im Stil eines Schaltflächenmenüs, implementiert im Rcmdr-Paket. Es ermöglicht Ihnen, eine Vielzahl statistischer Analyseverfahren durchzuführen, ohne auf das vorherige Auswendiglernen von Funktionen in der Befehlssprache zurückgreifen zu müssen, trägt jedoch unwillkürlich dazu bei, da alle ausgeführten Anweisungen in einem speziellen Fenster angezeigt werden.

Sie können Rcmdr wie alle anderen Erweiterungen über das R-Konsolenmenü „Pakete Paket installieren“ installieren. Es ist jedoch besser, den folgenden Befehl auszuführen:

install.packages("Rcmdr", dependencies=TRUE) wobei die Aktivierung der Abhängigkeitsoption sicherstellt, dass der vollständige Satz anderer Pakete installiert wird, die möglicherweise erforderlich sind, wenn Daten über das Rcmdr-Menü verarbeitet werden.

R Commander wird gestartet, wenn das Rcmdr-Paket über das Menü „Pakete aktivieren“ oder mit dem Befehl „Bibliothek“ (Rcmdr) geladen wird. Wenn aus irgendeinem Grund beschlossen wurde, die Daten ausschließlich mit R Commander zu analysieren, dann z automatischer Download Um diese grafische Shell zu verwenden, müssen Sie beim Starten von R die Datei Rprofile.site bearbeiten, wie in Abschnitt 1.1 gezeigt.

Schauen wir uns die Arbeit im R Commander anhand eines Beispiels an Korrelationsanalyse Daten zum Infektionsgrad der Muschel Dreissena polymorpha durch den Ciliaten Conchophthirus acuminatus in drei Seen Weißrusslands (Mastitsky S.E. // BioInvasions Records.

2012. V. 1. S. 161–169). In der Tabelle mit den Ausgangsdaten, die wir von der figshare-Website herunterladen, interessieren uns zwei Variablen: die Länge der Molluskenschale (ZMlength, mm) und die Anzahl der in der Molluske vorkommenden Ciliaten (CAnumber). Dieses Beispiel wird in den Kapiteln 4 und 5 ausführlich besprochen, daher werden wir hier nicht im Detail auf die Bedeutung der Analyse eingehen, sondern uns auf die Technik der Arbeit mit Rcmdr konzentrieren.

Als nächstes definieren wir den Datenlademodus und die Internet-Link-Adresse in den Popup-Fenstern. Es ist leicht zu erkennen, dass wir dieselben Daten problemlos aus einer lokalen Textdatei, einer Excel-Arbeitsmappe oder einer Datenbanktabelle laden könnten. Um sicherzustellen, dass unsere Daten korrekt geladen werden (oder sie bei Bedarf bearbeiten), klicken Sie auf die Schaltfläche „Daten anzeigen“.

Fenster zur Definition der Datenorganisation Fragment der geladenen Tabelle

Wählen Sie im zweiten Schritt im Menü „Statistik“ den Punkt „Korrelationstest“ aus:

Wir wählen ein Paar korrelierter Variablen aus und erhalten im Ausgabefenster den Pearson-Korrelationskoeffizienten (R = 0,467), das erreichte Niveau der statistischen Signifikanz (p-Wert 2,2e-16) und 95 %-Konfidenzgrenzen.

–  –  –

Die erhaltenen Ergebnisse können einfach über die Zwischenablage aus dem Ausgabefenster kopiert werden.

Nun erhalten wir eine grafische Darstellung der Korrelationsabhängigkeit. Wählen wir ein Streudiagramm der Abhängigkeit von CAnumber von ZMlength aus und versehen wir es mit Kantenbereichsdiagrammen, einer linearen Trendlinie mit der Methode der kleinsten Quadrate (in Grün), einer mit der lokalen Regressionsmethode geglätteten Linie (in Rot), dargestellt mit einer Konfidenz Region (gepunktete Linie). Für jeden der drei Seen (Variable See) werden die Versuchspunkte durch unterschiedliche Symbole dargestellt.

–  –  –

Aus dem R Commander-Grafikfenster kopiertes Diagramm. Als Äquivalent zu allen Betätigungen der R Commander-Menütaste werden R-Sprachanweisungen im Skriptfenster angezeigt.

In unserem Fall sehen sie so aus:

Shellfish read.table("http://figshare.com/media/download/98923/97987", header=TRUE, sep="\t", na.strings="NA", dec=".", strip. weiß=TRUE) cor.test(Clams$CAnumber, Clams$ZMlength, alternative="two.sided", method="pearson") Scatterplot(CAnumber ~ ZMlength | Lake, reg.line=lm, Smooth=TRUE, spread= TRUE, boxplots="xy", span=0.5, ylab="Number of ciliates", xlab="Shell length", by.groups=FALSE, data=Mollusks) Das Skript selbst oder die Ausgabeergebnisse (sowie beides zusammen). ) können in Dateien gespeichert und jederzeit wiederholt werden. Sie können das gleiche Ergebnis erzielen, ohne R Commander auszuführen, indem Sie die gespeicherte Datei über die R-Konsole laden.

Im Großen und Ganzen können Sie mit Rcmdr die Datenverarbeitung mit fast allen grundlegenden statistischen Methoden durchführen, ohne die Konstrukte der R-Sprache zu kennen (oder Ihr Gedächtnis einfach nicht damit belasten zu wollen, sich an sie zu erinnern). Es präsentiert parametrische und nichtparametrische Tests, Methoden zur Anpassung verschiedener kontinuierlicher und diskreter Verteilungen, Analyse multivariater Kontingenztabellen, univariate und multivariate Varianzanalyse, Hauptkomponentenanalyse und Clustering, verschiedene Formen verallgemeinerter Regressionsmodelle usw. Das entwickelte Gerät zur Analyse und Das Testen der resultierenden Modelle ist eine sorgfältige Untersuchung wert.

Eine detaillierte Beschreibung der Techniken für die Arbeit mit R Commander sowie Merkmale der Implementierung von Datenverarbeitungsalgorithmen finden Sie in den Handbüchern (Larson-Hall, 2009; Karp, 2014).

Doch ebenso wie Gebärdensprache die menschliche Kommunikation in natürlicher Sprache nicht ersetzen kann, erweitern Kenntnisse der R-Sprache die Fähigkeiten des Benutzers erheblich und machen die Kommunikation mit der R-Umgebung angenehm und spannend. Und dann automatische Generierung Die Skripterstellung in R Commander kann für den Leser eine hervorragende Möglichkeit sein, sich mit R-Sprachoperatoren vertraut zu machen und die Besonderheiten des Aufrufs einzelner Funktionen kennenzulernen. In den folgenden Kapiteln des Handbuchs widmen wir uns ausschließlich der Diskussion von Datenverarbeitungsverfahren auf der Ebene von Sprachkonstrukten.

1.4. Objekte, Pakete, Funktionen, Geräte Die R-Sprache gehört zur Familie der sogenannten objektorientierten Programmiersprachen auf hoher Ebene. Für einen Laien ist eine strenge Definition des Begriffs „Objekt“ ziemlich abstrakt. Der Einfachheit halber können wir jedoch alles aufrufen, was bei der Arbeit mit R-Objekten erstellt wurde.

Es gibt zwei Haupttypen von Objekten:

1. Objekte zur Speicherung von Daten („Datenobjekte“) sind einzelne Variablen, Vektoren, Matrizen und Arrays, Listen, Faktoren, Datentabellen;

2. Funktionen („Funktionsobjekte“) sind benannte Programme, die dazu dienen, neue Objekte zu erstellen oder bestimmte Aktionen an ihnen auszuführen.

Objekte der R-Umgebung, die zur gemeinsamen und freien Nutzung bestimmt sind, werden in Paketen zusammengefasst, die durch ähnliche Themen oder Datenverarbeitungsmethoden verbunden sind. Es gibt einen gewissen Unterschied zwischen den Begriffen Paket („Paket“) und Bibliothek („Bibliothek“). Der Begriff „Bibliothek“ definiert ein Verzeichnis, das ein oder mehrere Pakete enthalten kann. Der Begriff „Paket“ bezieht sich auf eine Sammlung von Funktionen, HTML-Handbuchseiten und Beispieldatenobjekten, die für Test- oder Schulungszwecke gedacht sind.

Pakete werden in einem bestimmten Verzeichnis des Betriebssystems installiert oder können in deinstallierter Form in archivierten *.zip-Dateien gespeichert und verteilt werden Windows-Dateien(Die Paketversion muss mit der spezifischen Version Ihres R übereinstimmen).

Vollständige Informationen über das Paket (Version, Hauptthemenbereich, Autoren, Änderungsdaten, Lizenzen, andere funktionsbezogene Pakete, eine vollständige Liste der Funktionen mit Angabe ihres Zwecks usw.) können mit dem Befehl abgerufen werden

Bibliothek(help=Paketname), zum Beispiel:

Bibliothek(help=Matrix) Alle R-Pakete fallen in eine von drei Kategorien: einfach („Basis“), empfohlen („empfohlen“) und andere vom Benutzer installiert.

Sie können eine Liste davon auf einem bestimmten Computer abrufen, indem Sie den Befehl „library()“ ausführen oder:

Installierte.Packages(Priorität = „Basis“) Installierte.Pakete(Priorität = „empfohlen“) # Abrufen vollständige Liste packets packlist - rownames(installed.packages()) # Informationen im Excel-Format in die Zwischenablage ausgeben write.table(packlist,"clipboard",sep="\t", col.names=NA) Grundlegende und empfohlene Pakete sind normalerweise enthalten zur R-Installationsdatei hinzufügen.

Natürlich ist es nicht nötig, sofort viele verschiedene Pakete als Reserve zu installieren.

Um ein Paket zu installieren, wählen Sie einfach den Menüpunkt „Pakete Paket(e) installieren“ im Befehlsfenster der R-Konsole oder geben Sie beispielsweise den Befehl ein:

install.packages(c("vegan", "xlsReadWrite", "car"))

Pakete können beispielsweise vom russischen „Spiegel“ http://cran.gis-lab.info heruntergeladen werden, wofür es praktisch ist, die Edition der Datei Rprofile.site zu verwenden, wie in Abschnitt 1.1 gezeigt.

Eine weitere Möglichkeit zur Installation von Paketen besteht darin, die Website http://cran.gis-lab.info/web/packages aufzurufen, das gewünschte Paket als ZIP-Datei auszuwählen und in den ausgewählten Ordner auf Ihrem Computer herunterzuladen.

In diesem Fall können Sie alle Informationen zum Paket, insbesondere eine Beschreibung der darin enthaltenen Funktionen, in der Vorschau anzeigen und entscheiden, wie viel Sie davon benötigen. Als nächstes müssen Sie den Befehlsmenüpunkt „Pakete Pakete aus lokalen ZIP-Dateien installieren“ ausführen.

Wenn Sie die RGui-Konsole starten, werden nur einige Kernpakete geladen. Um ein anderes Paket zu initialisieren, müssen Sie den Bibliotheksbefehl (Paketname) ausgeben, bevor Sie dessen Funktionen direkt verwenden können.

Sie können bestimmen, welche Pakete zu jedem Zeitpunkt der Sitzung geladen werden, indem Sie den folgenden Befehl ausgeben:

sessionInfo() R Version 2.13.2 (30.09.2011) Plattform: i386-pc-mingw32/i386 (32-Bit)

–  –  –

weitere beigefügte Pakete:

Vegan_2,0-2 permute_0,6-3

über einen Namespace geladen (und nicht angehängt):

Grid_2.13.2 lattice_0.19-33 tools_2.13.2 In der folgenden Tabelle stellen wir eine Liste (vielleicht nicht vollständig vollständig) der Pakete bereit, die in den in diesem Buch vorgestellten Skripten verwendet wurden:

R-Pakete Zweck „Basis“-Pakete Basiskonstrukte R-Basispaket-Compiler R-Compiler Eine Reihe von Tabellen mit Daten zum Testen und Demonstrieren von Funktionsdatensätzen Grundlegende Grafikfunktionen Grafiken Grafikgerätetreiber, Farbpaletten, Schriftarten grDevices Funktionen zum Erstellen von Grafikebenengittern Objektorientierte Programmierung Komponenten (Klassen, Methoden, Methoden) Funktionen für die Arbeit mit Regressionssplines verschiedene Typen Splines Grundfunktionen der statistischen Analyse stats Methoden der statistischen Funktionen der S4-Klasse stats4 Benutzeroberflächenkomponenten (Menüs, Auswahlfelder usw.) tcltk Informationsunterstützung, Verwaltungs- und Dokumentationstools Verschiedene Debugging-, I/O-, Archivierungs- usw. Dienstprogramme.

Utils „Empfohlene“ Pakete Funktionen verschiedener Bootstrap- und Jackknife-Prozeduren booten Verschiedene Algorithmen für nicht-hierarchische Klassifizierung und Klassenerkennung Algorithmen für Partitionierung und hierarchisches Clustering-Cluster Analyse und Verifizierung von Codes R-Codetools Lesen und Schreiben von Dateien in verschiedenen Formaten (DBF, SPSS, DTA , Stata) Fremdfunktionen zur Unterstützung der Optimierung der Kernelglättung KernSmooth Grafische Funktionen mit erweiterter Funktionalität (Sarkar, 2008) Gittersatz von Daten und statistischen Funktionen (Venables, Ripley, 2002) MASS Operationen mit Matrizen und Vektoren Matrix Verallgemeinerte additive und gemischte Effektemodelle mgcv Linear und nichtlineare Modelle mit gemischten Effekten NLME Neuronale Netze direkte Ausbreitung nnet Konstruktion von Klassifizierungs- und Regressionsbäumen rpart Kriging-Funktionen und Analyse der räumlichen Verteilung von Punkten räumliche Überlebensanalyse (Cox-Modell usw.) Überlebenspakete, die während der Arbeit installiert wurden adegenet Algorithmen zur Analyse genetischer Distanzen arm Analyse von Regressionsmodellen – Anhang zum Buch (Gelman, Hill, 2007) car Verfahren im Zusammenhang mit der angewandten Regressionsanalyse corrplot Anzeige von Korrelationsmatrizen in grafischer Form fitdistrplus Auswahl von Parametern statistischer Verteilungen FWDselect, Auswahl eines Satzes informativer Variablen in Regressionsmodellen packfor gamair Datensätze zum Testen Additive Geosphärenmodelle Schätzung geografischer Entfernungen ggplot2 Erweitertes Grafikpaket mit hoher Funktionalität DAAG Datenanalyse und Grafikfunktionen für das Buch (Maindonald, Braun, 2010) Hmisc Harrells Funktionssatz HSAUR2 Anhang zum Buch (Everitt, Hothorn, 2010) ISwR Primärstatistik Analyse in R jpeg Arbeiten mit Grafikdateien jpeg lars Spezielle Arten der Regression ( LARS, Lasso usw.) lavaan Bestätigungsanalyse und Strukturgleichungsmodelle lmodel2 Implementierung von Regressionsmodellen der Typen I und II (MA, SMA, RMA) Maptools Werkzeuge zum Arbeiten mit geografischen Karten Mäusen Verfahren zum Analysieren und Ausfüllen fehlender Werte Momente Funktionen zum Berechnen von Beispielmomenten Nortest Kriterien zum Testen der Hypothese über Normalverteilung Ausreißer Analyse von Ausreißern in Datenpastecs Analyse von räumlichen und zeitlichen Reihen in der Ökologie pls Regression auf Hauptkomponenten pwr Schätzung der statistischen Aussagekraft von Hypothesen reshape Flexible Transformation von Datentabellen robustbase Robuste Methoden zum Erstellen von Regressionsmodellen rootSolve Finden der Wurzeln einer Funktion mit mehreren Variablen Skalen Auswahl von Farbskalen sem Strukturgleichungsmodelle semPlot Visualisierung von Strukturbeziehungen sm Schätzung der Verteilungsdichte und Glättungsmethoden sp Klassen und Methoden für den Zugriff auf räumliche Daten spatstat Methoden der räumlichen Statistik, Auswahl von Modellen spdep Räumliche Abhängigkeiten: geostatistische Methoden und Modellierung Stargazer Outputting Informationen zu statistischen Modellen in verschiedenen Formaten vcd Visualisierung kategorialer Daten Durchführen von Umweltberechnungen Communities (Maße für Ähnlichkeit, Diversität und vegane Verschachtelung, Ordination und multivariate Analyse) Wenn wir versuchen, ein Paket zu laden, das noch nicht in R installiert ist, oder versuchen, es zu verwenden Wenn wir die Funktionen eines Pakets nutzen, das noch nicht heruntergeladen wurde, erhalten wir Systemmeldungen:

sem(model, data=PoliticalDemocracy) Fehler: Funktion „sem“ kann nicht gefunden werden. Bibliothek(lavaan) Fehler in Bibliothek(lavaan): kein Paket namens „lavaan“. Die folgende Funktion, eingeführt von K. Cichini, verwendet als Eingabe a Liste der von Benutzern verwendeten Pakete und ermittelt, welche heruntergeladen werden sollten und welche vorinstalliert werden müssen. Um das Skript zu verstehen, sind Kenntnisse der im nächsten Abschnitt beschriebenen R-Sprachkonstrukte erforderlich, der interessierte Leser kann jedoch später auf diese Befehle zurückkommen.

instant_pkgs - function(pkgs) ( pkgs_miss - pkgs)] # Pakete installieren, die nicht zum Download bereit sind:

if (length(pkgs_miss) 0) ( install.packages(pkgs_miss) ) # Pakete herunterladen, die noch nicht heruntergeladen wurden:

Attached - search() attachment_pkgs - attachment need_to_attach - pkgs if (length(need_to_attach) 0) ( for (i in 1:length(need_to_attach)) require(need_to_attach[i], Character.only = TRUE) ) ) # Aufrufbeispiel:

instant_pkgs(c("base", "jpeg", "vegan"))

Sie können eine Liste der Funktionen jedes Pakets erhalten, indem Sie beispielsweise den folgenden Befehl ausführen:

ls(pos = "package:vegan") Hinweis: ls() ist eine Allzweckfunktion zum Auflisten von Objekten in einer bestimmten Umgebung. Der obige Befehl installiert das vegane Paket als solche Umgebung. Wenn wir diesen Befehl ohne Parameter ausführen, erhalten wir eine Liste der während der aktuellen Sitzung erstellten Objekte.

Sie können eine Liste von Argumenten für die eingehenden Parameter einer beliebigen Funktion in einem geladenen Paket abrufen, indem Sie den Befehl args() ausgeben.

Wenn Sie beispielsweise die Funktion lm() für das lineare Modell ausführen, die wir später häufig verwenden, werden die Parameter festgelegt:

Args(lm)-Funktion (Formel, Daten, Teilmenge, Gewichte, na.action, Methode = „qr“, Modell = TRUE, x = FALSE, y = FALSE, qr = TRUE, singular.ok = TRUE, Kontraste = NULL, Offset,...) Wenn Sie einen Befehl eingeben, der nur aus einer Abkürzung einer Funktion besteht (z. B. Berechnung des Interquartilbereichs von IQR), können Sie den Quelltext der Funktion in R-Sprachcodes erhalten:

IQR-Funktion (x, na.rm = FALSE) diff(quantile(as.numeric(x), c(0.25, 0.75), na.rm = na.rm, Names = FALSE)) Ein fortgeschrittener Benutzer kann Änderungen daran vornehmen Code und „leiten“ Sie den Standardfunktionsaufruf auf Ihre Version um.

Wenn wir uns jedoch den Code der Funktion Predict() ansehen wollen, die zur Berechnung der vorhergesagten Werte des linearen Modells verwendet wird, erhalten wir auf die gleiche Weise:

Predict-Funktion (Objekt,...) UseMethod("predict") In diesem Fall ist Predict() eine „universelle“ Funktion: abhängig davon, welches Modellobjekt seiner Eingabe zugeführt wird (lm für lineare Regression, glm für Poisson oder logistic). Regression, LME für Mixed-Effects-Modell usw.) wird die geeignete Methode zum Erhalten vorhergesagter Werte aktualisiert.

Konkret wird diese Funktion zur Implementierung der folgenden Methoden verwendet:

Methoden("Predict") Predict.ar* Predict.Arima* Predict.arima0* Predict.glm Predict.HoltWinters* Predict.lm Predict.loess* Predict.mlm Predict.nls* Predict.poly Predict.ppr* Predict.prcomp* Predict.princomp* Predict.smooth.spline* Predict.smooth.spline.fit* Predict.StructTS* Nicht sichtbare Funktionen sind mit einem Sternchen versehen. Dieses Beispiel bezieht sich auf die objektorientierten Programmierideen (OOP), die dem R-Framework in In zugrunde liegen Im S3-Stil ist eine Methode streng genommen eine Funktion, die von einer anderen generischen Funktion wie print(), plot() oder summary() aufgerufen wird, abhängig von der Klasse des an ihre Eingabe übergebenen Objekts. In diesem Fall ist das Klassenattribut für die „Objektorientierung“ verantwortlich, die den korrekten Versand und Aufruf der erforderlichen Methode für ein bestimmtes Objekt gewährleistet. Die „Methodenfunktion“ zum Erhalten vorhergesagter Werte eines verallgemeinerten linearen Modells verfügt also über einen Aufruf von „predict.glm()“, beim Glätten mit Splines – „predict.smooth.spline()“ usw. Detaillierte Informationen Das S3-OOP-Modell finden Sie im S3Methods-Hilfeabschnitt und das erweiterte S4-Modell finden Sie im Abschnitt „Methoden“.

Schauen wir uns abschließend einige einfache Techniken zum Speichern der während einer R-Sitzung erstellten Arbeit an:

° sink(file= Dateiname) – gibt die Ergebnisse der Ausführung nachfolgender Befehle in Echtzeit in eine Datei mit dem angegebenen Namen aus; Um diesen Befehl zu beenden, müssen Sie den Befehl sink() ohne Parameter ausführen;

° save(file= Dateiname, Liste der gespeicherten Objekte) – speichert die angegebenen Objekte in einer Binärdatei im XDR-Format, mit der in jedem gearbeitet werden kann Betriebssystem;

°load(file=Dateiname) – stellt gespeicherte Objekte in der aktuellen Umgebung wieder her;

° save.image(file= Dateiname) – speichert alle während der Arbeit erstellten Objekte als R-spezifische RDA-Datei.

Ein Beispiel für die Übertragung einer generierten Tabelle mit Daten in einem mit der Struktur kompatiblen Format in die Zwischenablage Excel-Tabelle, wurde oben in diesem Abschnitt angegeben. Kapitel 6 liefert ein Beispiel für die Übertragung von Daten von einem linearen Modellobjekt in eine Word-Datei.

Die R-Umgebung kann Pixelbilder in der erforderlichen Qualität für nahezu jede Bildschirmauflösung und jedes Druckgerät erzeugen und die resultierenden Grafikfenster auch in Dateien verschiedener Formate speichern. Für jedes Grafikausgabegerät gibt es eine Treiberfunktion: Sie können den Befehl help(Devices) eingeben, um eine vollständige Liste der Treiber zu erhalten.

Unter den Grafikgeräten sind die häufigsten:

° windows() – Windows-Grafikfenster (Bildschirm, Drucker oder Metadatei).

° png(), jpeg(), bmp(), tiff() – Ausgabe in eine Rasterdatei im entsprechenden Format;

° pdf(),postscript() – Ausgabe grafische Informationen V PDF-Datei oder PostScript.

Wenn Sie mit der Arbeit mit dem Ausgabegerät fertig sind, sollten Sie dessen Treiber mit dem Befehl dev.off() deaktivieren. Es ist möglich, mehrere Grafikausgabegeräte gleichzeitig zu aktivieren und zwischen ihnen zu wechseln: siehe beispielsweise den entsprechenden Abschnitt im Buch von Shipunov et al. (2012, S. 278).

1. BESCHREIBUNG DER R-SPRACHE

2.1. Datentypen der R-Sprache Alle Datenobjekte (und damit Variablen) in R können in die folgenden Klassen (d. h. Objekttypen) unterteilt werden:

° numerisch – Objekte, die Ganzzahlen (Integer) und reelle Zahlen (Double) enthalten;

° logisch – logische Objekte, die nur zwei Werte annehmen: FALSE (abgekürzt F) und TRUE (T);

° Zeichen – Zeichenobjekte (Variablenwerte werden in doppelten oder einfachen Anführungszeichen angegeben).

In R können Sie Namen für verschiedene Objekte (Funktionen oder Variablen) sowohl in Latein als auch in Kyrillisch erstellen. Beachten Sie jedoch, dass a (kyrillisch) und a (lateinisch) zwei verschiedene Objekte sind. Darüber hinaus unterscheidet die R-Umgebung zwischen Groß- und Kleinschreibung, d. h. Klein- und Großbuchstaben sind unterschiedlich. Variablennamen (Bezeichner) in R müssen mit einem Buchstaben (oder Punkt) beginnen und aus Buchstaben, Zahlen, Punkten und Unterstrichen bestehen.

Mit Hilfe eines Teams? Mit dem Namen können Sie prüfen, ob eine Variable oder Funktion mit dem angegebenen Namen existiert.

Die Überprüfung, ob eine Variable zu einer bestimmten Klasse gehört, wird durch die Funktionen is.numeric(object_name), is.integer(name), is.logical(name), is.character(name) überprüft und ein Objekt in einen anderen Typ konvertiert Sie können die Funktionen as.numeric (Name), as.integer(Name), as.logical(Name), as.character(Name) verwenden.

Es gibt eine Reihe spezieller Objekte in R:

° Inf – positive oder negative Unendlichkeit (normalerweise das Ergebnis der Division einer reellen Zahl durch 0);

° NA – „fehlender Wert“ (nicht verfügbar);

° NaN – „keine Zahl“.

Mit den Funktionen is.nite(name), is.na(name) und is.nan(name) können Sie überprüfen, ob eine Variable zu einem dieser speziellen Typen gehört.

Ein R-Ausdruck ist eine Kombination aus Elementen wie einem Zuweisungsoperator, arithmetischen oder logischen Operatoren, Objektnamen und Funktionsnamen. Das Ergebnis der Ausführung eines Ausdrucks wird normalerweise sofort im Befehls- oder Grafikfenster angezeigt. Wenn jedoch eine Zuweisungsoperation ausgeführt wird, wird das Ergebnis im entsprechenden Objekt gespeichert und nicht auf dem Bildschirm angezeigt.

Als Zuweisungsoperator in R können Sie entweder das Symbol „=“ oder ein Symbolpaar „-“ (Zuweisung eines bestimmten Werts zum Objekt auf der linken Seite) oder „-“ (Zuweisung eines Werts zum Objekt auf der linken Seite) verwenden Rechts). Es gilt als guter Programmierstil, „-“ zu verwenden.

R-Sprachausdrücke werden Zeile für Zeile in einem Skript organisiert. Sie können mehrere Befehle in einer Zeile eingeben und diese durch das Symbol „;“ trennen. Ein Befehl kann auch auf zwei (oder mehr) Zeilen platziert werden.

Numerische Objekte können Ausdrücke mithilfe traditioneller arithmetischer Operationen bilden + (Addition), – (Subtraktion), * (Multiplikation), / (Division), ^ (Potenzierung), %/% (ganzzahlige Division), %% (Rest) aus der Division) . Operationen haben normale Priorität, d. h. Zuerst wird eine Potenzierung durchgeführt, dann eine Multiplikation oder Division, dann eine Addition oder Subtraktion. Ausdrücke können Klammern verwenden und Operationen darin haben die höchste Priorität.

Boolesche Ausdrücke kann mit den folgenden logischen Operatoren zusammengesetzt werden:

° „Gleich“ == ° „Ungleich“ != ° „Kleiner als“ ° „Größer als“ ° „Kleiner gleich“ = ° „Größer gleich“ = ° „Logisches UND“ & ° „Logisches ODER“ | ° „Logisches NICHT“ !

SUPPORT, AU TSOURCING DIENSTLEISTUNGEN G&A FONDSVERWALTUNG 2. AMICORP-GRUPPE TÄTIGKEITSBEREICH DES UNTERNEHMENS HEBEN SIE SICH VON DER MASSE AB w w w.amicor p. com AMICORP-GRUPPE TÄTIGKEITSBEREICHE DES UNTERNEHMENS INHALTE ÜBER DAS UNTERNEHMEN UNSERE DIENSTLEISTUNGEN Dienstleistungen für Firmenkunden Dienstleistungen für den institutionellen Vertrieb Gründung und Management...“

„Bundesstaatliche Bildungshaushaltseinrichtung für höhere Berufsbildung „Finanzuniversität unter der Regierung der Russischen Föderation“ Abteilung „Marketing“ MODERNE RICHTUNGEN DES MARKETINGS: THEORIE, METHODIK, PRAXIS KOLLEKTIVE MONOGRAPHIE Unter der allgemeinen Herausgeberschaft von S.V. Karpova Moskau 2011 Rezensenten: N.S. Perekalina - Doktor der Wirtschaftswissenschaften, Professorin, Leiterin. Abteilung für Marketing „MATI“ – nach ihr benannte Russische Staatliche Technische Universität. K. E. Tsiolkovsky S.S. Solowjew..."

„Kleiner digitaler Newsletter für CAFE und TEA RDACTION: Ch. Herausgeber: Vesela Dabova Br.4 Dezember 2011 Herausgeber: Otslabvane s chai Teodora Vasileva Gergana Ivanov Herausgeber: ABB Wie werden alle Fälle im Körper bei der Einnahme des Getränks Tee geschwächt und wie werden alle Fälle durch Nai-sigurniyat und zdorovsloven beginnend geschwächt? namalyavane on tegloto e redovnata Vollendung für eine Tasse Tee. Über die Verlässlichkeit der Theorie gibt es unterschiedliche Meinungen, aber nur sehr wenige Fakten belegen, dass jede Tasse Tee mit der definierten Kur einhergeht …“

„INTERNATIONALE INTERDISZIPLINÄRE WISSENSCHAFTLICHE KONFERENZ RADIKALER RAUM ZWISCHEN DISZIPLINEN RCS 2015 KONFERENZBUCH DER ABSTRAKTE HERAUSGEBER Romana Bokovi Miljana Zekovi Slaana Milievi NOVI SAD / SERBIEN / 21.-23. SEPTEMBER 2015 Radical Space In Between Disciplines Konferenzbuch der Abstracts Herausgeber: a Bokovi Miljana. Ze Kovi Slaana Milievi ISBN: 978-86-7892-733-1 Layout: Maja Momirov Coverdesign: Stefan Vuji Herausgegeben von der Abteilung für Architektur und Städtebau, Fakultät für Technische Wissenschaften, …“

„STAATLICHE UNIVERSITÄT ST. PETERSBURG, Fakultät für Geographie und Geoökologie, Abteilung für Geomorphologie, Diplomarbeit (Abschlussarbeit) zum Thema: „Geomorphologische Merkmale und Paläoklima arktischer Seen (am Beispiel von Seen im zentralen Sektor der russischen Arktis)“ Abgeschlossen von: Abendstudentin Elena Aleksandrovna Morozova Wissenschaftliche Berater: Doktor der Geographie, Prof. Bolshiyanov Dmitry Yurievich Ph.D., Senior Lehrerin Savelyeva Larisa Anatolyevna Rezensentin: Ph.D., Leiterin...“

„Die Apacer M811-Maus ist ein Laser-Mini-SUV für das Kit. http://news.kosht.com/computer/mouse/2009/11/26/mysh_apacer_m811. Such-Plugin für Tagespreise KOSHT.com für Firefox-Browser. Installieren Sie One Click. Ein Kilobyte. Startseite Neuigkeiten Preise Ankündigungen Arbeitsforen Unternehmen Mobi Finden Finden Sie Ihre Neuigkeiten Alle KOSTA-Neuigkeiten PCs und Komponenten Mäuse PCs und Komponenten Mäuse Alle KOSTA-Neuigkeiten Best Gaming-Computer Online-Berechnung bei UltraPrice.by Mouse Apacer M811 – Laser-Mini-SUV [...»

„BUNDESBILDUNGSAGENTUR, STAATLICHE BILDUNGSINSTITUTION FÜR HÖHERE BERUFLICHE BILDUNG, STAATLICHE INDUSTRIELLE UNIVERSITÄT MOSKAU (GOU MGIU) „INFORMATIONSSYSTEME UND TECHNOLOGIEN“, ABTEILUNG FÜR ABSCHLUSSARBEITEN mit Schwerpunkt „Mathematische Unterstützung und Verwaltung“ Informationssysteme» Studentin Tatyana Andrevna Chumakova zum Thema „Berechnung getrennter Strömungen hinter einem schlecht stromlinienförmigen Körper“ Arbeitsleiter: Prof., Doktor der Physik und Mathematik. N. Aleksin Wladimir Adamowitsch..."

„R WIPO A/45/3 ORIGINAL: Englisch DATUM: 15. August 2008 WELT-ORGANISATION FÜR GEISTIGES EIGENTUM GENF VERSAMMLUNG DER MITGLIEDSTAATEN WIPO Fünfundvierzigste Sitzungsreihe Genf, 22.-30. September 2008 ZULASSUNG VON BEOBACHTERN Generaldirektor I. ZULASSUNG VON INTERNATIONALE NICHTREGIERUNGSORGANISATIONEN ALS BEOBACHTER 1. Auf ihren vorangegangenen Sitzungen haben die Versammlungen eine Reihe von Grundsätzen verabschiedet, die bei der Befassung internationaler Nichtregierungsorganisationen anzuwenden sind...“

„1 Oleg Sanaev. Eine Weltumrundung, die vier Jahre dauert und hundert Dollar kostet. Mit der im Titel angegebenen Dauer von Evgeniy Aleksandrovich Gvozdevs Reise auf der Yacht Lena ist alles in Ordnung – vier Jahre plus zwei Wochen: Am 7. Juli 1992 ist er verließ den Hafen von Machatschkala und kehrte am 19. Juli 1996 zurück. Aber was Geld angeht, ist das eine deutliche Übertreibung, oder besser gesagt eine Untertreibung: Von hundert Dollar kann man natürlich nicht vier Jahre lang leben – da wird man sich die Beine vertreten. Doch zu Beginn seiner Reise stand Gvozdev genau dieser Betrag zur Verfügung. Und zumindest die Beine..."

„Institut für Management, Forschungsuniversität Belgorod State National Research University TECHNOLOGIEN DER SICHERHEITSBILDUNG SICHERUNG DER BILDUNG VON PERSONALRESERVEN KANDIDATENPOOL STAAT FÜR STAATLICHE UND KOMMUNALE UND KOMMUNALE DIENSTLEISTUNGEN Zusammenfassung: Zusammenfassung: Der Artikel behandelt …“

„Lydia YANOVSKAYA ANMERKUNGEN ÜBER MIKHAIL BULGAKOV MOSKAU „TEXT“ UDC 821.161.1 BBK 84 (2Ros-Rus)6-44 Ya64 ISBN 978-5-7516-0660-2 ISBN 978-985-16-3297-4 (Harvest LLC „ ) „Text“, 2007 „BRAVO, ZUGABE, PAWNSHOP!“ „BRAVO, BIS, PAWNSHOP!“ Ich weiß nicht, wo sich heute in Moskau die Redaktion der Zeitschrift Yunost befindet. Gibt es ein solches Magazin noch? Mitte der 70er Jahre befand sich dieses jüngste und hübscheste Redaktionsbüro in Moskau in der Sadovaya-Triumfalnaya, neben dem Majakowski-Platz, in einem kleinen, aber äußerst gemütlichen Gebäude ...“

„Anhang 1 ANMELDUNGSFORMULARE FÜR WETTBEWERBE 2013 Formular „T“. Titelseite des Antrags an die Russian Humanitarian Science Foundation Projektname Projektnummer Projekttyp (a, c, d, e, f) Wissensbereich (Code) Klassifikatorcode der Russian Humanitarian Science Foundation GRNTI-Code (http://www .grnti.ru/) Vorrangige Richtung der Entwicklung von Wissenschaft und Technologie und Technologie in Russische Föderation, kritische Technologie1 Nachname, Vorname, Patronym des Managers Kontakttelefonnummer des Projektmanagers des Projekts Vollständiger und kurzer Name der Organisation, durch die es durchgeführt werden soll...“

„FNI-Bericht 8/2014 Umsetzung der EU-Klima- und Energiepolitik in Polen: Von der Europäisierung zur Polonisierung? Jon Birger Skjrseth Umsetzung der EU-Klima- und Energiepolitik in Polen: Von der Europäisierung zur Polonisierung? Jon Birger Skjrseth [email protected] Dezember 2014 Copyright © Fridtjof Nansen Institute 2014 Titel Umsetzung der EU-Klima- und Energiepolitik in Polen: Von der Europäisierung zur Polonisierung? Art und Anzahl der Veröffentlichungen FNI Report 8/2014 57 Autor ISBN 978-82-7613-683-8 Jon...“

„„Wissenschaftliche Notizen von TOGU“ Band 6, Nr. 4, 2015 ISSN 2079-8490 Elektronische wissenschaftliche Veröffentlichung „Wissenschaftliche Notizen von TOGU“ 2015, Band 6, Nr. 4, S. 173 – 178 Zertifikat El Nr. FS 77-39676 vom 05.05.2010 http http://pnu.edu.ru/ru/ejournal/about/ [email protected] UDC 316.33 © 2015 I. A. Gareeva, Doktor der Soziologie. Wissenschaften, A. G. Kiseleva (Pacific State University, Chabarowsk) BILDUNG VON SOZIALVERSICHERUNGSSYSTEMEN Dieser Artikel analysiert die Bildung von Sozialversicherungssystemen und ihren aktuellen Zustand...“

„Konferenzprogramm Chiang Mai, Thailand November 2015 APCBSS Asia-Pacific Conference on Business & Social Sciences ICEI International Conference on Education Innovation APCLSE Asia-Pacific Conference on Life Science and Engineering APCBSS Asia-Pacific Conference on Business & Social Sciences ISBN978-986- 90263-0-7 ICEI International Conference on Education Innovation ISBN 978-986-5654-33-7 APCLSE Asia-Pacific Conference on Life Science and Engineering ISBN 978-986-90052-9-6 Inhalt Inhalt..."

Den Blog „R: Datenanalyse und Visualisierung“ gibt es seit mehr als dreieinhalb Jahren. Vor einigen Monaten entstand die Idee, die über die ganze Zeit hier veröffentlichten methodischen Botschaften in der Form zusammenzufassen E-Book. Der Autor der Idee und später Mitautor des Buches war der Doktor der Biowissenschaften Vladimir Kirillovich Shitikov (). Wir freuen uns, Ihnen das Ergebnis als Neujahrsgeschenk zu überreichen.


Methodisches Handbuch "Statistische Analyse und Datenvisualisierung mit R„richtet sich in erster Linie an Studierende, Doktoranden, junge und etablierte Wissenschaftler sowie professionelle Analysten, die noch keine Erfahrung in der Arbeit mit R haben. In Anlehnung an die Traditionen des Blogs haben wir versucht, den Missbrauch von „Ritual“ nach Möglichkeit zu vermeiden ” Phrasen, die für zahlreiche Handbücher zur angewandten Statistik charakteristisch sind , bekannte Theoreme zitieren und mehrstufige Berechnungsformeln vorstellen, wurde der Schwerpunkt zunächst auf die praktische Anwendung gelegt – auf die Tatsache, dass der Leser, geleitet von dem, was er las, dies konnte Analysieren Sie seine Daten und präsentieren Sie die Ergebnisse den Kollegen.

  • Kapitel 1: Grundkomponenten der statistischen R-Umgebung
  • Kapitel 2: Beschreibung der R-Sprache
  • Kapitel 3: Grundlegende R-Grafikfunktionen
  • Kapitel 4: Beschreibende Statistik und Anpassungsverteilungen
  • Kapitel 5: Klassische Methoden und Kriterien der Statistik
  • Kapitel 6: Lineare Modelle in der Varianzanalyse
  • Kapitel 7: Regressionsmodelle der Beziehungen zwischen quantitativen Variablen
  • Kapitel 8: Verallgemeinerte, strukturelle und andere Regressionsmodelle
  • Kapitel 9: Raumanalyse und Kartogrammerstellung
Es gibt auch eine umfangreiche Bibliographie und eine Liste nützlicher Online-Ressourcen zu R.

Offizielle aktuelle Version des Buches in PDF-Format(~11 MB) verfügbar für kostenloser Download von zwei Seiten:

  • GitHub-Repository: https://github.com/ranalytics/r-tutorials
  • Website des Instituts für Ökologie des Wolga-Beckens RAS: http://www.ievbras.ru/ecostat/Kiril/R/

In denselben beiden Ressourcen finden Sie die R-Code-Skripte und Datensätze, die zum Reproduzieren der im Buch besprochenen Beispiele erforderlich sind.

Wir sind für Ihre Kommentare und Vorschläge zu dieser Arbeit dankbar – bitte senden Sie sie per E-Mail an rtutorialsbook["dog"]gmail.com

Wie oben erwähnt, wird das Buch völlig kostenlos verteilt. Wenn Sie es jedoch nützlich finden und es angebracht finden, den Autoren für ihre Arbeit zu danken, können Sie über die folgende Schaltfläche einen beliebigen Betrag überweisen (alle Transaktionen werden in durchgeführt). Abgesicherter Modusüber ein elektronisches Zahlungssystem



 


Lesen:



Optionen „Überall zu Hause“ und „Überall zu Hause in Russland“ MTS - Beschreibung, Kosten, Verbindung

Optionen „Überall zu Hause“ und „Überall zu Hause in Russland“ MTS - Beschreibung, Kosten, Verbindung

Russland nimmt ein riesiges Gebiet unseres Planeten ein. Viele Russen sind mit häufigen Reisen durch ihr Heimatland konfrontiert: Geschäftsreisen, Reisen ...

So stellen Sie ein Windows-Benutzerkennwort wieder her oder setzen es zurück

So stellen Sie ein Windows-Benutzerkennwort wieder her oder setzen es zurück

Wenn Sie plötzlich das Passwort für Ihr Windows-Konto vergessen haben, bleibt Ihnen nichts anderes übrig, als nach einer Möglichkeit zu suchen, es zurückzusetzen oder festzulegen ...

So entfernen Sie Avast vollständig. Programm zum Entfernen von Avast

So entfernen Sie Avast vollständig. Programm zum Entfernen von Avast

Ein spezielles Dienstprogramm zum vollständigen und korrekten Entfernen von Avast Antivirus vom System. Das Programm wurde vom offiziellen Entwicklungsteam erstellt...

Aliexpress-Mobilanwendung

Aliexpress-Mobilanwendung

Heutzutage schreitet der Fortschritt voran und es wird immer beliebter, wenn das Geschäft über eine mobile Anwendung verfügt. Aliexpress ist keine Ausnahme. Navigation...

Feed-Bild RSS