Datei > Neue Datei > R Markdown...
eine neue R Markdown Datei erstellen. Den Text unter dem Setup Chunk (ab Zeile 11) können Sie löschen.Mit der Tastenkombination ctrl
+ alt
+ i
(Windows) oder cmd
+ alt
+ i
(Mac) können Sie per Knopfdruck ein neues R-Code-Feld (Chunk) in R-Markdown Dateien erstellen.
Datei > Neue Datei > R Markdown...
klicken. Mit unserer Vorlage ist der Start aber vermutlich einfacher.)Strg
+ Shift
+ K
(Windows) oder Cmd
+ Shift
+ K
(Mac) rendern. Sie sollten nun im “Viewer” unten rechts eine “schön aufpolierte” Version ihrer Datei sehen.ctrl
+ alt
+ i
(Windows) oder cmd
+ alt
+ i
(Mac)5 + 3
in den grau hinterlegten Code-Chunk. Führen Sie die Zeile aus, indem Sie strg
+ enter
(Windows) oder cmd
+ enter
drücken. Das Ergebnis, 8
sollte Ihnen in der Konsole nun angezeigt werden.test <- 5 + 3
in eine neue Zeile in den Code-Chunk und führen Sie auch diese Zeile aus. Das Ergebnis sollte Ihnen diesmal nicht direkt angezeigt werden, stattdessen haben Sie im Workspace oben rechts ein neues Objekt namens “test”.test
in eine neue Zeile in den Code-Chunk und führen Sie sie aus. Nun sollte Ihnen das Ergebnis wieder in der Konsole (unten links) angezeigt werden.# test anzeigen
in die gleiche Zeile wie in der vorherigen Aufgabe und führen Sie die Zeile erneut aus. Sie können sehen, dass die keinen Effekt hatte: #
kennzeichnet Kommentare, alles was hinter einem #
steht, wird nicht ausgerechnet. Dies ist nützlich für (kurze!) Erklärungen. Längere Erklärungen sollten außerhalb der Chunks als normaler Text geschrieben werden.Tools > Global Options
und wählen Sie auf der linken Seite “R Markdown” aus. Überprüfen Sie, ob das Häkchen bei “Show Output inline for all Markdown documents” gesetzt ist. Wenn ja, entfernen Sie es. Das Häkchen sollte nicht gesetzt sein.Wenn Sie Dateien in R einlesen möchten, oder aus R abspeichern möchten, ist es wichtig, dass Sie ein Arbeitsverzeichnis verwenden. Das ist der Ordner auf ihrem Computer, in dem R nach Dateien sucht, und in dem R Dateien abspeichert.
Session > Set Working Directory > To Source File Location
klicken.setwd("P:/mv")
Installieren Sie das Paket-System tidyverse
, indem Sie install.packages("tidyverse")
ausführen. Zu diesem System gehören mehrere sehr nützliche Pakete, z.B. dplyr
für Datenaufbereitung und ggplot2
für Plots. Hinweis: Auf den PCs im CIP-Pool müssen Sie diesen Befehl nicht ausführen, die Pakete sind installiert.
Laden Sie das Paket-System tidyverse
mit dem Befehl library(tidyverse)
. Sie sollten nun diese Anzeige bekommen, die Ihnen sagt, welche Pakete standardmäßig zum tidyverse
gehören. Diese werden automatisch mitgeladen. Schreiben Sie den Syntaxbefehl zum Laden in den dafür vorgesehenen Code-Chunk am Anfang der .Rmd-Datei.
## ── Attaching packages ──────────────────────────────────────────────────────────────── tidyverse 1.3.1 ──
## ✓ ggplot2 3.3.5 ✓ purrr 0.3.4
## ✓ tibble 3.1.6 ✓ dplyr 1.0.8
## ✓ tidyr 1.2.0 ✓ stringr 1.4.0
## ✓ readr 2.1.2 ✓ forcats 0.5.1
## ── Conflicts ─────────────────────────────────────────────────────────────────── tidyverse_conflicts() ──
## x dplyr::filter() masks stats::filter()
## x dplyr::lag() masks stats::lag()
Erstellen Sie die folgenden Objekte:
a1
, der die Zahlen von 1 bis 5 enthält.a2
der die Zahlen von 0 bis 4.5 in Schritten von 0.5 enthält (d.h. er beinhaltet 10 Zahlen).a3
der Länge 10, der Zahlen von 0 bis 85 in gleichmäßigen abständen enthält.## [,1] [,2] [,3]
## [1,] 1 2 3
## [2,] 4 5 6
## [3,] 7 8 9
tibble
-Datensatz namens a5
, der die beiden Vektoren a2
und a3
enthält.Hinweis: tibble
s sind moderne Formen von data.frame
s. Wir empfehlen, dass Sie immer tibble
s verwenden. Wenn Sie Daten mit den readr
-Befehlen read_csv()
oder read_delim()
einlesen, werden diese automatisch als tibble
gespeichert.
tibble
-Datensatz namens a6
, der die beiden Vektoren a2
und a3
enthält. Bei diesem data frame
sollten Sie bei der Erstellung die beiden Vektoren umbenennen: Nennen Sie a2
“motivation” und a3
“result”a7
, die alle bisher erstellen Elemente beinhaltet.a1
zu.a4
zu.a4
zu. Sorgen Sie diesmal dafür, dass die Dimensionen der Matrix erhalten bleiben. Das Ergebnis sollte wie folgt aussehen:## [,1]
## [1,] 3
## [2,] 6
## [3,] 9
a6
zu.result
im data.frame a6
zu.3
zu jedem Element des Vektors a1
und speichern das Ergebnis unter dem Namen c1
c2
, indem Sie nur die Zeilen 3 und 4 aus dem tibble a6
auswählen.a6
zu, bei denen result
größer als 50 ist.a6
zu, bei denen result
zwischen 30 und 70 liegt.a6
zu, bei denen result
kleiner als 30, oder größer als 70 ist.a6
zu erhalten, bei denen result
größer als 20 ist.Laden Sie den Datensatz seatbelts.csv hier herunter. Legen Sie diese Datei in einen Ordner namens “data” in Ihrem Ordner für die Statistik-Übungszettel.
Lesen Sie den Datensatz seatbelts.csv mit dem Befehl read_csv()
ein und speichern Sie ihn in R unter dem Namen seatbelt_data
. Tipp: Wenn Sie die Datei wie in 5.1 beschrieben in einem Unterordner “data” in Ihrem Arbeitsverzeichnis abgespeichert haben, ist der Pfad zur Datei für Sie nun "data/seatbelts.csv"
.
Hinweis: read_csv
und read.csv
sind unterschiedliche Befehle. read_csv
ist die modernere Variante und wird von uns empfohlen. Mehr können Sie bei Interesse hier erfahren.
%>%
umgehen.%>%
verwenden, um den Code besser lesbar zu machen.filter(seatbelt_data, year == 1969)
%>%
um, um ihn besser lesbar zu machen.select(filter(seatbelt_data, year == 1969, kms > 10000), DriversKilled)
seatbelt_data
namens seatbelt_data_69
zu erzeugen, in dem nur die Daten aus dem Jahr 1969 enthalten sind.dplyr
umgehenHinweise
%>%
für diese und ähnliche Aufgaben. Dies ist in unser aller Interesse, da so die Lesbarkeit und Nachvollziehbarkeit ihres Codes maximiert wird.?<funktion>
die Hilfe-Seite zu den vorgeschlagenen Funktionen anzeigen. Dort sehen sie alle Befehle, die Sie in einer Funktion verwenden können. Zum Beispiel zeigt Ihnen ?arrange
die Hilfe-Seite zum Befehl arrange
an. (Da es mehrere Funktionen namens “arrange” gibt, müssen Sie zunächst per Klick auswählen, zu welcher Sie sich die Hilfe anzeigen lassen wollen.)Aufgaben
filter()
, um sich alle Daten aus dem Monat Januar im Datensatz seatbelt_data
anzeigen zu lassen.select()
, um sich außerdem nur die Daten zu DriversKilled
, law
, year
und month
anzeigen zu lassen.mutate()
, um eine neue Variable namens id
zu erstellen, die die Zahlen von 1 bis 192 enthält. Überschreiben Sie seatbelt_data
mit dem Ergebnis.arrange()
, um den Datensatz anhand von id
abwärts zu sortieren.group_by()
, um im unbearbeiteten Datensatz seatbelt_data
die Daten nach Jahren zu gruppieren. Nutzen Sie anschließend summarize()
, um sich die mittlere Anzahl von Todesfällen pro Jahr anzeigen zu lassen.rename()
, um die Variable DriversKilled
in drivers_killed
und PetrolPrice
in petrol_price
umzubennen.Es ist für fast alle Vorgänge in R am besten, wenn Sie Daten im long-Format haben. Das liegt einfach an der Art, wie R funktioniet.
Wide-Data sieht so aus:
## # A tibble: 4 × 4
## subj gender t1 t2
## <int> <chr> <dbl> <dbl>
## 1 1 m 2 6
## 2 2 m 3 5
## 3 3 f 4 4
## 4 4 f 5 3
Long-Data sieht so aus (dies sind die gleichen Daten):
## # A tibble: 8 × 4
## subj gender time value
## <int> <chr> <chr> <dbl>
## 1 1 m t1 2
## 2 2 m t1 3
## 3 3 f t1 4
## 4 4 f t1 5
## 5 1 m t2 6
## 6 2 m t2 5
## 7 3 f t2 4
## 8 4 f t2 3
In der Psychologie sind unsere Roh-Daten oft im wide-Format. Das Paket tidyr
bietet die Möglichkeit, diese Daten einfach in das long-Format zu bringen. Genaueres dazu können Sie hier finden.
Aufgaben
wide_data
zu erzeugen.wide_data <- tibble(subj = 1:4,
gender = c("m", "m", "f", "f"),
t1 = c(2,3,4,5),
t2 = c(6,5,4,3))
gather()
mit den Optionen key
und value
, um einen Datensatz long_data
zu erzeugen. Dieser sollte genau so aussehen, wie im Beispiel oben.Lassen Sie die Datei wie in Aufgabe 1 a)3 mit Strg
+ Shift
+ K
(Windows) oder Cmd
+ Shift
+ K
(Mac) rendern. Sie sollten nun im “Viewer” unten rechts eine “schön aufpolierte” Version ihrer Datei sehen. Falls das klappt: Herzlichen Glückwunsch! Ihr Code kann vollständig ohne Fehlermeldung gerendert werden. Falls nicht: Nur Mut, das wird schon noch! Vielleicht schaffen wir es ja in der Übung gemeinsam.
Anmerkung: Diese Übungszettel basieren zum Teil auf den “Smart Alex” Aufgaben aus dem Lehrbuch Dicovering Statistics Using R (Field, Miles & Field, 2012). Sie wurden für den Zweck dieser Übung modifiziert, und der verwendete R-Code wurde aktualisiert.
Field, A., Miles, J., & Field, Z. (2012). Discovering Statistics Using R. London: SAGE Publications Ltd.
Version: 21 April, 2022 08:40