Bitte beantworten Sie die Fragen in einer .Rmd Datei. Sie können Sie über Datei > Neue Datei > R Markdown...
eine neue R Markdown Datei erstellen. Den Text unter dem Setup Chunk (ab Zeile 11) können Sie löschen. Unter diesem Link können Sie auch unsere Vorlage-Datei herunterladen.
Informationen, die Sie für die Bearbeitung benötigen, finden Sie auf der Website der Veranstaltung
Zögern Sie nicht, im Internet nach Lösungen zu suchen. Das effektive Suchen nach Lösungen für R-Probleme im Internet ist tatsächlich eine sehr nützliche Fähigkeit, auch Profis arbeiten auf diese Weise. Die beste Anlaufstelle dafür ist der R-Bereich der Programmiererplattform Stackoverflow
Auf der Website von R Studio finden Sie sehr hilfreiche Übersichtszettel zu vielen verschiedenen R-bezogenen Themen. Ein guter Anfang ist der Base R Cheat Sheet
Da es sich um eine praktische Übung handelt, können wir Ihnen nicht alle neuen Befehle einzeln vorstellen. Stattdessen finden Sie hier Verweise auf sinnvolle Ressourcen, in denen Sie für die Bearbeitung unserer Aufgaben nachschlagen können.
Ressource | Beschreibung |
---|---|
Field, Kapitel 7 (7.1 - 7.5, 7.9) | Buchkapitel, das Schritt für Schritt erklärt, worum es geht, und wie man Regressionen in R durchführt. Große Empfehlung! |
R for Data Science | Einsteiger-Buch von R-Gott Hadley Wickham. Hier wird topaktuell in die Arbeit mit R, insbesondere zur Datenaufbereitung und Visualisierung, eingeführt. |
R Tutorial | Schritt-für-Schritt Einführung in das Arbeiten mit R von Christian Treffenstädt. Nützlich, falls Sie grundlegende Dinge noch einmal nachschlagen möchten |
Mit strg
+ alt
+ c
(Windows) oder cmd
+ alt
+ c
(Mac) können Sie direkt den Code-Chunk ausführen, in dem sich Ihr Cursor gerade befindet. Mit strg
+ alt
+ n
(Windows) oder cmd
+ alt
+ n
(Mac) führen Sie direkt den nächsten Chunk aus.
Setzen Sie ein sinnvolles Arbeitsverzeichnis für den Übungszettel (in der Regel der Ordner, in dem Ihre .Rmd liegt). Aber Vorsicht: Beim Rendern (Knit) geht RStudio davon aus, dass das Working-Directory das ist, in dem auch die .Rmd-Datei liegt. Dies ist besonders wichtig, wenn es um relative Links geht.
Laden Sie den Datensatz starwars.csv herunter (Rechtsklick > Ziel speichern unter oder Rechtsklick > Verknüpfte Datei laden) und speichern Sie ihn in Ihrem Arbeitsverzeichnis (idealerweise haben Sie noch den Ordner vom letzten Übungszettel - speichern Sie den Datensatz im Unterordner /data).
Laden Sie die Pakete des tidyverse
und fügen Sie eine entsprechende Code-Zeile an den Beginn Ihres Dokuments ein.
Lesen Sie den Datensatz starwars.csv
unter dem Namen sw_data
in R ein.
Schlagen Sie für Erklärungen zur Verwendung von lm()
in Kapitel 7.4.2 und zur Interpretation des Outputs in Kapitel 7.5 von Discovering Statistics Using R (Field, 2012) nach.
Erstellen Sie ein Regressions-Modell namens m_height
, in dem Sie das Gewicht durch die Größe der Personen im Datensatz vorhersagen. Nutzen Sie dafür die FUnktion lm()
.
Lassen Sie sich eine Zusammenfassung der Analyse mit summary()
anzeigen.
Schreiben Sie mit den Werten aus dem Output aus summary()
die Regressionsgleichung auf.
Interpretieren Sie die Regression
mass
). Hinweis: Die Werte in mass
sind in Kilogramm angegeben.Der Plot erzeugt einen Verdacht: Wird die Regression von einem einzigen Extremwert verzerrt? Wir wollen dem weiter auf den Grund gehen.
Wenden Sie die Funktion plot()
auf das Regressionsmodell an, das Sie oben erzeugt haben. Folgen Sie nun den Anweisungen in der Konsole. Dort sollten Sie die Aufforderung “Drücke Eingabetaste für den nächsten Plot:” sehen. Insgesamt werden Ihnen nacheinander vier Plots angezeigt.
Lesen Sie diesen kurzen Artiekl. Finden Sie die folgenden Dinge für jeden Plot heraus:
Schauen Sie sich nun noch einmal die vier Plots an. Was fällt Ihnen auf?
Identifizieren Sie, zu welcher Person die auffällige Beobachtung gehört. (Hinweis: In den diagnostischen Plots steht neben Extremwerten in der Regel die zugehörige Zeile im Datensatz.)
Erstellen Sie eine Kopie von sw_data
namens sw_data_ex
, in der Sie den problematischen Fall ausschließen, den Sie oben identifiziert haben.
Führen Sie erneut eine Regressionsanalyse durch und lassen Sie sich den Output mit summary()
anzeigen.
Erstellen Sie, wie oben, einen Scatterplot mit Regressionslinie, basierend auf den neuen Daten. (Tipp: Sie können hier sehr viel Code wiederverwenden.)
Vergleichen Sie die erste und die zweite Regressionsanalyse in Bezug auf
Interpretieren Sie die Ergebnisse der Analyse.
Anmerkung: Diese Übungszettel basieren zum Teil auf Aufgaben aus dem Lehrbuch Dicovering Statistics Using R (Field, Miles & Field, 2012). Sie wurden für den Zweck dieser Übung modifiziert, und der verwendete R-Code wurde aktualisiert.
Field, A., Miles, J., & Field, Z. (2012). Discovering Statistics Using R. London: SAGE Publications Ltd.
Please give your answers in a .Rmd file. You may generate one from scratch using the file menu: ‘File > new file > R Markdown …’ Delete the text below Setup Chunk (starting from line 11). Alternatively you may use this sample Rmd by donloading it.
You may find the informations useful that you can find on the start page of this course.
Don’t hesitate to google for solutions. Effective web searches to find solutions for R-problems is a very useful ability, professionals to that too … A really good starting point might be the R area of the programmers platform Stackoverflow
You can find very useful cheat sheets for various R-related topics. A good starting point is the Base R Cheat Sheet.
This is a hands on course. We cannot present you all the useful commands in detail. Instead we give you links to useful ressources, where you might find hints to help you with the exercises.
Ressource | Description |
---|---|
Field, Chapter 7 (7.1 - 7.5, 7.9) | Book chapter with a step for step introduction to simple regression and how to do it in R. Recommendation! |
R for Data Science | Textbook with an introduction to R |
Peters Simple Regression Pages | Peters unit on simple regression. A resource to find running examples. |
R Tutorial | A step by step introduction to working with R. authored by Christian Treffenstädt. Useful as a reference for basic stuff. |
You can run directly the code chunk, where your cursor is currently in by using shortcut: strg
+ alt
+ c
(Windows) or cmd
+ alt
+ c
(Mac). You can run the following chunk with: strg
+ alt
+ n
(Windows) or cmd
+ alt
+ n
(Mac).
tidyverse
are loaded. Insert a code line for that in the beginning of your Rmd-file.starwars.csv
and store it as a data object named sw_data
.lm()
and chapter 7.5 for the interpretation of the results.m_height
where you predict mass by height. Use function lm()
for that.summary()
.mass
are kg.From the plot we suspect, that only one single outlier might have had too much influence on our results. We want to clarify that.
plot()
to the above generated regression model. Follow the hints on the console. There you should find “press enter for the next plot”. You will see four plots in total, one by one.sw_data
named sw_data_ex
where you exclude the problematic observation.summary()
.Annotation: This exercise sheet bases in part on exercises, that you can find in the textbook Dicovering Statistics Using R (Field, Miles & Field, 2012). They were modified for the purpose of this sheet and the R-code was actualized.
Field, A., Miles, J., & Field, Z. (2012). Discovering Statistics Using R. London: SAGE Publications Ltd.