5 Summary Statistics

Für dieses Kapitel benötigen Sie die folgenden Packages und den folgenden Data Frame:

library(tidyverse)
library(magrittr)
url <- "http://www.phonetik.uni-muenchen.de/~jmh/lehre/Rdf"
vdata <- read.table(file.path(url, "vdata.txt"))

Wenn man sich einen Überblick über Daten verschaffen möchte, sind sogenannte summary statitics (deskriptive Statistiken) häufig hilfreich. Zu solchen deskriptiven Werten zählen z.B. das arithmetische Mittel (Mittelwert), Median, Varianz, Standardabweichung, Minimum, Maximum, usw. Hier zeigen wir zunächst wie man solche Werte ohne Funktionen aus dem tidyverse berechnen kann. Da R eine Statistik-Software ist, sind solche Basis-Funktionen wie zur Berechnung des Mittelwerts immer verfügbar. Im Folgenden demonstrieren wir die wichtigsten Funktionen zur Berechnung von summary statistics anhand der F1-Werte in vdata:

mean(vdata$F1)             # arithmetisches Mittel

## [1] 407.3

median(vdata$F1)           # Median

## [1] 366

var(vdata$F1)              # Varianz

## [1] 21255

sd(vdata$F1)               # Standardabweichung

## [1] 145.8

min(vdata$F1)              # Minimum

## [1] 0

max(vdata$F1)              # Maximum

## [1] 1114

range(vdata$F1)            # Minimum & Maximum

## [1]    0 1114

quantile(vdata$F1, 0.25)   # 1. Quartil

## 25% 
## 300

quantile(vdata$F1, 0.75)   # 3. Quartil

##   75% 
## 509.8

IQR(vdata$F1)              # interquartiler Bereich

## [1] 209.8

5.1 Mittelwert & Median

Das arithmetische Mittel wird berechnet, indem man die Summe einer Anzahl \(n\) an Zahlen bildet, und diese Summe dann durch die Anzahl \(n\) teilt. Hier ist ein sehr einfaches Beispiel:

zahlen <- 1:5
summe <- sum(zahlen)
summe

## [1] 15

anzahl <- length(zahlen)
anzahl

## [1] 5

# Mittelwert:
summe/anzahl

## [1] 3

# zum Vergleich:
mean(zahlen)

## [1] 3

Der Median hingegen ist die mittig liegende Zahl in einer sortierten Zahlenreihe. Nehmen wir wieder obiges Beispiel (die Zahlen sind bereits aufsteigend sortiert):

zahlen

## [1] 1 2 3 4 5

median(zahlen)

## [1] 3

Bei einer geraden Anzahl von Zahlen berechnet man den Median als den Mittelwert der zwei mittig liegenden Werte, zum Beispiel:

zahlen <- 1:6
median(zahlen)

## [1] 3.5

mean(c(3, 4))

## [1] 3.5

Der Median ist robuster gegen sogenannte Ausreißer (engl. outlier) als der Mittelwert. Ausreißer sind Datenpunkte, die deutlich extremer sind als die Mehrheit der Datenpunkte. Hier wieder ein einfaches Beispiel:

zahlen <- c(1:5, 100)
zahlen

## [1]   1   2   3   4   5 100

mean(zahlen)

## [1] 19.17

median(zahlen)

## [1] 3.5

Die Zahl 100 ist ganz offensichtlich ein Ausreißer im Vektor zahlen. Der Mittelwert ist wegen dieses Ausreißers jetzt um ein Vielfaches höher als vorher, während der Median sich nur leicht verändert hat.

5.2 Varianz & Standardabweichung

Varianz und Standardabweichung sind verwandte Maße für die Streuung von Werten um ihren Mittelwert. Genauer gesagt ist die Varianz die Summe der quadrierten Abweichungen der Messwerte von ihrem Mittelwert geteilt durch die Anzahl der Messwerte minus 1, während die Standardabweichung die Quadratwurzel der Varianz ist. Am folgenden Beispiel können Sie nachvollziehen, wie man die Varianz und Standardabweichung “händisch” berechnet:

zahlen <- c(12, 6, 24, 3, 17)
# Mittelwert
m <- mean(zahlen)
m

## [1] 12.4

# quadrierte Abweichungen
quadr_abw <- (zahlen - m)^2
quadr_abw

## [1]   0.16  40.96 134.56  88.36  21.16

# Anzahl der Messwerte
n <- length(zahlen)
n

## [1] 5

# Summe der quadrierten Abweichungen
summe <- sum(quadr_abw)
summe

## [1] 285.2

# Varianz:
varianz <- summe / (n - 1)
varianz

## [1] 71.3

# Mit der Funktion var():
var(zahlen)

## [1] 71.3

Um jetzt die Standardabweichung daraus zu berechnen, die in der Statistik viel häufiger verwendet wird als die Varianz, brauchen wir nur noch die Quadratwurzel aus der Varianz zu ziehen:

std_abw <- sqrt(varianz)
std_abw

## [1] 8.444

# oder mit sd()
sd(zahlen)

## [1] 8.444

5.3 Quantile

Ein Quantil teilt Datenpunkte so auf, dass ein bestimmter Teil der Datenpunkte unterhalb des Quantils liegen. Quantil ist ein Überbegriff; je nachdem in wie viele Stücke man die Datenpunkte aufteilt, sagt man auch Perzentil (100 Stücke) oder Quartil (4 Stücke). Der Median ist ebenfalls ein Quantil, denn 50% der Daten liegen immer unter dem Median. In R berechnet die Funktion quantile() die Quantile. Die Funktion bekommt zuerst die Datenpunkte (also einen numerischen Vektor) und anschließend die Proportion der Datenpunkte, die unter dem zu berechnenden Wert liegen soll. Wichtige Quantile sind das erste und dritte Quartil, also die Schwellwerte, unter denen ein Viertel bzw. drei Viertel aller Datenpunkte liegen.

quantile(vdata$F1, 0.25)   # 1. Quartil

## 25% 
## 300

quantile(vdata$F1, 0.75)   # 3. Quartil

##   75% 
## 509.8

IQR(vdata$F1)              # interquartiler Bereich

## [1] 209.8

Die Differenz zwischen dem ersten und dritten Quartil wird auch interquartiler Bereich oder Interquartilsabstand (interquartile range) genannt und kann mit der Funktion IQR() berechnet werden.

5.4 Beispiel Boxplot

Ein Boxplot enthält viele der deskriptiven Informationen, die wir bis jetzt behandelt haben:

Median: Der Strich innerhalb der Box ist der Median.
Box: Die Box umfasst die mittleren 50% aller Datenpunkte. Das untere Ende der Box ist das erste Quartil (Q1), das obere Ende ist das dritte Quartil (Q3). Das heißt die Box ist genauso groß wie der Interquartilsabstand.
Whiskers: Die Whiskers erstrecken sich vom Q1 und vom Q3 aus zu dem niedrigsten/höchsten Datenpunkt, der innerhalb von 1.5 * IQR liegt. Diese Berechnung der Länge der Whiskers als 1.5 * IQR gilt für Boxplots, die mit ggplot2 erstellt wurden, aber nicht jeder Boxplot wird so berechnet.
Punkte: Ausreißer, also alle restlichen Datenpunkte, die nicht in der Box und den Whiskers enthalten sind.

Hier sehen Sie den Boxplot für F1 aus dem Data Frame vdata:

Wie man diesen Boxplot erstellt, erfahren Sie später in diesem Kurs.