×
Net-Mathebuch
Sekundarstufe 2
 

Seite: baa_boxplots
Diese Seite wurde aktualisiert am 20.10.2023

LOGIN
Benutzer:
Passwort:
 
Geogebra-

Chat

Quelle: https://nwm2.net-schulbuch.de/index.php
Druckversion vom 24.04.2024 03:55 Uhr
Startseite Qualifikationsphase Stochastik Grundlagen
Startseite Qualifikationsphase Stochastik Grundlagen Diese Seite wurde aktualisiert am 20.10.2023

Boxplots erstellen (optional)

 

Boxplots sind schon aus der Sekundarstufe I bekannt. Sie sind ein wichtiges Hilfsmittel zur Veranschaulichung in der Statistik. Dort sind sie in vielen Fällen eine echte Alternative zu Histogrammen.
Die hier folgenden Betrachtungen dienen der Vertiefung, können aber im Allgemeinen übersprungen werden.

 Der Boxplot (deutsch Kastengrafik) ist ein Diagramm, das zur grafischen Darstellung der Verteilung einer Zufallsgröße verwendet wird. Es fasst dabei fünf "Punkte" der Verteilung in einer grafischen Darstellung zusammen, die schnell einen Eindruck liefern, in welchem Bereich die Daten liegen und wie sie sich über diesen Bereich verteilen. Die fünf Punkte sind  der Median, die zwei Quartile und die beiden Extremwerte

 

Der abgebildete Boxplot stammt von der folgenden sortierten Urliste mit 111 Daten.
Die Daten stammen aus der Erfassung von Körpergrößen [cm] sechsjähriger Mädchen. 

107,107,108,108,109,109,110,110,110,111,111,112,112,112,112,112,
113,113,113,113,113,113,113,114,114,114,114,114,114,114,114,114,
115,115,115,115,115,115,115,115,115,115,115,115,115,115,116,116,
116,116,116,116,116,116,116,117,117,117,117,117,117,117,117,117,
117,117,117,117,118,118,118,118,119,119,119,119,119,119,119,119,
119,119,119,119,120,120,120,120,120,120,120,120,120,120,120,121,
121,121,121,122,122,122,122,122,123,123,124,124,124,127,131

Die wesentlichen fünf Punkte sind in der Liste eingefärbt.

Die Extremwerte sind blau markiert. In der Boxplot-Grafik werden sie durch die Enden der sogenannten "Antennen" dargestellt.

Der Median ist rot markiert. Der Median einer Auflistung von Zahlenwerten ist der Wert, der an der mittleren (zentralen) Stelle steht, wenn man die Werte der Größe nach sortiert. Im vorliegenden Fall von 111 Werten ist das der 56. Wert. An dieser Stelle steht die Zahl 117.
In der Grafik ist das der durch einen weißen Strich markierte Wert in der orangen Box.
Die besondere Bedeutung des Median ist, dass 50% aller Werte größer bzw. kleiner als der Median sind.

Ganz analog sind die beiden Quartile definiert. Das eine teilt die unter dem Median liegenden Werte in zwei gleich große Gruppen. Der andere die oberhalb des Median liegende Hälfte.
Diese beiden Werte werden in der Boxplot-Grafik durch den unteren bzw. oberen Rand der Box repräsentiert.
Mann nennt diese beiden Quartile auch 25%-Quantil bzw. 75%-Quantil.

Ein Boxplot gibt schnell einen Überblick über die Verteilung der Daten. Die gemessenen Körpergrößen bei sechsjährigen Mädchen reichen von 107 cm bis 131 cm. Die Hälfte der Mädchen war zwischen 114 cm und 119 cm groß. Diesen Abstand der Quartile von 5 cm nennt man auch Interquartilsabstand (IQA) oder Quartilsabstand. Wegen des englischsprachigen Begriffs interquartile range wird statt IQA in der Literatur häufiger die Abkürzung IQR verwendet.

 

Die Gegenüberstellung von Histogramm und Boxplot derselben Daten zeigt die Konzentration der Werte im Bereich der Box und deutlich auch die "Schiefe" der Verteilung.

 

Die im Histogramm sichtbaren Einzelwerte 127 cm und 131 cm legen eine besondere Behandlung von sogenannten "Ausreißern" nahe. Dazu weiter unten mehr.

 

Die nachfolgenden Formeln sind nur für diejenigen interessant, die ein Computerprogramm zum automatischen Erzeugen von Boxplots schreiben wollen. Im Allgemeinen kann diese Darstellung übersprungen werden.
Hinweise zur Berechnung der der Werte für die Quartile und den Median in der sortierten Liste mit n Werten:

 

 

Algorithmus zum Erstellen einer Boxplot-Grafik

Wenn die Daten nicht sortiert vorliegen, werden sie zuerst sortiert.

Dann werden die Werte der fünf Punkte Minumum, unteres Quartil, Median, oberes Quartil und Maximum bestimmt.

Zuerst zeichnet man die Achse vom Minimum bis zum Maximum.

Die Box zeichnen wir, indem wir das 25%-Quantil und das 75%-Quantil durch Querstriche markieren und dann zu einem Rechteck verbinden. Zusätzlich zeichnen wir eine Linie für den Median.

Im letzten Schritt werden die beiden "Antennen" gezeichnet.


 

Dieser Algorithmus wird in der folgenden "Diashow" am Beispiel illustriert.

 

 

 

 Erzeugen von Boxplots aus Daten in einer Kalkulationstabelle

 Vorgehensweise dargestellt an OpenOffice Calk

 Die Daten befinden sich im Tabellenbereich A1:E22

Die fünf zur Darstellung des Boxplots benötigten Werte finden Sie in der umrahmten Box. Die Werte der Zellen H5 bis H9 enthalten folgende Formeln:

H5: =MAX(A1:E22)
H6: =QUARTILE(A1:E22;3) (3 bedeutet 3. Quartil)
H7: =MEDIAN(A1:E22)
H8: =QUARTILE(A1:E22;1)
H9: =MIN(A1:E22)

vergleichbare Formeln verwenden EXCEL und andere.

Im Allgemeinen gibt es keine Routinen zur automatischen Erstellung des Boxplot-Diagramms aus der Urliste oder aus den fünf berechneten Werten.
Computeralgebrasysteme und Statistikprogramme enthalten Routinen für diesen Zweck.

Wir haben alle Boxplots auf einem Raspberry Pi® mit Wolfram Mathematica mit dem Befehl BoxWhiskerChart[...] erstellt. BoxWhiskerChart[...] ermöglicht viele Konfigurationen und erlaubt die Darstellung von Varianten, die im Folgenden beschrieben werden.

 

 

 Darstellung von Ausreißern in der Boxplot-Grafik

Im Gegensatz zur Definition der Box ist die Definition der Antennen nicht einheitlich.

Die folgende Grafik unterscheidet sich von den obigen Darstellungen durch die einzelnd eingezeichneten Ausreißer. Die Enden der "Antennen" - hier Whisker (engl. = Barthaar) genannt - können dann nicht in jedem Fall dem Minimum bzw.Maximum entsprechen. Es sind in der Literatur verschiedene Wege dargestellt, die Ausreißer zu bestimmen und die Enden der Antennen zu berechnen.

   
Quelle: Wikipedia

In der Literatur werden im Wesentlichen zwei Möglichkeiten zur Darstellung von Ausreißern beschrieben.

Beschränkung der Antennenlänge durch ein Vielfaches des IQA

Eine Vorgehensweise besteht darin, die Länge der Whisker auf maximal das 1,5-Fache des Interquartilsabstands (1,5×IQA) zu beschränken. Dabei endet der Whisker jedoch nicht genau nach dieser Länge, sondern bei dem Wert aus den Daten, der noch innerhalb dieser Grenze liegt. Die Länge der Whisker wird also durch die Datenwerte und nicht allein durch den Interquartilsabstand bestimmt. Dies ist auch der Grund dafür, dass dann die Antennen nicht auf beiden Seiten gleich lang sind. Gibt es keine Werte außerhalb der Grenze von 1,5×IQA, wird die Länge wie oben maximalen bzw. minimalen Wert festgelegt. Andernfalls werden die Werte außerhalb der Whisker separat in das Diagramm eingetragen. Diese Werte können dann als ausreißerverdächtig behandelt werden oder werden direkt als Ausreißer bezeichnet. 

Beispiel:

Der Interquartilabstand (IQA) der obigen Liste von Körpergrößen beträgt 119 - 114 = 5.
Das 1,5-Fache ist dann 7,5. Also 114 - 7,5 = 106,5 und 119 + 7,5 = 126,5.
Wir interpretieren Werte kleiner als 106,5 und größer als 126,5 als Ausreißer.
Da keine Werte kleiner als 107 (= Minimum) vorkommen wählen wir 107 als Grenze für die untere Antenne.
Für die obere Antenne wählen wir als Grenz 124, da das der letzte Wert unterhalb von 126,5 ist. Die beiden Werte 127 und 131 werden als Ausreißer markiert.

Festlegung des Antennenlängen durch das 2,5%-Quantil bzw. 97,5%-Quantil

In dieser zweiten Möglichkeit erfolgt die Bestimmung des unteren Antennenendes durch das 2,5%-Quantil und die Berechnung des oberen durch das 97,5%-Quantil. Innerhalb dieser Antennengrenzen liegen somit 95 % aller beobachteten Werte. In dieser Darstellung gibt es also ab einem bestimmten Stichprobenumfang immer einzelnd dargestellte Punkte (die man dann nicht automatisch als Ausreißer interpretieren darf).

 

Quantil - Definition und Berechnung
Ein Quantil ist anschaulich ein Schwellenwert, der besagt, dass ein bestimmter Anteil (x %) der Werte kleiner als das Quantil, der Rest ist größer.Der Median oder die Quartile sind in diesem Sinne spezielle Quantile.
In der Praxis muss die Position des Wertes für das x%-Quantil in der sortierten Werteliste berechnet werden. In einer Liste mit n Werten ist die Position des x%-Quantils gegeben durch: x%*n. Ist x%*n nicht ganzzahlig, ist die Vorgehensweise analog zur Berechnung der Quartile.

Beispiel 1: das 2,5%-Quantil x0,025 der 111 Körpergrößen aus obigem Beispiel berechnet man folgendermaßen:

0,025 * 111 = 2.775 Wir verwenden also den Wert an der Position 3, also x0,025=108. Körpergrößen kleiner als 108 gelten danach als Ausreißer nach unten.

Besipiel 2: das 97,5%-Quantil x0,975 der 111 Körpergrößen aus obigem Beispiel berechnet analog:

0,975 * 111 = 108,225 Wir verwenden also den Wert an der Position 109, also x0,975=124. Körpergrößen größer als 124 gelten danach als Ausreißer nach oben.

 

©2024 NET-SCHULBUCH.DE

10.09  0.4255  8.1.28