GeeksforGeeks

Nach der Definition in Wikipedia besteht das Anscombe-Quartett aus vier Datensätzen, die fast identische einfache statistische Eigenschaften haben, aber sehr unterschiedlich erscheinen, wenn sie grafisch dargestellt werden. Jeder Datensatz besteht aus elf (x,y)-Punkten. Sie wurden 1973 von dem Statistiker Francis Anscombe konstruiert, um sowohl die Bedeutung der grafischen Darstellung von Daten vor ihrer Analyse als auch die Auswirkungen von Ausreißern auf die statistischen Eigenschaften zu demonstrieren.

Einfaches Verständnis:
Einst fand Francis John „Frank“ Anscombe, der ein angesehener Statistiker war, in seinem Traum 4 Sätze von 11 Datenpunkten und bat den Rat als seinen letzten Wunsch, diese Punkte zu zeichnen. Diese 4 Sätze von 11 Datenpunkten sind unten angegeben.

Danach analysierte der Rat sie nur mit Hilfe der deskriptiven Statistik und fand den Mittelwert, die Standardabweichung und die Korrelation zwischen x und y.

Bitte laden Sie die csv-Datei hier herunter.

Code: Python-Programm zum Ermitteln von Mittelwert, Standardabweichung, und die Korrelation zwischen x und y

import pandas as pd
import statistics
from scipy.stats import pearsonr
df = pd.read_csv("anscombe.csv")
list1 = df
list2 = df
print('%.1f' % statistics.mean(list1))
print('%.2f' % statistics.stdev(list1))
print('%.1f' % statistics.mean(list2))
print('%.2f' % statistics.stdev(list2))
corr, _ = pearsonr(list1, list2)
print('%.3f' % corr)



Ausgang:

9.03.327.52.030.816

Zum besseren Verständnis möchte ich Ihnen das Ergebnis in Tabellenform zeigen.

Code: Python-Programm zur Erstellung eines Streudiagramms

from matplotlib import pyplot as plt
import pandas as pd
df = pd.read_csv("anscombe.csv")
list1 = df
list2 = df
plt.scatter(list1, list2)
plt.show()



Für die Regressionslinie siehe dies.
Output:

Anmerkung: In der Definition wird erwähnt, dass das Anscombe-Quartett vier Datensätze umfasst, die nahezu identische einfache statistische Eigenschaften haben, aber sehr unterschiedlich erscheinen, wenn sie grafisch dargestellt werden.

Erläuterung dieser Ausgabe:

  • In der ersten (oben links), wenn man sich das Streudiagramm anschaut, sieht man, dass es eine lineare Beziehung zwischen x und y zu geben scheint.
  • In der zweiten (oben rechts), wenn man sich diese Abbildung anschaut, kann man schließen, dass es eine nicht-lineare Beziehung zwischen x und y gibt.
  • In der dritten Abbildung (unten links) kann man sagen, dass es eine perfekte lineare Beziehung für alle Datenpunkte gibt, außer für einen, der ein Ausreißer zu sein scheint, der weit von dieser Linie entfernt angezeigt wird.
  • Das vierte Bild (unten rechts) schließlich zeigt ein Beispiel, bei dem ein einziger Punkt mit hoher Hebelwirkung ausreicht, um einen hohen Korrelationskoeffizienten zu erzeugen.

Anwendung:
Das Quartett wird immer noch häufig verwendet, um zu veranschaulichen, wie wichtig es ist, einen Datensatz grafisch zu betrachten, bevor man mit der Analyse nach einer bestimmten Art von Beziehung beginnt, und wie unzureichend die grundlegenden statistischen Eigenschaften für die Beschreibung realistischer Datensätze sind.

Artikel-Tags :

Schreibe einen Kommentar