GeeksforGeeks

Zgodnie z definicją podaną w Wikipedii, kwartet Anscombe’a składa się z czterech zbiorów danych, które mają prawie identyczne proste właściwości statystyczne, ale wydają się bardzo różne, gdy się je wykreśli. Każdy zestaw danych składa się z jedenastu (x,y) punktów. Zostały one skonstruowane w 1973 roku przez statystyka Francisa Anscombe’a w celu zademonstrowania zarówno znaczenia wykresów danych przed ich analizą, jak i wpływu wartości odstających na właściwości statystyczne.

Proste zrozumienie:
Once Francis John „Frank” Anscombe, który był statystykiem o wielkiej reputacji, znalazł 4 zestawy 11 punktów danych w swoim śnie i poprosił radę jako jego ostatnie życzenie, aby wykreślić te punkty. Te 4 zestawy 11 punktów danych są podane poniżej.

Po tym, rada przeanalizowała je używając tylko statystyk opisowych i znalazła średnią, odchylenie standardowe i korelację między x i y.

Proszę pobrać plik csv tutaj.

Kod: Program w Pythonie do znalezienia średniej, odchylenia standardowego, i korelację między x i y

import pandas as pd
import statistics
. from scipy.stats import pearsonr
df = pd.read_csv("anscombe.csv")
list1 = df
list2 = df
print('%.1f' % statistics.mean(list1))
print('%.2f' % statistics.stdev(list1))
print('%.1f' % statistics.mean(list2))
print('%.2f' % statistics.stdev(list2))
corr, _ = pearsonr(list1, list2)
print('%.3f' % corr)



Wyjście:

9.03.327.52.030.816

Pozwól więc, że pokażę ci wynik w sposób tabelaryczny dla lepszego zrozumienia.

Code: Python program to plot scatter plot

.

from matplotlib import pyplot as plt
import pandas as pd
df = pd.read_csv("anscombe.csv")



Dla linii regresji odnieś to.
Wyjście:

Uwaga: W definicji jest wspomniane, że kwartet Anscombe’a obejmuje cztery zbiory danych, które mają prawie identyczne proste właściwości statystyczne, ale wydają się bardzo różne, gdy się je wykresuje.

Objaśnienie tych danych wyjściowych:

  • W pierwszym (u góry po lewej), jeśli spojrzysz na wykres rozrzutu, zobaczysz, że wydaje się, iż istnieje liniowa zależność między x i y.
  • W drugim (u góry po prawej), jeśli spojrzysz na ten rysunek, możesz dojść do wniosku, że istnieje nieliniowa zależność między x i y.
  • W trzecim (na dole po lewej) można powiedzieć, że istnieje doskonała liniowa zależność dla wszystkich punktów danych, z wyjątkiem jednego, który wydaje się być odstający, który jest wskazany być daleko od tej linii.
  • Wreszcie, czwarty (na dole po prawej) pokazuje przykład, kiedy jeden punkt o wysokiej dźwigni wystarczy, aby uzyskać wysoki współczynnik korelacji.

Zastosowanie:
Kwartet jest nadal często używany do zilustrowania znaczenia graficznego spojrzenia na zestaw danych przed rozpoczęciem analizy według określonego typu relacji, a także nieadekwatności podstawowych właściwości statystyki do opisywania realistycznych zbiorów danych.

Tagi artykułu :

Dodaj komentarz