GeeksforGeeks

Conform definiției date în Wikipedia, cvartetul lui Anscombe cuprinde patru seturi de date care au proprietăți statistice simple aproape identice, dar care apar foarte diferite atunci când sunt reprezentate grafic. Fiecare set de date este format din unsprezece puncte (x,y). Ele au fost construite în 1973 de către statisticianul Francis Anscombe pentru a demonstra atât importanța reprezentării grafice a datelor înainte de a le analiza, cât și efectul valorilor aberante asupra proprietăților statistice.

Înțelegere simplă:
Odată Francis John „Frank” Anscombe, care a fost un statistician de mare reputație, a găsit în visul său 4 seturi de 11 puncte de date și a cerut consiliului, ca ultimă dorință a sa, să reprezinte grafic aceste puncte. Aceste 4 seturi de 11 puncte de date sunt prezentate mai jos.

După aceea, consiliul le-a analizat folosind doar statistici descriptive și a găsit media, deviația standard și corelația dintre x și y.

Vă rugăm să descărcați fișierul csv aici.

Cod: Program Python pentru a găsi media, abaterea standard, și corelația dintre x și y

import pandas as pd
import statistics
. from scipy.stats import pearsonr
df = pd.read_csv("anscombe.csv")
list1 = df
list2 = df
print('%.1f' % statistics.mean(list1))
print('%.2f' % statistics.stdev(list1))
print('%.1f' % statistics.mean(list2))
print('%.2f' % statistics.stdev(list2))
corr, _ = pearsonr(list1, list2)
print('%.3f' % corr)



Scoate:

9.03.327.52.030.816

Așa că, pentru o mai bună înțelegere, permiteți-mi să vă arăt rezultatul sub formă de tabel.

Code: Python program to plot scatter plot

.

from matplotlib import pyplot as plt
import pandas as pd
df = pd.read_csv("anscombe.csv")
list1 = df
list2 = df
plt.scatter(list1, list2)
plt.show()



Pentru linia de regresie consultați acest lucru.
Output:

Nota: Se menționează în definiție că cvartetul lui Anscombe cuprinde patru seturi de date care au proprietăți statistice simple aproape identice, dar care apar foarte diferite atunci când sunt reprezentate grafic.

Explicarea acestei ieșiri:

  • În prima (stânga sus) dacă vă uitați la diagrama de dispersie veți vedea că pare să existe o relație liniară între x și y.
  • În cea de-a doua (dreapta sus) dacă vă uitați la această figură puteți concluziona că există o relație neliniară între x și y.
  • În cea de-a treia(stânga jos) puteți spune când există o relație liniară perfectă pentru toate punctele de date, cu excepția unuia care pare a fi o valoare aberantă care este indicat să fie departe de acea linie.
  • În cele din urmă, cel de-al patrulea(dreapta jos) arată un exemplu când un singur punct de mare efect de pârghie este suficient pentru a produce un coeficient de corelație ridicat.

Aplicații:
Cuartetul este încă adesea folosit pentru a ilustra importanța de a privi grafic un set de date înainte de a începe să analizeze în funcție de un anumit tip de relație și inadecvarea proprietăților statistice de bază pentru a descrie seturi de date realiste.

Articolul Tags :

Lasă un comentariu