GeeksforGeeks

Podle definice uvedené ve Wikipedii Anscombovo kvarteto zahrnuje čtyři soubory dat, které mají téměř identické jednoduché statistické vlastnosti, ale při grafickém znázornění se jeví jako velmi odlišné. Každá datová sada se skládá z jedenácti bodů (x,y). Sestavil je v roce 1973 statistik Francis Anscombe, aby demonstroval jak důležitost grafického znázornění dat před jejich analýzou, tak vliv odlehlých hodnot na statistické vlastnosti.

Jednoduché porozumění:
Kdysi Francis John „Frank“ Anscombe, který byl uznávaným statistikem, našel ve svém snu 4 sady 11 datových bodů a jako své poslední přání požádal radu, aby tyto body zakreslila. Tyto 4 sady 11 datových bodů jsou uvedeny níže.

Poté je rada analyzovala pouze pomocí popisné statistiky a zjistila průměr, směrodatnou odchylku a korelaci mezi x a y.

Prosím, stáhněte si soubor csv zde.

Kód: Program v jazyce Python pro zjištění průměru, směrodatné odchylky, a korelaci mezi x a y

import pandas as pd
import statistics
. from scipy.stats import pearsonr
df = pd.read_csv("anscombe.csv")
list1 = df
list2 = df
print('%.1f' % statistics.mean(list1))
print('%.2f' % statistics.stdev(list1))
print('%.1f' % statistics.mean(list2))
print('%.2f' % statistics.stdev(list2))
corr, _ = pearsonr(list1, list2)
print('%.3f' % corr)



Výstup:

9.03.327.52.030.816

Pro lepší pochopení vám tedy ukážu výsledek v tabulce.

Code: Program Python pro vykreslení grafu rozptylu

.

from matplotlib import pyplot as plt
import pandas as pd
df = pd.read_csv("anscombe.csv")
list1 = df
list2 = df
plt.scatter(list1, list2)
plt.show()



Pro regresní přímku viz tento.
Výstup:

Poznámka: V definici je uvedeno, že Anscombovo kvarteto zahrnuje čtyři soubory dat, které mají téměř identické jednoduché statistické vlastnosti, ale při grafickém znázornění se jeví jako velmi odlišné.

Vysvětlení tohoto výstupu:

  • V prvním případě (vlevo nahoře), pokud se podíváte na graf rozptylu, uvidíte, že se zdá, že mezi x a y existuje lineární vztah.
  • V druhém případě (vpravo nahoře), pokud se podíváte na tento obrázek, můžete dojít k závěru, že mezi x a y existuje nelineární vztah.
  • Ve třetím(vlevo dole) můžete říci, když existuje dokonalý lineární vztah pro všechny datové body kromě jednoho, který se zdá být odlehlým bodem, který je uveden být daleko od této přímky.
  • Nakonec čtvrtý(vpravo dole) ukazuje příklad, kdy k vytvoření vysokého korelačního koeficientu stačí jeden bod s vysokou odchylkou.

Použití:
Kvarteto se stále často používá k ilustraci důležitosti grafického pohledu na soubor dat před zahájením analýzy podle určitého typu vztahu a nedostatečnosti základních statistických vlastností pro popis reálných souborů dat.

Article Tags :

Napsat komentář