GeeksforGeeks

A Wikipedia definíciója szerint az Anscombe-kvartett négy olyan adathalmazt foglal magában, amelyek közel azonos egyszerű statisztikai tulajdonságokkal rendelkeznek, grafikonon azonban nagyon különbözőnek tűnnek. Mindegyik adatkészlet tizenegy (x,y) pontból áll. Ezeket 1973-ban Francis Anscombe statisztikus alkotta meg, hogy bemutassa mind az adatok elemzés előtti grafikonozás fontosságát, mind a kiugró értékek hatását a statisztikai tulajdonságokra.

Egyszerű megértés:
Egyszer Francis John “Frank” Anscombe, aki nagyhírű statisztikus volt, álmában 11 adatpontból álló 4 adathalmazt talált, és utolsó kívánságaként kérte a tanácsot, hogy ábrázolja ezeket a pontokat. A 11 adatpontból álló 4 adatsor az alábbiakban található.

Ezután a tanács csak leíró statisztika segítségével elemezte őket, és megállapította az átlagot, a szórást és az x és y közötti korrelációt.

Kérem, töltse le a csv fájlt innen.

Kód: Python program az átlag, a szórás megtalálására, és az x és y közötti korreláció

import pandas as pd
import statistics
from scipy.stats import pearsonr
df = pd.read_csv("anscombe.csv")
list1 = df
list2 = df
print('%.1f' % statistics.mean(list1))
print('%.2f' % statistics.stdev(list1))
print('%.1f' % statistics.mean(list2))
print('%.2f' % statistics.stdev(list2))
corr, _ = pearsonr(list1, list2)
print('%.3f' % corr)



Kimenet:

9.03.327.52.030.816

Hadd mutassam meg az eredményt táblázatos formában a jobb megértés érdekében.

Code: Python program szórásdiagram készítésére

from matplotlib import pyplot as plt
import pandas as pd
df = pd.read_csv("anscombe.csv")
list1 = df
list2 = df
plt.scatter(list1, list2)
plt.show()



A regressziós vonalhoz lásd ezt.
Kimenet:

Megjegyzés: A definícióban szerepel, hogy az Anscombe-kvartett négy olyan adatsorból áll, amelyek közel azonos egyszerű statisztikai tulajdonságokkal rendelkeznek, grafikonon mégis nagyon különbözőnek tűnnek.

Ezeknek a kimeneteknek a magyarázata:

  • Az elsőben(balra fent), ha megnézzük a szórásdiagramot, láthatjuk, hogy úgy tűnik, lineáris kapcsolat van x és y között.
  • A másodikban(jobbra fent), ha megnézzük ezt az ábrát, arra következtethetünk, hogy nem lineáris kapcsolat van x és y között.
  • A harmadikon(balra lent) azt mondhatjuk, hogy amikor tökéletes lineáris kapcsolat van az összes adatpontra, kivéve egyet, amely egy kiugrónak tűnik, ami jelzi, hogy messze van ettől az egyenestől.
  • Végül a negyedik(jobbra lent) egy olyan példát mutat, amikor egyetlen magasan kiemelkedő pont elég ahhoz, hogy magas korrelációs együtthatót kapjunk.

Alkalmazás:
A kvartettet még mindig gyakran használják annak szemléltetésére, hogy mennyire fontos grafikusan megvizsgálni egy adathalmazt, mielőtt egy adott típusú kapcsolat szerinti elemzésbe kezdenénk, és hogy az alapvető statisztikai tulajdonságok nem elegendőek a reális adathalmazok leírására.

Cikk Címkék :

Szólj hozzá!