A Wikipedia definíciója szerint az Anscombe-kvartett négy olyan adathalmazt foglal magában, amelyek közel azonos egyszerű statisztikai tulajdonságokkal rendelkeznek, grafikonon azonban nagyon különbözőnek tűnnek. Mindegyik adatkészlet tizenegy (x,y) pontból áll. Ezeket 1973-ban Francis Anscombe statisztikus alkotta meg, hogy bemutassa mind az adatok elemzés előtti grafikonozás fontosságát, mind a kiugró értékek hatását a statisztikai tulajdonságokra.
Egyszerű megértés:
Egyszer Francis John “Frank” Anscombe, aki nagyhírű statisztikus volt, álmában 11 adatpontból álló 4 adathalmazt talált, és utolsó kívánságaként kérte a tanácsot, hogy ábrázolja ezeket a pontokat. A 11 adatpontból álló 4 adatsor az alábbiakban található.
Ezután a tanács csak leíró statisztika segítségével elemezte őket, és megállapította az átlagot, a szórást és az x és y közötti korrelációt.
Kérem, töltse le a csv fájlt innen.
Kód: Python program az átlag, a szórás megtalálására, és az x és y közötti korreláció
import
pandas as pd
import
statistics
from
scipy.stats
import
pearsonr
df
=
pd.read_csv(
"anscombe.csv"
)
list1
=
df
list2
=
df
print
(
'%.1f'
%
statistics.mean(list1))
print
(
'%.2f'
%
statistics.stdev(list1))
print
(
'%.1f'
%
statistics.mean(list2))
print
(
'%.2f'
%
statistics.stdev(list2))
corr, _
=
pearsonr(list1, list2)
print
(
'%.3f'
%
corr)
Kimenet:
9.03.327.52.030.816
Hadd mutassam meg az eredményt táblázatos formában a jobb megértés érdekében.
Code: Python program szórásdiagram készítésére
from
matplotlib
import
pyplot as plt
import
pandas as pd
df
=
pd.read_csv(
"anscombe.csv"
)
list1
=
df
list2
=
df
plt.scatter(list1, list2)
plt.show()
A regressziós vonalhoz lásd ezt.
Kimenet:
Megjegyzés: A definícióban szerepel, hogy az Anscombe-kvartett négy olyan adatsorból áll, amelyek közel azonos egyszerű statisztikai tulajdonságokkal rendelkeznek, grafikonon mégis nagyon különbözőnek tűnnek.
Ezeknek a kimeneteknek a magyarázata:
- Az elsőben(balra fent), ha megnézzük a szórásdiagramot, láthatjuk, hogy úgy tűnik, lineáris kapcsolat van x és y között.
- A másodikban(jobbra fent), ha megnézzük ezt az ábrát, arra következtethetünk, hogy nem lineáris kapcsolat van x és y között.
- A harmadikon(balra lent) azt mondhatjuk, hogy amikor tökéletes lineáris kapcsolat van az összes adatpontra, kivéve egyet, amely egy kiugrónak tűnik, ami jelzi, hogy messze van ettől az egyenestől.
- Végül a negyedik(jobbra lent) egy olyan példát mutat, amikor egyetlen magasan kiemelkedő pont elég ahhoz, hogy magas korrelációs együtthatót kapjunk.
Alkalmazás:
A kvartettet még mindig gyakran használják annak szemléltetésére, hogy mennyire fontos grafikusan megvizsgálni egy adathalmazt, mielőtt egy adott típusú kapcsolat szerinti elemzésbe kezdenénk, és hogy az alapvető statisztikai tulajdonságok nem elegendőek a reális adathalmazok leírására.