Según la definición de la Wikipedia, el cuarteto de Anscombe comprende cuatro conjuntos de datos que tienen propiedades estadísticas simples casi idénticas, pero que parecen muy diferentes cuando se grafican. Cada conjunto de datos consta de once puntos (x,y). Fueron construidos en 1973 por el estadístico Francis Anscombe para demostrar tanto la importancia de graficar los datos antes de analizarlos como el efecto de los valores atípicos en las propiedades estadísticas.
Entendimiento simple:
Una vez Francis John «Frank» Anscombe, que era un estadístico de gran reputación, encontró 4 conjuntos de 11 puntos de datos en su sueño y pidió al consejo como su último deseo graficar esos puntos. Esos 4 conjuntos de 11 puntos de datos se dan a continuación.
Después de eso, el consejo los analizó utilizando sólo la estadística descriptiva y encontró la media, la desviación estándar, y la correlación entre x e y.
Por favor, descargue el archivo csv aquí.
Código: Programa en Python para encontrar la media, la desviación estándar, y la correlación entre x e y
import
pandas as pd
import
statistics
from
scipy.stats
import
pearsonr
df
=
pd.read_csv(
"anscombe.csv"
)
list1
=
df
list2
=
df
print
(
'%.1f'
%
statistics.mean(list1))
print
(
'%.2f'
%
statistics.stdev(list1))
print
(
'%.1f'
%
statistics.mean(list2))
print
(
'%.2f'
%
statistics.stdev(list2))
corr, _
=
pearsonr(list1, list2)
print
(
'%.3f'
%
corr)
Salida:
9.03.327.52.030.816
Pues déjame que te muestre el resultado de forma tabular para una mejor comprensión.
Code: Programa de Python para trazar un gráfico de dispersión
from
matplotlib
import
pyplot as plt
import
pandas as pd
df
=
pd.read_csv(
"anscombe.csv"
)
list1
=
df
list2
=
df
plt.scatter(list1, list2)
plt.show()
Para la línea de regresión consulte esto.
Salida:
Nota: Se menciona en la definición que el cuarteto de Anscombe comprende cuatro conjuntos de datos que tienen propiedades estadísticas simples casi idénticas, pero que parecen muy diferentes cuando se grafican.
Explicación de esta salida:
- En la primera (arriba a la izquierda) si se observa el gráfico de dispersión se verá que parece haber una relación lineal entre x e y.
- En la segunda (arriba a la derecha) si se observa esta figura se puede concluir que hay una relación no lineal entre x e y.
- En la tercera(abajo a la izquierda) se puede decir cuando hay una relación lineal perfecta para todos los puntos de datos excepto uno que parece ser un valor atípico que se indica estar lejos de esa línea.
- Por último, el cuarto(abajo a la derecha) muestra un ejemplo cuando un punto de alto apalancamiento es suficiente para producir un alto coeficiente de correlación.
Aplicación:
El cuarteto se sigue utilizando a menudo para ilustrar la importancia de mirar un conjunto de datos gráficamente antes de comenzar a analizar de acuerdo con un tipo particular de relación, y la insuficiencia de las propiedades estadísticas básicas para describir conjuntos de datos realistas.