Análisis de Correlación Canónica | Ejemplos de Análisis de Datos en Stata

Información de la versión: El código de esta página fue probado en Stata 12.

El análisis de correlación canónica se utiliza para identificar y medir las asociaciones entre dos conjuntos de variables. La correlación canónica es apropiada en las mismas situaciones en las que lo sería la regresión múltiple, pero donde hay múltiples variables de resultado intercorrelacionadas. El análisis de correlación canónica determina un conjunto de variantes canónicas, combinaciones lineales ortogonales de las variables dentro de cada conjunto que explican mejor la variabilidad tanto dentro de los conjuntos como entre ellos.

Nota: El propósito de esta página es mostrar cómo utilizar varios comandos de análisis de datos.No cubre todos los aspectos del proceso de investigación que se espera que hagan los investigadores. En particular, no cubre la limpieza y comprobación de los datos, la verificación de los supuestos, los diagnósticos del modelo y los posibles análisis de seguimiento.

Ejemplos de análisis de correlación canónica

Ejemplo 1. Un investigador ha recogido datos sobre tres variables psicológicas, cuatro variables académicas (puntuaciones de pruebas estandarizadas) y el género de 600 estudiantes universitarios de primer año. Le interesa saber cómo se relaciona el conjunto de variables psicológicas con las variables académicas y el género. En particular, el investigador está interesado en saber cuántas dimensiones (variables canónicas) son necesarias para comprender la asociación entre los dos conjuntos de variables.

Ejemplo 2. Un investigador está interesado en explorar las asociaciones entre los factores de dos pruebas multidimensionales de personalidad, el MMPI y el NEO. Está interesada en saber qué dimensiones son comunes entre los tests y cuánta varianza se comparte entre ellos. Está específicamente interesada en encontrar si la dimensión de neuroticismo del NEO puede dar cuenta de una cantidad sustancial de varianza compartida entre las dos pruebas.

Descripción de los datos

Para nuestro ejemplo de análisis, vamos a ampliar el ejemplo 1 sobre la investigación de las asociaciones entre las medidas psicológicas y las medidas de rendimiento académico.

Tenemos un archivo de datos, mmreg.dta, con 600 observaciones sobre ocho variables. Las variables psicológicas son locus de control, autoconcepto y motivación. Las variables académicas son las pruebas estandarizadas de lectura (read), escritura (write), matemáticas (math) y ciencias (science). Además, la variable mujer es una variable indicadora cero-uno con el uno que indica que es una estudiante mujer.

Vamos a ver los datos.

use https://stats.idre.ucla.edu/stat/stata/dae/mmreg, clearsummarize locus_of_control self_concept motivation Variable | Obs Mean Std. Dev. Min Max-------------+--------------------------------------------------------locus_of_c~l | 600 .0965333 .6702799 -2.23 1.36self_concept | 600 .0049167 .7055125 -2.62 1.19 motivation | 600 .6608333 .3427294 0 1summarize read write math science female Variable | Obs Mean Std. Dev. Min Max-------------+-------------------------------------------------------- read | 600 51.90183 10.10298 28.3 76 write | 600 52.38483 9.726455 25.5 67.1 math | 600 51.849 9.414736 31.8 75.5 science | 600 51.76333 9.706179 26 74.2 female | 600 .545 .4983864 0 1

Métodos de análisis que podría considerar

A continuación se presenta una lista de algunos métodos de análisis que puede haber encontrado. Algunos de los métodos enumerados son bastante razonables, mientras que otros han caído en desgracia o tienen limitaciones.

  • Análisis de correlación canónica, el enfoque de esta página.
  • Regresiones OLS separadas: podría analizar estos datos utilizando análisis de regresión OLS separados para cada variable en un conjunto. La regresión OLS no producirá resultados multivariados y no proporciona información relativa a la dimensionalidad.
  • La regresión múltiple multivariada es una opción razonable si no tiene interés en la dimensionalidad.

Análisis de correlación canónica

A continuación utilizamos el comando canon para realizar un análisis de correlación canónica. Requiere dos conjuntos de variables encerradas con un par de paréntesis. Especificamos nuestras variables psicológicas como el primer conjunto de variables y nuestras variables académicas más el género como el segundo conjunto. Por comodidad, las variables del primer conjunto se denominan variables «u» y las del segundo conjunto se denominan variables «v».

El resultado del análisis de correlación canónica se compone de dos partes. La primera son los coeficientes canónicos brutos. La segunda parte comienza con las correlaciones canónicas e incluye las pruebas multivariadas generales de dimensionalidad.

Los coeficientes canónicos brutos pueden utilizarse para generar las variantes canónicas, representadas por las columnas (1 2 3) en las tablas de coeficientes, para cada conjunto. Se interpretan de forma análoga a la interpretación de los coeficientes de regresión, es decir, para la variable lectura, un aumento de una unidad en la lectura conduce a un aumento de 0,0446 en la primera variante canónica del conjunto «v» cuando todas las demás variables se mantienen constantes. He aquí otro ejemplo: ser mujer conduce a un aumento de 0,6321 en la dimensión 1 del conjunto «v» con los otros predictores mantenidos constantes.

El número de posibles variantes canónicas, también conocidas como dimensiones canónicas, es igual al número de variables en el conjunto más pequeño. En nuestro ejemplo, el conjunto «u» (el primer conjunto) tiene tres variables y el conjunto «v» (el segundo conjunto) tiene cinco. Esto da lugar a tres posibles variantes canónicas para cada conjunto, lo que corresponde a las tres columnas de cada conjunto y a tres coeficientes de correlación canónica en la salida. Las dimensiones canónicas son variables latentes análogas a los factores obtenidos en el análisis factorial, salvo que las variantes canónicas también maximizan la correlación entre los dos conjuntos de variables. En general, no todas las dimensiones canónicas serán estadísticamente significativas. Una dimensión significativa corresponde a una correlación canónica significativa y viceversa. Para probar si una correlación canónica es estadísticamente diferente de cero, podemos utilizar la opción de prueba en el comando canon como se muestra a continuación. No necesitamos volver a ejecutar el modelo, en su lugar sólo pedimos a Stata que vuelva a mostrar el modelo con información adicional sobre las pruebas solicitadas. Para probar todas las dimensiones canónicas, necesitamos especificar test(1 2 3). Esencialmente, test(1) es la prueba global sobre tres dimensiones, test(2) probará la significación de las correlaciones canónicas 2 y 3, y test(3) probará la significación de la tercera correlación canónica sola.

Para este modelo en particular hay tres dimensiones canónicas de las cuales sólo las dos primeras son estadísticamente significativas. La primera prueba de las dimensiones comprueba si las tres dimensiones combinadas son significativas (lo son), la siguiente prueba comprueba si las dimensiones 2 y 3combinadas son significativas (lo son). Finalmente, la última prueba comprueba si la dimensión 3, por sí sola, es significativa (no lo es). Por lo tanto, las dimensiones 1 y 2 deben ser significativas.

Ahora, podríamos querer inspeccionar qué coeficientes brutos para cada una de las variantes canónicas son significativos. Podemos solicitar los errores estándar y las pruebas significativas mediante la opción stderr.

Nótese que para la primera dimensión todas las variables, excepto matemáticas y ciencias, son estadísticamente significativas junto con la dimensión en su conjunto. Así, el locus de control, el autoconcepto y la motivación comparten cierta variabilidad entre sí, así como con leer, escribir y mujer, que también comparten variabilidad entre sí. Para la segunda dimensión, sólo son significativos el autoconcepto, la motivación, las matemáticas y la mujer. La tercera dimensión no es significativa y no se prestará atención a sus coeficientes ni a las pruebas de Wald.

Cuando las variables del modelo tienen desviaciones estándar muy diferentes, los coeficientes estandarizados permiten una comparación más fácil entre las variables. A continuación, mostraremos los coeficientes canónicos estandarizados para las dos primeras dimensiones (significativas).

canon (locus_of_control self_concept motivation)(read write math science female), first(2) stdcoef notestCanonical correlation analysis Number of obs = 600Standardized coefficients for the first variable set | 1 2 -------------+-------------------- locus_of_c~l | 0.8404 -0.4166 self_concept | -0.2479 -0.8379 motivation | 0.4327 0.6948 ----------------------------------Standardized coefficients for the second variable set | 1 2 -------------+-------------------- read | 0.4508 -0.0496 write | 0.3490 0.4092 math | 0.2205 0.0398 science | 0.0488 -0.8266 female | 0.3150 0.5406 ----------------------------------Canonical correlations: 0.4641 0.1675 0.1040

Los coeficientes canónicos estandarizados se interpretan de forma análoga a la interpretación de los coeficientes de regresión estandarizados. Por ejemplo, considere la variable lectura, un aumento de una desviación estándar en la lectura conduce a un aumento de 0,45 desviaciones estándar en la puntuación de la primera variante canónica para el conjunto 2 cuando las otras variables en el modelo se mantienen constantes.

A continuación, utilizaremos el comando estat correlations para ver todas las correlaciones dentro y entre conjuntos de variables.

estat correlationsCorrelations for variable list 1 | locus_~l self_c~t motiva~n -------------+------------------------------ locus_of_c~l | 1.0000 self_concept | 0.1712 1.0000 motivation | 0.2451 0.2886 1.0000 --------------------------------------------Correlations for variable list 2 | read write math sci female -------------+-------------------------------------------------- read | 1.0000 write | 0.6286 1.0000 math | 0.6793 0.6327 1.0000 science | 0.6907 0.5691 0.6495 1.0000 female | -0.0417 0.2443 -0.0482 -0.1382 1.0000 ----------------------------------------------------------------Correlations between variable lists 1 and 2 | locus_~l self_c~t motiva~n -------------+------------------------------ read | 0.3736 0.0607 0.2106 write | 0.3589 0.0194 0.2542 math | 0.3373 0.0536 0.1950 science | 0.3246 0.0698 0.1157 female | 0.1134 -0.1260 0.0981 --------------------------------------------

Por último, utilizaremos el comando estat loadings para mostrar las cargas de las variables en las dimensiones canónicas (variantes). Las cargas son correlaciones entre las variables y las variantes canónicas.

estat loadingsCanonical loadings for variable list 1 | 1 2 -------------+-------------------- locus_of_c~l | 0.9040 -0.3897 self_concept | 0.0208 -0.7087 motivation | 0.5672 0.3509 ----------------------------------Canonical loadings for variable list 2 | 1 2 -------------+-------------------- read | 0.8404 -0.3588 write | 0.8765 0.0648 math | 0.7639 -0.2979 science | 0.6584 -0.6768 female | 0.3641 0.7549 ----------------------------------Correlation between variable list 1 and canonical variates from list 2 | 1 2 -------------+-------------------- locus_of_c~l | 0.4196 -0.0653 self_concept | 0.0097 -0.1187 motivation | 0.2632 0.0588 ----------------------------------Correlation between variable list 2 and canonical variates from list 1 | 1 2 -------------+-------------------- read | 0.3900 -0.0601 write | 0.4068 0.0109 math | 0.3545 -0.0499 science | 0.3056 -0.1134 female | 0.1690 0.1265 ----------------------------------

Cosas a tener en cuenta

  • Como en el caso de la regresión multivariante, MANOVA y demás, para que la inferencia sea válida, el análisis de correlación canónica requiere la normalidad multivariante y el supuesto de homogeneidad de la varianza.
  • El análisis de correlación canónica asume una relación lineal entre las variantes canónicas y cada conjunto de variables.
  • De forma similar a la regresión multivariante, el análisis de correlación canónica requiere un gran tamaño de muestra.

Véase también

  • Manual de Stata en línea
    • canon
  • Afifi, A, Clark, V y May, S. 2004. Computer-Aided Multivariate Analysis. 4th ed.Boca Raton, Fl: Chapman & Hall/CRC.
  • Garson, G. David (2015). GLM Multivariante, MANOVA y Correlación Canónica. Asheboro, NC: Statistical Associates Publishers.
  • G. David Garson, Canonical Correlation in Statnotes: Topics in Multivariate Analysis
  • Pedhazur, E. 1997. Regresión múltiple en la investigación del comportamiento. 3rd ed. Orlando, Fl: Holt, Rinehart and Winston, Inc.

Deja un comentario