Analyse de corrélation canonique

Info de version : Le code de cette page a été testé dans Stata 12.

L’analyse de corrélation canonique est utilisée pour identifier et mesurer les associations entre deux ensembles de variables. La corrélation canonique est appropriée dans les mêmes situations où la régression multiple serait, mais où sont il y a de multiples variables de résultat intercorrélées. L’analyse de corrélation canonique détermine un ensemble de variables canoniques, des combinaisons linéaires orthogonales des variables dans chaque ensemble qui expliquent le mieux la variabilité à la fois dans et entre les ensembles.

Note : L’objectif de cette page est de montrer comment utiliser diverses commandes d’analyse de données.Elle ne couvre pas tous les aspects du processus de recherche que les chercheurs doivent effectuer. En particulier, elle ne couvre pas le nettoyage et la vérification des données, la vérification des hypothèses, les diagnostics de modèle et les analyses de suivi potentielles.

Exemples d’analyse de corrélation canonique

Exemple 1. Une chercheuse a recueilli des données sur trois variables psychologiques, quatre variables académiques (résultats de tests standardisés) et le sexe de 600 étudiants de première année de collège. Elle s’intéresse à la manière dont l’ensemble des variables psychologiques est lié aux variables académiques et au sexe. En particulier, la chercheuse est intéressée par le nombre de dimensions (variables canoniques) nécessaires pour comprendre l’association entre les deux ensembles de variables.

Exemple 2. Un chercheur souhaite explorer les associations entre les facteurs de deux tests de personnalité multidimensionnels, le MMPI et le NEO. Elle s’intéresse aux dimensions communes entre les tests et à la quantité de variance partagée entre eux. Elle est spécifiquement intéressée à trouver si la dimension du neuroticisme du NEO peut expliquer une quantité substantielle de variance partagée entre les deux tests.

Description des données

Pour notre exemple d’analyse, nous allons développer l’exemple 1 sur l’étude des associations entre les mesures psychologiques et les mesures de réussite scolaire.

Nous avons un fichier de données, mmreg.dta, avec 600 observations sur huit variables. Les variables psychologiques sont le locus de contrôle, le concept de soi et la motivation. Les variables académiques sont des tests standardisés en lecture (read), écriture (write), math (math) et science (science). De plus, la variable femelle est une variable indicatrice de zéro à un, le un indiquant une étudiante.

Regardons les données.

use https://stats.idre.ucla.edu/stat/stata/dae/mmreg, clearsummarize locus_of_control self_concept motivation Variable | Obs Mean Std. Dev. Min Max-------------+--------------------------------------------------------locus_of_c~l | 600 .0965333 .6702799 -2.23 1.36self_concept | 600 .0049167 .7055125 -2.62 1.19 motivation | 600 .6608333 .3427294 0 1summarize read write math science female Variable | Obs Mean Std. Dev. Min Max-------------+-------------------------------------------------------- read | 600 51.90183 10.10298 28.3 76 write | 600 52.38483 9.726455 25.5 67.1 math | 600 51.849 9.414736 31.8 75.5 science | 600 51.76333 9.706179 26 74.2 female | 600 .545 .4983864 0 1

Méthodes d’analyse que vous pourriez envisager

Vous trouverez ci-dessous une liste de certaines méthodes d’analyse que vous avez pu rencontrer. Certaines des méthodes énumérées sont tout à fait raisonnables tandis que d’autres sont tombées en désuétude ou ont des limites.

Analyse de corrélation canonique, le point central de cette page.
Régressions MCO séparées – Vous pourriez analyser ces données en utilisant des analyses de régression MCO séparées pour chaque variable dans un ensemble. Les régressions MCO ne produiront pas de résultats multivariés et ne rapportent pas d’informationsconcernant la dimensionnalité.
La régression multiple multivariée est une option raisonnable si vous n’avez pas d’intérêt pour la dimensionnalité.

Ci-après, nous utilisons la commande canon pour effectuer une analyse de corrélation canonique. Elle nécessite deux ensembles de variables entourés d’une paire de parenthèses. Nous spécifions nos variables psychologiques comme premier ensemble de variables et nos variables académiques plus le sexe comme deuxième ensemble. Par commodité, les variables du premier ensemble sont appelées variables « u » et les variables du second ensemble sont appelées variables « v ».

La sortie pour l’analyse de corrélation canonique est composée de deux parties. La première est constituée des coefficients canoniques bruts. La deuxième partie commence par les corrélations canoniques et comprend les tests multivariés globaux de dimensionnalité.

Les coefficients canoniques bruts peuvent être utilisés pour générer les variables canoniques, représentées par les colonnes (1 2 3) dans les tableaux de coefficients, pour chaque ensemble. Ils sont interprétés de manière analogue à l’interprétation des coefficients de régression : par exemple, pour la variable lire, une augmentation d’une unité de la lecture entraîne une augmentation de 0,0446 dans la première variate canonique de l’ensemble « v » lorsque toutes les autres variables sont maintenues constantes. Voici un autre exemple : le fait d’être une femme entraîne une augmentation de 0,6321 dans la dimension 1 de l’ensemble » v « , les autres prédicteurs étant maintenus constants.

Le nombre de variantes canoniques possibles, également appelées dimensions canoniques, est égal au nombre de variables de l’ensemble plus petit. Dans notre exemple, l’ensemble « u » (le premier ensemble) comporte trois variables et l’ensemble « v » (le deuxième ensemble) en comporte cinq. Cela conduit à trois variables canoniques possibles pour chaque ensemble, ce qui correspond aux trois colonnes pour chaque ensemble et aux trois coefficients de corrélation canoniques dans la sortie. Les dimensions canoniques sont des variables latentes qui sont analogues aux facteurs obtenus dans l’analyse factorielle, sauf que les variantes canoniques maximisent également la corrélation entre les deux ensembles de variables. En général, toutes les dimensions canoniques ne sont pas statistiquement significatives. Une dimension significative correspond à une corrélation canonique significative et vice versa. Pour tester si une corrélation canonique est statistiquement différente de zéro, nous pouvons utiliser l’option test de la commande canon, comme indiqué ci-dessous. Nous n’avons pas besoin de réexécuter le modèle, mais nous demandons simplement à Stata de réafficher le modèle avec des informations supplémentaires sur les tests demandés. Afin de tester toutes les dimensions canoniques, nous devons spécifier test(1 2 3). Essentiellement, test(1) est le test global sur trois dimensions, test(2) testera la signification des corrélations canoniques 2 et 3, et test(3) testera la signification de la troisième corrélation canonique seule.

Pour ce modèle particulier, il y a trois dimensions canoniques dont seules les deux premières sont statistiquement significatives. Le premier test des dimensions teste si les trois dimensions combinées sont significatives (elles le sont), le test suivant teste si les dimensions 2 et 3combinées sont significatives (elles le sont). Enfin, le dernier test vérifie si la dimension 3, par elle-même, est significative (elle ne l’est pas). Par conséquent, les dimensions 1 et 2 doivent chacune être significatives.

Maintenant, nous pourrions vouloir inspecter quels coefficients bruts pour chacune des variables canoniques sont significatifs. Nous pouvons demander les erreurs standard et les tests significatifs via l’option stderr.

Notez que pour la première dimension, toutes les variables, à l’exception des mathématiques et des sciences, sont statistiquement significatives ainsi que la dimension dans son ensemble. Ainsi, le locus de contrôle, le concept de soi et la motivation partagent une certaine variabilité entre eux, ainsi qu’avec lire, écrire et femme, qui partagent également une variabilité entre eux. Pour la deuxième dimension, seuls le concept de soi, la motivation, les mathématiques et les femmes sont significatifs. La troisièmedimension n’est pas significative et aucune attention ne sera portée à ses coefficients ou aux tests de Wald.

Lorsque les variables du modèle ont des écarts types très différents,les coefficients standardisés permettent de faciliter les comparaisons entre les variables. Ensuite, nous allons afficher les coefficients canoniques standardisés pour les deux premières dimensions (significatives).

canon (locus_of_control self_concept motivation)(read write math science female), first(2) stdcoef notestCanonical correlation analysis Number of obs = 600Standardized coefficients for the first variable set | 1 2 -------------+-------------------- locus_of_c~l | 0.8404 -0.4166 self_concept | -0.2479 -0.8379 motivation | 0.4327 0.6948 ----------------------------------Standardized coefficients for the second variable set | 1 2 -------------+-------------------- read | 0.4508 -0.0496 write | 0.3490 0.4092 math | 0.2205 0.0398 science | 0.0488 -0.8266 female | 0.3150 0.5406 ----------------------------------Canonical correlations: 0.4641 0.1675 0.1040

Les coefficients canoniques standardisés sont interprétés de manière analogue à l’interprétation des coefficients de régression standardisés. Par exemple, considérons la variable lire, une augmentation d’un écart-type de la lecture entraîne une augmentation de 0,45 écart-type du score de la première variante canonique pour l’ensemble 2 lorsque les autres variables du modèle sont maintenues constantes.

Puis, nous utiliserons la commande estat correlations pour examiner toutes les corrélations au sein et entre les ensembles de variables.

estat correlationsCorrelations for variable list 1 | locus_~l self_c~t motiva~n -------------+------------------------------ locus_of_c~l | 1.0000 self_concept | 0.1712 1.0000 motivation | 0.2451 0.2886 1.0000 --------------------------------------------Correlations for variable list 2 | read write math sci female -------------+-------------------------------------------------- read | 1.0000 write | 0.6286 1.0000 math | 0.6793 0.6327 1.0000 science | 0.6907 0.5691 0.6495 1.0000 female | -0.0417 0.2443 -0.0482 -0.1382 1.0000 ----------------------------------------------------------------Correlations between variable lists 1 and 2 | locus_~l self_c~t motiva~n -------------+------------------------------ read | 0.3736 0.0607 0.2106 write | 0.3589 0.0194 0.2542 math | 0.3373 0.0536 0.1950 science | 0.3246 0.0698 0.1157 female | 0.1134 -0.1260 0.0981 --------------------------------------------

Enfin, nous utiliserons la commande estat loadings pour afficher les loadings des variables sur les dimensions canoniques (variates). Cesloadings sont des corrélations entre les variables et les variates canoniques.

estat loadingsCanonical loadings for variable list 1 | 1 2 -------------+-------------------- locus_of_c~l | 0.9040 -0.3897 self_concept | 0.0208 -0.7087 motivation | 0.5672 0.3509 ----------------------------------Canonical loadings for variable list 2 | 1 2 -------------+-------------------- read | 0.8404 -0.3588 write | 0.8765 0.0648 math | 0.7639 -0.2979 science | 0.6584 -0.6768 female | 0.3641 0.7549 ----------------------------------Correlation between variable list 1 and canonical variates from list 2 | 1 2 -------------+-------------------- locus_of_c~l | 0.4196 -0.0653 self_concept | 0.0097 -0.1187 motivation | 0.2632 0.0588 ----------------------------------Correlation between variable list 2 and canonical variates from list 1 | 1 2 -------------+-------------------- read | 0.3900 -0.0601 write | 0.4068 0.0109 math | 0.3545 -0.0499 science | 0.3056 -0.1134 female | 0.1690 0.1265 ----------------------------------

Considérations à prendre en compte

Comme dans le cas de la régression multivariée, MANOVA et ainsi de suite, pour une inférence valide, l’analyse de corrélation canonique nécessite l’hypothèse de normalité multivariée et d’homogénéité de la variance.
L’analyse de corrélation canonique suppose une relation linéaire entre les variables canoniques et chaque ensemble de variables.
Similaire à la régression multivariée, l’analyse de corrélation canonique nécessite une grande taille d’échantillon.

Voir aussi

Manuel en ligne de Stata
- canon

Afifi, A, Clark, V et May, S. 2004. Analyse multivariée assistée par ordinateur. 4th ed.Boca Raton, Fl : Chapman & Hall/CRC.
Garson, G. David (2015). GLM multivarié, MANOVA et corrélation canonique. Asheboro, NC : Statistical Associates Publishers.
G. David Garson, Corrélation canonique dans Statnotes : Topics in Multivariate Analysis
Pedhazur, E. 1997. La régression multiple dans la recherche comportementale. 3rd ed. Orlando, Fl : Holt, Rinehart et Winston, Inc.

Analyse de corrélation canonique | Exemples d’analyse de données Stata

Exemples d’analyse de corrélation canonique

Description des données

Méthodes d’analyse que vous pourriez envisager