Canonical Correlation Analysis | Stata Data Analysis Examples

Versie-info: De code voor deze pagina is getest in Stata 12.

Canonieke correlatieanalyse wordt gebruikt om de verbanden tussen twee verzamelingen variabelen te identificeren en te meten. Canonieke correlatie is geschikt in dezelfde situaties waarin meervoudige regressie zou zijn, maar waar sprake is van meerdere onderling gecorreleerde uitkomstvariabelen. Bij canonieke correlatieanalyse wordt een reeks canonieke variabelen bepaald, orthogonale lineaire combinaties van de variabelen binnen elke reeks, die de variabiliteit zowel binnen als tussen de reeksen het best verklaren.

Let op: Het doel van deze pagina is te laten zien hoe verschillende commando’s voor gegevensanalyse kunnen worden gebruikt. Het behandelt niet alle aspecten van het onderzoeksproces die onderzoekers geacht worden te doen. In het bijzonder wordt niet ingegaan op het opschonen en controleren van gegevens, het verifiëren van veronderstellingen, modeldiagnostiek en mogelijke vervolganalyses.

Voorbeelden van canonieke correlatieanalyse

Voorbeeld 1. Een onderzoeker heeft gegevens verzameld over drie psychologische variabelen, vier academische variabelen (gestandaardiseerde testscores) en het geslacht van 600 eerstejaarsstudenten. Zij is geïnteresseerd in hoe de psychologische variabelen zich verhouden tot de academische variabelen en het geslacht. In het bijzonder is de onderzoeker geïnteresseerd in hoeveel dimensies (canonieke variabelen) nodig zijn om de associatie tussen de twee sets van variabelen te begrijpen.

Voorbeeld 2. Een onderzoeker is geïnteresseerd in het onderzoeken van associaties tussen factoren uit twee multidimensionele persoonlijkheidstests, de MMPI en de NEO. Zij is geïnteresseerd in welke dimensies de tests gemeenschappelijk hebben en hoeveel variantie er tussen de tests wordt gedeeld. Zij is specifiek geïnteresseerd in de vraag of de dimensie neuroticisme van de NEO een substantieel deel van de gedeelde variantie tussen de twee tests kan verklaren.

Beschrijving van de gegevens

Voor ons analysevoorbeeld gaan we voorbeeld 1 uitbreiden over het onderzoeken van de associaties tussen psychologische maten en academische prestatiematen.

We hebben een gegevensbestand, mmreg.dta, met 600 waarnemingen over acht variabelen. De psychologische variabelen zijn locus of control, zelfconcept en motivatie. De academische variabelen zijn gestandaardiseerde tests in lezen (read), schrijven (write), wiskunde (math) en natuurwetenschappen (science). Bovendien is de variabele vrouw een nul-één-indicatorvariabele, waarbij één staat voor een vrouwelijke student.

Laten we de gegevens eens bekijken.

use https://stats.idre.ucla.edu/stat/stata/dae/mmreg, clearsummarize locus_of_control self_concept motivation Variable | Obs Mean Std. Dev. Min Max-------------+--------------------------------------------------------locus_of_c~l | 600 .0965333 .6702799 -2.23 1.36self_concept | 600 .0049167 .7055125 -2.62 1.19 motivation | 600 .6608333 .3427294 0 1summarize read write math science female Variable | Obs Mean Std. Dev. Min Max-------------+-------------------------------------------------------- read | 600 51.90183 10.10298 28.3 76 write | 600 52.38483 9.726455 25.5 67.1 math | 600 51.849 9.414736 31.8 75.5 science | 600 51.76333 9.706179 26 74.2 female | 600 .545 .4983864 0 1

Analysemethoden die u zou kunnen overwegen

Hieronder volgt een lijst van enkele analysemethoden die u wellicht bent tegengekomen. Sommige van de genoemde methoden zijn heel redelijk, terwijl andere ofwel uit de gratie zijn geraakt ofwel beperkingen hebben.

Canonieke correlatieanalyse, waarop deze pagina is gericht.
Separate OLS Regressions – U zou deze gegevens kunnen analyseren met behulp van afzonderlijke OLS regressieanalyses voor elke variabele in één set. De OLS-regressie levert geen multivariate resultaten op en geeft geen informatie over de dimensionaliteit.
Multivariate multiple regressie is een redelijke optie als u geen belangstelling hebt voor dimensionaliteit.

Canonieke correlatieanalyse

Hieronder gebruiken we het canon-commando om een canonieke correlatieanalyse uit te voeren. Daarvoor zijn twee variabelenreeksen nodig, omsloten door een paar haakjes. Wij specificeren onze psychologische variabelen als de eerste reeks variabelen en onze academische variabelen plus geslacht als de tweede reeks. Gemakshalve worden de variabelen in de eerste reeks “u”-variabelen genoemd en de variabelen in de tweede reeks “v”-variabelen.

De output van de canonieke correlatieanalyse bestaat uit twee delen. Het eerste deel is de ruwe canonieke coëfficiënten. Het tweede deel begint met de canonieke correlaties en omvat de algemene multivariate tests voor dimensionaliteit.

De ruwe canonieke coëfficiënten kunnen worden gebruikt om de canonieke variaten, weergegeven door de kolommen (1 2 3) in de coëfficiëntentabellen, voor elke reeks te genereren. Zij worden op dezelfde manier geïnterpreteerd als de regressiecoëfficiënten, d.w.z. voor de variabele “lezen” leidt een toename van het lezen met één eenheid tot een toename met .0446 van de eerste canonieke variabele van de reeks “v” wanneer alle andere variabelen constant worden gehouden. Hier is een ander voorbeeld: vrouw zijn leidt tot een toename van .6321 in dimensie 1 voor de “v”-reeks wanneer de andere voorspellers constant worden gehouden.

Het aantal mogelijke canonieke variaten, ook wel canonieke dimensies genoemd, is gelijk aan het aantal variabelen in de kleinere reeks. In ons voorbeeld heeft de “u”-set (de eerste set) drie variabelen en de “v”-set (de tweede set) vijf. Dit leidt tot drie mogelijke canonieke variabelen voor elke set, wat overeenkomt met de drie kolommen voor elke set en drie canonieke correlatiecoëfficiënten in de uitvoer. Canonieke dimensies zijn latente variabelen die analoog zijn aan bij factoranalyse verkregen factoren, behalve dat canonieke variaten ook de correlatie tussen de twee variabelenreeksen maximaliseren. In het algemeen zijn niet alle canonieke dimensies statistisch significant. Een significante dimensie komt overeen met een significante canonieke correlatie en vice versa. Om te testen of een canonieke correlatie statistisch verschillend is van nul, kunnen we de testoptie in het canon-commando gebruiken, zoals hieronder aangegeven. We hoeven het model niet opnieuw uit te voeren, maar we vragen Stata gewoon om het model opnieuw weer te geven met aanvullende informatie over de gevraagde tests. Om alle canonieke dimensies te testen, moeten we test(1 2 3) specificeren. In wezen is test(1) de algemene test op drie dimensies, test(2) zal de significantie van de canonieke correlaties 2 en 3 testen, en test(3) zal alleen de significantie van de derde canonieke correlatie testen.

Voor dit specifieke model zijn er drie canonieke dimensies waarvan alleen de eerste twee statistisch significant zijn. De eerste dimensietest test of alle drie dimensies samen significant zijn (dat zijn ze), de volgende test test of de dimensies 2 en 3 samen significant zijn (dat zijn ze). Tenslotte wordt met de laatste test nagegaan of dimensie 3 op zichzelf significant is (dit is niet het geval). Daarom moeten de dimensies 1 en 2 elk significant zijn.

Nu willen wij misschien nagaan welke ruwe coëfficiënten voor elk van de canonieke variabelen significant zijn. We kunnen de standaardfouten en significante tests opvragen via de optie stderr.

Merk op dat voor de eerste dimensie alle variabelen, met uitzondering van wiskunde en natuurwetenschappen, statistisch significant zijn, samen met de dimensie als geheel. Zo delen de locus of control, het zelfconcept en de motivatie enige variabiliteit met elkaar, evenals met lezen, schrijven en vrouw, die ook onderling variabel zijn. Voor de tweede dimensie zijn alleen zelfconcept, motivatie, wiskunde en vrouw significant. De derde dimensie is niet significant en er zal geen aandacht worden besteed aan de coëfficiënten ervan of aan de Wald-tests.

Wanneer de variabelen in het model zeer verschillende standaarddeviaties hebben, maken de gestandaardiseerde coëfficiënten gemakkelijker vergelijkingen tussen de variabelen mogelijk. Vervolgens geven wij de gestandaardiseerde canonieke coëfficiënten weer voor de eerste twee (significante) dimensies.

canon (locus_of_control self_concept motivation)(read write math science female), first(2) stdcoef notestCanonical correlation analysis Number of obs = 600Standardized coefficients for the first variable set | 1 2 -------------+-------------------- locus_of_c~l | 0.8404 -0.4166 self_concept | -0.2479 -0.8379 motivation | 0.4327 0.6948 ----------------------------------Standardized coefficients for the second variable set | 1 2 -------------+-------------------- read | 0.4508 -0.0496 write | 0.3490 0.4092 math | 0.2205 0.0398 science | 0.0488 -0.8266 female | 0.3150 0.5406 ----------------------------------Canonical correlations: 0.4641 0.1675 0.1040

De gestandaardiseerde canonieke coëfficiënten worden op analoge wijze geïnterpreteerd als de gestandaardiseerde regressiecoëfficiënten. Neem bijvoorbeeld de variabele lezen: een toename van het lezen met één standaarddeviatie leidt tot een toename van de score op de eerste canonieke variabele voor reeks 2 met 0,45 standaarddeviatie wanneer de andere variabelen in het model constant worden gehouden.

Daarna gebruiken we het estat correlations commando om alle correlaties binnen en tussen variabelenreeksen te bekijken.

estat correlationsCorrelations for variable list 1 | locus_~l self_c~t motiva~n -------------+------------------------------ locus_of_c~l | 1.0000 self_concept | 0.1712 1.0000 motivation | 0.2451 0.2886 1.0000 --------------------------------------------Correlations for variable list 2 | read write math sci female -------------+-------------------------------------------------- read | 1.0000 write | 0.6286 1.0000 math | 0.6793 0.6327 1.0000 science | 0.6907 0.5691 0.6495 1.0000 female | -0.0417 0.2443 -0.0482 -0.1382 1.0000 ----------------------------------------------------------------Correlations between variable lists 1 and 2 | locus_~l self_c~t motiva~n -------------+------------------------------ read | 0.3736 0.0607 0.2106 write | 0.3589 0.0194 0.2542 math | 0.3373 0.0536 0.1950 science | 0.3246 0.0698 0.1157 female | 0.1134 -0.1260 0.0981 --------------------------------------------

Ten slotte gebruiken we het estat loadings commando om de ladingen van de variabelen op de canonieke dimensies (variaten) weer te geven. De ladingen zijn correlaties tussen variabelen en de canonieke variabelen.

estat loadingsCanonical loadings for variable list 1 | 1 2 -------------+-------------------- locus_of_c~l | 0.9040 -0.3897 self_concept | 0.0208 -0.7087 motivation | 0.5672 0.3509 ----------------------------------Canonical loadings for variable list 2 | 1 2 -------------+-------------------- read | 0.8404 -0.3588 write | 0.8765 0.0648 math | 0.7639 -0.2979 science | 0.6584 -0.6768 female | 0.3641 0.7549 ----------------------------------Correlation between variable list 1 and canonical variates from list 2 | 1 2 -------------+-------------------- locus_of_c~l | 0.4196 -0.0653 self_concept | 0.0097 -0.1187 motivation | 0.2632 0.0588 ----------------------------------Correlation between variable list 2 and canonical variates from list 1 | 1 2 -------------+-------------------- read | 0.3900 -0.0601 write | 0.4068 0.0109 math | 0.3545 -0.0499 science | 0.3056 -0.1134 female | 0.1690 0.1265 ----------------------------------

Dingen om te overwegen

Zoals in het geval van multivariate regressie, MANOVA enzovoort, is voor geldige gevolgtrekkingen bij canonieke correlatieanalyse de multivariate normaal- en homogeniteit van variantie-aanname vereist.
Canonieke correlatieanalyse veronderstelt een lineair verband tussen de canonieke variabelen en elke reeks variabelen.
Gelijk aan multivariate regressie vereist canonieke correlatieanalyse een grote steekproefomvang.

Zie ook

Stata Online Manual
- canon

Afifi, A, Clark, V and May, S. 2004. Computer-Aided Multivariate Analysis. 4th ed.Boca Raton, Fl: Chapman & Hall/CRC.
Garson, G. David (2015). GLM Multivariate, MANOVA, and Canonical Correlation. Asheboro, NC: Statistical Associates Publishers.
G. David Garson, Canonical Correlation in Statnotes: Topics in Multivariate Analysis
Pedhazur, E. 1997. Multiple Regression in Behavioral Research. 3rd ed. Orlando, Fl: Holt, Rinehart and Winston, Inc.