Kanonisk korrelationsanalys

Version info: Koden för den här sidan testades i Stata 12.

Kanonisk korrelationsanalys används för att identifiera och mäta sambanden mellan två uppsättningar variabler. Kanonisk korrelation är lämplig i samma situationer som multipel regression skulle vara, men där det finns flera interkorrelerade utfallsvariabler. Kanonisk korrelationsanalys fastställer en uppsättning kanoniska variabler, ortogonala linjära kombinationer av variablerna inom varje uppsättning som bäst förklarar variabiliteten både inom och mellan uppsättningarna.

Observera: Syftet med den här sidan är att visa hur man använder olika kommandon för dataanalys. den täcker inte alla aspekter av forskningsprocessen som forskare förväntas göra. I synnerhet täcker den inte rengöring och kontroll av data, verifiering av antaganden, modelldiagnostik och eventuella uppföljningsanalyser.

Exempel på kanonisk korrelationsanalys

Exempel 1. En forskare har samlat in uppgifter om tre psykologiska variabler, fyra akademiska variabler (standardiserade provresultat) och kön för 600 nybörjare på college. Hon är intresserad av hur uppsättningen psykologiska variabler förhåller sig till de akademiska variablerna och könet. I synnerhet är forskaren intresserad av hur många dimensioner (kanoniska variabler) som behövs för att förstå sambandet mellan de två uppsättningarna variabler.

Exempel 2. En forskare är intresserad av att undersöka sambanden mellan faktorer från två multidimensionella personlighetstester, MMPI och NEO. Hon är intresserad av vilka dimensioner som är gemensamma mellan testerna och hur mycket varians som delas mellan dem. Hon är särskilt intresserad av att ta reda på om dimensionen neuroticism från NEO kan stå för en betydande del av den delade variansen mellan de två testerna.

Beskrivning av data

För vårt analyseexempel kommer vi att utöka exempel 1 om att undersöka sambanden mellan psykologiska mått och mått på akademiska prestationer.

Vi har en datafil, mmreg.dta, med 600 observationer på åtta variabler. De psykologiska variablerna är locus of control, självuppfattning och motivation. De akademiska variablerna är standardiserade tester i läsning (read), skrivning (write), matematik (math) och naturvetenskap (science). Dessutom är variabeln kvinnlig en noll-ett indikatorvariabel där ettan indikerar en kvinnlig student.

Vi tittar på data.

use https://stats.idre.ucla.edu/stat/stata/dae/mmreg, clearsummarize locus_of_control self_concept motivation Variable | Obs Mean Std. Dev. Min Max-------------+--------------------------------------------------------locus_of_c~l | 600 .0965333 .6702799 -2.23 1.36self_concept | 600 .0049167 .7055125 -2.62 1.19 motivation | 600 .6608333 .3427294 0 1summarize read write math science female Variable | Obs Mean Std. Dev. Min Max-------------+-------------------------------------------------------- read | 600 51.90183 10.10298 28.3 76 write | 600 52.38483 9.726455 25.5 67.1 math | 600 51.849 9.414736 31.8 75.5 science | 600 51.76333 9.706179 26 74.2 female | 600 .545 .4983864 0 1

Analysmetoder som du kan tänka dig

Nedan följer en lista över några analysmetoder som du kan ha stött på. Vissa av de metoder som listas är ganska rimliga medan andra antingen har fallit i glömska eller har begränsningar.

Kanonisk korrelationsanalys, som är i fokus på den här sidan.
Separata OLS-regressioner – Du skulle kunna analysera dessa data med hjälp av separata OLS-regressionsanalyser för varje variabel i en uppsättning. OLS-regressionerna ger inga multivariata resultat och rapporterar inte information om dimensionalitet.
Multivariat multipel regression är ett rimligt alternativ om du inte är intresserad av dimensionalitet.

Nedan använder vi kommandot canon för att göra en kanonisk korrelationsanalys. Det kräver två uppsättningar variabler omslutna av ett par parenteser. Vi anger våra psykologiska variabler som den första uppsättningen variabler och våra akademiska variabler plus kön som den andra uppsättningen. För enkelhetens skull kallas variablerna i den första uppsättningen ”u”-variabler och variablerna i den andra uppsättningen ”v”-variabler.

Uppgiften för kanonisk korrelationsanalys består av två delar. Den första är de råa kanoniska koefficienterna. Den andra delen börjar med de kanoniska korrelationerna och innehåller de övergripande multivariata testerna för dimensionalitet.

De råa kanoniska koefficienterna kan användas för att generera de kanoniska variablerna, som representeras av kolumnerna (1 2 3) i koefficienttabellerna, för varje uppsättning. De tolkas på samma sätt som regressionskoefficienter, dvs. för variabeln läsning leder en ökning av läsning med en enhet till en ökning på 0,0446 i den första kanoniska variaten i ”v”-uppsättningen när alla andra variabler hålls konstanta. Här är ett annat exempel: att vara kvinna leder till en 0,6321 ökning av dimension 1 för ”v”-uppsättningen när de andra prediktorerna hålls konstanta.

Antalet möjliga kanoniska varianter, även kallade kanoniska dimensioner, är lika med antalet variabler i den mindre uppsättningen. I vårt exempel har ”u”-uppsättningen (den första uppsättningen) tre variabler och ”v”-uppsättningen (den andra uppsättningen) har fem. Detta leder till tre möjliga kanoniska variabler för varje uppsättning, vilket motsvarar de tre kolumnerna för varje uppsättning och tre kanoniska korrelationskoefficienter i resultatet. Kanoniska dimensioner är latenta variabler som är analoga med faktorer som erhålls i faktoranalys, förutom att kanoniska variater också maximerar korrelationen mellan de två uppsättningarna av variabler. I allmänhet skulle inte alla kanoniska dimensioner vara statistiskt signifikanta. En signifikant dimension motsvarar en signifikant kanonisk korrelation och vice versa. För att testa om en kanonisk korrelation är statistiskt annorlunda än noll kan vi använda testalternativet i canon-kommandot enligt nedan. Vi behöver inte köra om modellen, utan ber bara Stata att visa modellen på nytt med ytterligare information om de begärda testerna. För att testa alla kanoniska dimensioner måste vi ange test(1 2 3). I huvudsak är test(1) det övergripande testet på tre dimensioner, test(2) testar betydelsen av de kanoniska korrelationerna 2 och 3 och test(3) testar betydelsen av enbart den tredje kanoniska korrelationen.

För just denna modell finns det tre kanoniska dimensioner varav endast de två första är statistiskt signifikanta. Det första testet av dimensioner testar om alla tre dimensioner tillsammans är signifikanta (det är de), nästa test testar om dimensionerna 2 och 3 tillsammans är signifikanta (det är de). Slutligen testas i det sista testet om dimension 3 i sig själv är signifikant (det är den inte). Därför måste dimensionerna 1 och 2 vara signifikanta var för sig.

Nu kanske vi vill inspektera vilka råkoefficienter för var och en av de kanoniska variablerna som är signifikanta. Vi kan begära standardfel och signifikanta tester via alternativet stderr.

Notera att för den första dimensionen är alla variabler utom matematik och naturvetenskap statistiskt signifikanta tillsammans med dimensionen som helhet. Således delar locus of control, self concept och motivation viss variabilitet med varandra, liksom med read, write och female, som också delar variabilitet med varandra. För den andra dimensionen är endast självuppfattning, motivation, matematik och kvinna signifikanta. Den tredje dimensionen är inte signifikant och ingen uppmärksamhet kommer att ägnas åt dess koefficienter eller åt Wald-testerna.

När variablerna i modellen har mycket olika standardavvikelser gör de standardiserade koefficienterna det lättare att jämföra variablerna sinsemellan. Därefter visar vi de standardiserade kanoniska koefficienterna för de två första (signifikanta)dimensionerna.

canon (locus_of_control self_concept motivation)(read write math science female), first(2) stdcoef notestCanonical correlation analysis Number of obs = 600Standardized coefficients for the first variable set | 1 2 -------------+-------------------- locus_of_c~l | 0.8404 -0.4166 self_concept | -0.2479 -0.8379 motivation | 0.4327 0.6948 ----------------------------------Standardized coefficients for the second variable set | 1 2 -------------+-------------------- read | 0.4508 -0.0496 write | 0.3490 0.4092 math | 0.2205 0.0398 science | 0.0488 -0.8266 female | 0.3150 0.5406 ----------------------------------Canonical correlations: 0.4641 0.1675 0.1040

De standardiserade kanoniska koefficienterna tolkas på samma sätt som när man tolkar standardiserade regressionskoefficienter. T.ex. betrakta variabeln läsa, en ökning av läsning med en standardavvikelse leder till en ökning med 0,45 standardavvikelse av poängen på den första kanoniska variabeln för uppsättning 2 när de andra variablerna i modellen hålls konstanta.

Nästan använder vi kommandot estat correlations för att titta på alla korrelationer inom och mellan uppsättningar av variabler.

estat correlationsCorrelations for variable list 1 | locus_~l self_c~t motiva~n -------------+------------------------------ locus_of_c~l | 1.0000 self_concept | 0.1712 1.0000 motivation | 0.2451 0.2886 1.0000 --------------------------------------------Correlations for variable list 2 | read write math sci female -------------+-------------------------------------------------- read | 1.0000 write | 0.6286 1.0000 math | 0.6793 0.6327 1.0000 science | 0.6907 0.5691 0.6495 1.0000 female | -0.0417 0.2443 -0.0482 -0.1382 1.0000 ----------------------------------------------------------------Correlations between variable lists 1 and 2 | locus_~l self_c~t motiva~n -------------+------------------------------ read | 0.3736 0.0607 0.2106 write | 0.3589 0.0194 0.2542 math | 0.3373 0.0536 0.1950 science | 0.3246 0.0698 0.1157 female | 0.1134 -0.1260 0.0981 --------------------------------------------

Slutligt använder vi kommandot estat loadings för att visa variablernas belastning på de kanoniska dimensionerna (varianterna). Dessa belastningar är korrelationer mellan variablerna och de kanoniska variablerna.

estat loadingsCanonical loadings for variable list 1 | 1 2 -------------+-------------------- locus_of_c~l | 0.9040 -0.3897 self_concept | 0.0208 -0.7087 motivation | 0.5672 0.3509 ----------------------------------Canonical loadings for variable list 2 | 1 2 -------------+-------------------- read | 0.8404 -0.3588 write | 0.8765 0.0648 math | 0.7639 -0.2979 science | 0.6584 -0.6768 female | 0.3641 0.7549 ----------------------------------Correlation between variable list 1 and canonical variates from list 2 | 1 2 -------------+-------------------- locus_of_c~l | 0.4196 -0.0653 self_concept | 0.0097 -0.1187 motivation | 0.2632 0.0588 ----------------------------------Correlation between variable list 2 and canonical variates from list 1 | 1 2 -------------+-------------------- read | 0.3900 -0.0601 write | 0.4068 0.0109 math | 0.3545 -0.0499 science | 0.3056 -0.1134 female | 0.1690 0.1265 ----------------------------------

Saker att tänka på

Som i fallet med multivariat regression, MANOVA och så vidare, för giltig slutsats, kräver den kanoniska korrelationsanalysen det multivariata normal- och homogenitetsantagandet av variansen.
Kanonisk korrelationsanalys förutsätter ett linjärt förhållande mellan de kanoniska variablerna och varje uppsättning variabler.
I likhet med multivariat regression kräver kanonisk korrelationsanalys en stor urvalsstorlek.

Se även

Stata Online Manual
- canon

Afifi, A, Clark, V och May, S. 2004. Computer-Aided Multivariate Analysis. 4th ed.Boca Raton, Fl: Chapman & Hall/CRC.
Garson, G. David (2015). GLM Multivariate, MANOVA och kanonisk korrelation. Asheboro, NC: Statistical Associates Publishers.
G. David Garson, Canonical Correlation in Statnotes: Topics in Multivariate Analysis
Pedhazur, E. 1997. Multiple Regression in Behavioral Research. 3rd ed. Orlando, Fl: Holt, Rinehart and Winston, Inc.

Exempel på kanonisk korrelationsanalys

Beskrivning av data

Analysmetoder som du kan tänka dig