Kanonisk korrelationsanalyse

Versionsinfo: Koden til denne side blev testet i Stata 12.

Kanonisk korrelationsanalyse bruges til at identificere og måle sammenhængene mellem to sæt variabler. Kanonisk korrelation er velegnet i de samme situationer, hvor multipel regression ville være det, men hvor der er flere interkorrelerede udfaldsvariabler. Den kanoniske korrelationsanalyse bestemmer et sæt af kanoniske variabler, ortogonale lineære kombinationer af variablerne inden for hvert sæt, som bedst forklarer variabiliteten både inden for og mellem sættene.

Bemærk venligst: Formålet med denne side er at vise, hvordan man bruger forskellige dataanalysekommandoer, men den dækker ikke alle aspekter af forskningsprocessen, som forskerne forventes at gøre. Især dækker den ikke datarengøring og -kontrol, verifikation af antagelser, modeldiagnostik og eventuelle opfølgende analyser.

Eksempler på kanonisk korrelationsanalyse

Eksempel 1. En forsker har indsamlet data om tre psykologiske variabler, fire akademiske variabler (standardiserede testresultater) og køn for 600 førsteårsstuderende på college. Hun er interesseret i, hvordan sættet af psykologiske variabler hænger sammen med de akademiske variabler og køn. Forskeren er især interesseret i, hvor mange dimensioner (kanoniske variabler) der er nødvendige for at forstå sammenhængen mellem de to sæt variabler.

Eksempel 2. En forsker er interesseret i at undersøge sammenhænge mellem faktorer fra to flerdimensionale personlighedstests, MMPI og NEO. Hun er interesseret i, hvilke dimensioner der er fælles mellem testene, og hvor meget varians der er delt mellem dem. Hun er specielt interesseret i at finde ud af, om neuroticismedimensionen fra NEO kan stå for en væsentlig del af den delte varians mellem de to tests.

Beskrivelse af data

For vores analyseeksempel skal vi udvide eksempel 1 om at undersøge sammenhængen mellem psykologiske mål og akademiske præstationsmål.

Vi har en datafil, mmreg.dta, med 600 observationer på otte variabler. De psykologiske variabler er locus of control, selvopfattelse og motivation. De akademiske variabler er standardiserede test i læsning (læse), skrivning (skrive), matematik (matematik) og naturvidenskab (naturvidenskab). Derudover er variablen kvindelig en nul-én indikatorvariabel, hvor etteren angiver en kvindelig elev.

Lad os se på dataene.

use https://stats.idre.ucla.edu/stat/stata/dae/mmreg, clearsummarize locus_of_control self_concept motivation Variable | Obs Mean Std. Dev. Min Max-------------+--------------------------------------------------------locus_of_c~l | 600 .0965333 .6702799 -2.23 1.36self_concept | 600 .0049167 .7055125 -2.62 1.19 motivation | 600 .6608333 .3427294 0 1summarize read write math science female Variable | Obs Mean Std. Dev. Min Max-------------+-------------------------------------------------------- read | 600 51.90183 10.10298 28.3 76 write | 600 52.38483 9.726455 25.5 67.1 math | 600 51.849 9.414736 31.8 75.5 science | 600 51.76333 9.706179 26 74.2 female | 600 .545 .4983864 0 1

Analysemetoder, du kan overveje

Nedenfor er der en liste over nogle analysemetoder, du kan være stødt på. Nogle af de anførte metoder er ganske fornuftige, mens andre enten er faldet i unåde eller har begrænsninger.

Kanonisk korrelationsanalyse, som er omdrejningspunktet på denne side.
Separate OLS-regressioner – Du kunne analysere disse data ved hjælp af separate OLS-regressionsanalyser for hver variabel i et sæt. OLS-regressionerne vil ikke give multivariate resultater og rapporterer ikke oplysninger om dimensionalitet.
Multivariat multipel regression er en fornuftig mulighed, hvis du ikke har nogen interesse i dimensionalitet.

Nedenfor bruger vi kommandoen canon til at foretage en kanonisk korrelationsanalyse. Den kræver to sæt variabler omsluttet af et par parenteser. Vi angiver vores psykologiske variabler som det første sæt af variabler og vores akademiske variabler plus køn som det andet sæt. For nemheds skyld kaldes variablerne i det første sæt for “u”-variabler og variablerne i det andet sæt for “v”-variabler.

Opdatet for den kanoniske korrelationsanalyse består af to dele. Den første er de rå kanoniske koefficienter. Den anden del begynder med de kanoniske korrelationer og omfatter de overordnede multivariate test for dimensionalitet.

De rå kanoniske koefficienter kan bruges til at generere de kanoniske variater, repræsenteret af kolonnerne (1 2 3) i koefficienttabellerne, for hvert sæt. De fortolkes på samme måde som regressionskoefficienter, dvs. at for variablen læsning fører en stigning på en enhed i læsning til en stigning på 0,0446 i den første kanoniske variabel i “v”-sættet, når alle de andre variabler holdes konstante. Her er et andet eksempel: At være kvinde fører til en .6321 stigning i dimension 1 for “v”-sættet, når de andre prædiktorer holdes konstante.

Antallet af mulige kanoniske variater, også kendt som kanoniske dimensioner, er lig med antallet af variabler i det mindre sæt. I vores eksempel har “u”-sættet (det første sæt) tre variabler, og “v”-sættet (det andet sæt) har fem. Dette fører til tre mulige kanoniske variabler for hvert sæt, hvilket svarer til de tre kolonner for hvert sæt og tre kanoniske korrelationskoefficienter i output. Kanoniske dimensioner er latente variabler, der er analoge til faktorer, der opnås ved faktoranalyse, bortset fra at kanoniske variater også maksimerer korrelationen mellem de to sæt variabler. Generelt vil ikke alle de kanoniske dimensioner være statistisk signifikante. En signifikant dimension svarer til en signifikant kanonisk korrelation og omvendt. For at teste, om en kanonisk korrelation er statistisk forskellig fra nul, kan vi bruge test-indstillingen i canon-kommandoen som vist nedenfor. Vi behøver ikke at køre modellen igen, i stedet beder vi blot Stata om at genvise modellen med yderligere oplysninger om de ønskede tests. For at teste alle de kanoniske dimensioner skal vi angive test(1 2 3). I det væsentlige er test(1) den overordnede test på tre dimensioner, test(2) vil teste signifikansen af de kanoniske korrelationer 2 og 3, og test(3) vil teste signifikansen af den tredje kanoniske korrelation alene.

For denne særlige model er der tre kanoniske dimensioner, hvoraf kun de to første er statistisk signifikante. Den første test af dimensioner tester, om alle tre dimensioner tilsammen er signifikante (det er de), den næste test tester, om dimension 2 og 3 tilsammen er signifikante (det er de). Endelig testes det ved den sidste test, om dimension 3 i sig selv er signifikant (det er den ikke). Derfor må dimension 1 og 2 hver især være signifikante.

Nu vil vi måske gerne undersøge, hvilke råkoefficienter for hver af de kanoniske variationer der er signifikante. Vi kan anmode om standardfejlene og de signifikante tests via stderr-optionen.

Bemærk, at for den første dimension er alle variabler med undtagelse af matematik og naturvidenskab statistisk signifikante sammen med dimensionen som helhed. Således deler locus of control, selvkoncept og motivation en vis variabilitet med hinanden samt med læse, skrive og kvindelig, som også deler variabilitet med hinanden. For den anden dimension er det kun selvopfattelse, motivation, matematik og kvinder, der er signifikante. Den tredje dimension er ikke signifikant, og der vil ikke blive lagt vægt på dens koefficienter eller på Wald-testene.

Når variablerne i modellen har meget forskellige standardafvigelser, giver de standardiserede koefficienter mulighed for lettere sammenligninger mellem variablerne. Dernæst vil vi vise de standardiserede kanoniske koefficienter for de to første (signifikante)dimensioner.

canon (locus_of_control self_concept motivation)(read write math science female), first(2) stdcoef notestCanonical correlation analysis Number of obs = 600Standardized coefficients for the first variable set | 1 2 -------------+-------------------- locus_of_c~l | 0.8404 -0.4166 self_concept | -0.2479 -0.8379 motivation | 0.4327 0.6948 ----------------------------------Standardized coefficients for the second variable set | 1 2 -------------+-------------------- read | 0.4508 -0.0496 write | 0.3490 0.4092 math | 0.2205 0.0398 science | 0.0488 -0.8266 female | 0.3150 0.5406 ----------------------------------Canonical correlations: 0.4641 0.1675 0.1040

De standardiserede kanoniske koefficienter fortolkes på en måde, der svarer til fortolkningen af standardiserede regressionskoefficienter. For eksempel kan man betragte variablen læsning, en stigning på én standardafvigelse i læsning fører til en stigning på 0,45 standardafvigelse i scoren på den første kanoniske variabel for sæt 2, når de andre variabler i modellen holdes konstante.

Næste gang bruger vi kommandoen estat correlations til at se på alle korrelationerne inden for og mellem sæt af variabler.

estat correlationsCorrelations for variable list 1 | locus_~l self_c~t motiva~n -------------+------------------------------ locus_of_c~l | 1.0000 self_concept | 0.1712 1.0000 motivation | 0.2451 0.2886 1.0000 --------------------------------------------Correlations for variable list 2 | read write math sci female -------------+-------------------------------------------------- read | 1.0000 write | 0.6286 1.0000 math | 0.6793 0.6327 1.0000 science | 0.6907 0.5691 0.6495 1.0000 female | -0.0417 0.2443 -0.0482 -0.1382 1.0000 ----------------------------------------------------------------Correlations between variable lists 1 and 2 | locus_~l self_c~t motiva~n -------------+------------------------------ read | 0.3736 0.0607 0.2106 write | 0.3589 0.0194 0.2542 math | 0.3373 0.0536 0.1950 science | 0.3246 0.0698 0.1157 female | 0.1134 -0.1260 0.0981 --------------------------------------------

Sluttelig bruger vi kommandoen estat loadings til at vise variablernes belastninger på de kanoniske dimensioner (variater). Disse belastninger er korrelationer mellem variabler og de kanoniske variater.

estat loadingsCanonical loadings for variable list 1 | 1 2 -------------+-------------------- locus_of_c~l | 0.9040 -0.3897 self_concept | 0.0208 -0.7087 motivation | 0.5672 0.3509 ----------------------------------Canonical loadings for variable list 2 | 1 2 -------------+-------------------- read | 0.8404 -0.3588 write | 0.8765 0.0648 math | 0.7639 -0.2979 science | 0.6584 -0.6768 female | 0.3641 0.7549 ----------------------------------Correlation between variable list 1 and canonical variates from list 2 | 1 2 -------------+-------------------- locus_of_c~l | 0.4196 -0.0653 self_concept | 0.0097 -0.1187 motivation | 0.2632 0.0588 ----------------------------------Correlation between variable list 2 and canonical variates from list 1 | 1 2 -------------+-------------------- read | 0.3900 -0.0601 write | 0.4068 0.0109 math | 0.3545 -0.0499 science | 0.3056 -0.1134 female | 0.1690 0.1265 ----------------------------------

Ting at overveje

Som i tilfælde af multivariat regression, MANOVA og så videre, kræver kanonisk korrelationsanalyse multivariat normal- og varianshomogenitetsantagelsen for at opnå gyldig inferens.
Kanonisk korrelationsanalyse forudsætter et lineært forhold mellem de kanoniske variable og hvert sæt variabler.
I lighed med multivariat regression kræver kanonisk korrelationsanalyse en stor stikprøvestørrelse.

Se også

Stata Online Manual
- kanon

Afifi, A, Clark, V og May, S. 2004. Computerstøttet multivariat analyse. 4th ed.Boca Raton, Fl: Chapman & Hall/CRC.
Garson, G. David (2015). GLM Multivariate, MANOVA og kanonisk korrelation. Asheboro, NC: Statistical Associates Publishers.
G. David Garson, Canonical Correlation in Statnotes: Topics in Multivariate Analysis
Pedhazur, E. 1997. Multiple regression i adfærdsforskning. 3rd ed. Orlando, Fl: Holt, Rinehart and Winston, Inc.

Eksempler på kanonisk korrelationsanalyse

Beskrivelse af data

Analysemetoder, du kan overveje