Kanonická korelační analýza

Informace o verzi:

Kanonická korelační analýza se používá k identifikaci a měření asociací mezi dvěma soubory proměnných. Kanonická korelace je vhodná ve stejných situacích, jako by byla vícenásobná regrese, ale tam, kde je více vzájemně provázaných výsledných proměnných. Kanonická korelační analýza určuje soubor kanonických proměnných, ortogonálních lineárních kombinací proměnných v rámci každého souboru, které nejlépe vysvětlují variabilitu uvnitř souboru i mezi soubory.

Upozornění: Účelem této stránky je ukázat, jak používat různé příkazy pro analýzu dat, nepokrývá však všechny aspekty výzkumného procesu, které se od výzkumníků očekávají. Zejména se nezabývá čištěním a kontrolou dat, ověřováním předpokladů, diagnostikou modelů a případnými následnými analýzami.

Příklady kanonické korelační analýzy

Příklad 1. Výzkumník shromáždil údaje o třech psychologických proměnných, čtyřech akademických proměnných (výsledky standardizovaných testů) a pohlaví u 600 studentů prvního ročníku vysoké školy. Zajímá ji, jak soubor psychologických proměnných souvisí s akademickými proměnnými a pohlavím. Výzkumníka zejména zajímá, kolik dimenzí (kanonických proměnných) je potřeba k pochopení souvislosti mezi oběma soubory proměnných.

Příklad 2. Výzkumníka zajímá, kolik dimenzí (kanonických proměnných) je potřeba k pochopení souvislosti mezi oběma soubory proměnných. Výzkumník se zajímá o zkoumání asociací mezi faktory ze dvou vícerozměrných testů osobnosti, MMPI a NEO. Zajímá ji, jaké dimenze jsou pro testy společné a kolik rozptylu je mezi nimi sdíleno. Konkrétně ji zajímá, zda dimenze neuroticismu z NEO může odpovídat za podstatné množství společného rozptylu mezi oběma testy.

Popis dat

Pro náš příklad analýzy rozšíříme příklad 1 o zkoumání asociací mezi psychologickými mírami a mírami studijních výsledků.

Máme datový soubor mmreg.dta s 600 pozorováními osmi proměnných. Psychologické proměnné jsou lokus kontroly, sebepojetí a motivace. Akademickými proměnnými jsou standardizované testy ve čtení (read), psaní (write), matematice (math) a přírodních vědách (science). Navíc proměnná žena je indikátorová proměnná s nulou a jedničkou označující studentku.

Podívejme se na data.

use https://stats.idre.ucla.edu/stat/stata/dae/mmreg, clearsummarize locus_of_control self_concept motivation Variable | Obs Mean Std. Dev. Min Max-------------+--------------------------------------------------------locus_of_c~l | 600 .0965333 .6702799 -2.23 1.36self_concept | 600 .0049167 .7055125 -2.62 1.19 motivation | 600 .6608333 .3427294 0 1summarize read write math science female Variable | Obs Mean Std. Dev. Min Max-------------+-------------------------------------------------------- read | 600 51.90183 10.10298 28.3 76 write | 600 52.38483 9.726455 25.5 67.1 math | 600 51.849 9.414736 31.8 75.5 science | 600 51.76333 9.706179 26 74.2 female | 600 .545 .4983864 0 1

Metody analýzy, které můžete zvážit

Níže je uveden seznam některých metod analýzy, se kterými jste se mohli setkat. Některé z uvedených metod jsou docela rozumné, zatímco jiné buď upadly v nemilost, nebo mají svá omezení.

Kanonická korelační analýza, na kterou se zaměřuje tato stránka.
Separate OLS Regressions – Tato data byste mohli analyzovat pomocí samostatných regresních analýz OLS pro každou proměnnou v jednom souboru. Regrese OLSneposkytne vícerozměrné výsledky a nepodává informaceo dimenzionalitě.
Vícerozměrná vícenásobná regrese je rozumnou možností, pokud nemáte zájem o dimenzionalitu.

Níže použijeme příkaz canon k provedení kanonické korelační analýzy. Vyžaduje dvě sady proměnných uzavřené dvojicí závorek. Jako první sadu proměnných zadáme naše psychologické proměnné a jako druhou sadu naše akademické proměnné plus pohlaví. Proměnné v první sadě se pro zjednodušení nazývají proměnné „u“ a proměnné v druhé sadě se nazývají proměnné „v“.

Výstup pro kanonickou korelační analýzu se skládá ze dvou částí. První jsou nezpracované kanonické koeficienty. Druhá část začíná kanonickými korelacemi a obsahuje celkové vícerozměrné testy dimenzionality.

Zpracované kanonické koeficienty lze použít k vytvoření kanonických proměnných, reprezentovaných sloupci (1 2 3) v tabulkách koeficientů, pro každý soubor. Interpretují se obdobně jako interpretaceregresních koeficientů, tj. pro proměnnou čtení vede zvýšení čtení o jednu jednotku ke zvýšení prvního kanonického rozptylu souboru „v“ o 0,0446, pokud jsou všechny ostatní proměnné konstantní. Zde je další příklad: být ženou vede ke zvýšení 1. dimenze souboru „v“ o 0,6321 při zachování ostatních prediktorů na konstantní úrovni.

Počet možných kanonických proměnných, známých také jako kanonické dimenze, je roven počtu proměnných v menším souboru. V našem příkladu má množina „u“ (první množina) tři proměnné a množina „v“ (druhá množina) jich má pět. To vede ke třem možným kanonickým proměnným pro každou množinu, což odpovídá třem sloupcům pro každou množinu a třem kanonickým korelačním koeficientům ve výstupu. Kanonické rozměry jsou latentní proměnné, které jsou analogické faktorům získaným ve faktorové analýze, s tím rozdílem, že kanonické rozměry také maximalizují korelaci mezi dvěma sadami proměnných. Obecně platí, že ne všechny kanonické dimenze by byly statisticky významné. Významná dimenze odpovídá významné kanonické korelaci a naopak. Chceme-li otestovat, zda se kanonická korelace statisticky liší od nuly, můžeme použít volbu test v příkazu canon, jak je uvedeno níže. Nemusíme znovu spouštět model, místo toho pouze požádáme Statu, aby model znovu zobrazil s dodatečnými informacemi o požadovaných testech. Chceme-li testovat všechny kanonické dimenze, musíme zadat test(1 2 3). V podstatě test(1) je celkový test tří dimenzí, test(2) bude testovat významnost kanonických korelací 2 a 3 a test(3) bude testovat významnost pouze třetí kanonické korelace.

Pro tento konkrétní model existují tři kanonické dimenze, z nichž pouze první dvě jsou statisticky významné. První test dimenzí testuje, zda jsou všechny třidimenze dohromady významné (jsou), další test testuje, zda jsou dimenze 2 a 3 dohromady významné (jsou). A konečně poslední test testuje, zda je dimenze 3 sama o sobě významná (není). Proto dimenze 1 a 2 musí být každá z nich významná.

Nyní bychom mohli chtít zkontrolovat, jaké hrubé koeficienty pro každou z kanonických proměnných jsou významné. Standardní chyby a testy významnosti si můžeme vyžádat pomocí volby stderr.

Všimněte si, že pro první dimenzi jsou všechny proměnné kromě matematiky a přírodních věd statisticky významné spolu s dimenzí jako celkem. Lokus kontroly, sebepojetí a motivace tedy sdílejí určitou variabilitu mezi sebou, stejně jako čtení, psaní a žena, které rovněž sdílejí variabilitu mezi sebou. Pro druhou dimenzi jsou významné pouze sebepojetí, motivace, matematika a žena. Třetídimenze není významná a jejím koeficientům ani Waldovým testům nebude věnována pozornost.

Pokud mají proměnné v modelu velmi rozdílné směrodatné odchylky,standardizované koeficienty umožňují snadnější porovnání mezi proměnnými. Dále zobrazíme standardizované kanonické koeficienty pro první dvě (významné)dimenze.

canon (locus_of_control self_concept motivation)(read write math science female), first(2) stdcoef notestCanonical correlation analysis Number of obs = 600Standardized coefficients for the first variable set | 1 2 -------------+-------------------- locus_of_c~l | 0.8404 -0.4166 self_concept | -0.2479 -0.8379 motivation | 0.4327 0.6948 ----------------------------------Standardized coefficients for the second variable set | 1 2 -------------+-------------------- read | 0.4508 -0.0496 write | 0.3490 0.4092 math | 0.2205 0.0398 science | 0.0488 -0.8266 female | 0.3150 0.5406 ----------------------------------Canonical correlations: 0.4641 0.1675 0.1040

Standardizované kanonické koeficienty interpretujeme obdobně jako při interpretaci standardizovaných regresních koeficientů. Uvažujme například proměnnou čtenost, zvýšení čtenosti o jednu směrodatnou odchylku vede ke zvýšenískóre první kanonické proměnné pro soubor 2 o 0,45 směrodatné odchylky, když ostatní proměnné v modelu zůstávají konstantní.

Dále použijeme příkaz estat correlations, abychom se podívali na všechny korelacev rámci souboru a mezi soubory proměnných.

estat correlationsCorrelations for variable list 1 | locus_~l self_c~t motiva~n -------------+------------------------------ locus_of_c~l | 1.0000 self_concept | 0.1712 1.0000 motivation | 0.2451 0.2886 1.0000 --------------------------------------------Correlations for variable list 2 | read write math sci female -------------+-------------------------------------------------- read | 1.0000 write | 0.6286 1.0000 math | 0.6793 0.6327 1.0000 science | 0.6907 0.5691 0.6495 1.0000 female | -0.0417 0.2443 -0.0482 -0.1382 1.0000 ----------------------------------------------------------------Correlations between variable lists 1 and 2 | locus_~l self_c~t motiva~n -------------+------------------------------ read | 0.3736 0.0607 0.2106 write | 0.3589 0.0194 0.2542 math | 0.3373 0.0536 0.1950 science | 0.3246 0.0698 0.1157 female | 0.1134 -0.1260 0.0981 --------------------------------------------

Nakonec použijeme příkaz estat loadings, abychom zobrazili zatížení proměnných na kanonické dimenze (variance). Zatížení jsou korelace mezi proměnnými a kanonickými veličinami.

estat loadingsCanonical loadings for variable list 1 | 1 2 -------------+-------------------- locus_of_c~l | 0.9040 -0.3897 self_concept | 0.0208 -0.7087 motivation | 0.5672 0.3509 ----------------------------------Canonical loadings for variable list 2 | 1 2 -------------+-------------------- read | 0.8404 -0.3588 write | 0.8765 0.0648 math | 0.7639 -0.2979 science | 0.6584 -0.6768 female | 0.3641 0.7549 ----------------------------------Correlation between variable list 1 and canonical variates from list 2 | 1 2 -------------+-------------------- locus_of_c~l | 0.4196 -0.0653 self_concept | 0.0097 -0.1187 motivation | 0.2632 0.0588 ----------------------------------Correlation between variable list 2 and canonical variates from list 1 | 1 2 -------------+-------------------- read | 0.3900 -0.0601 write | 0.4068 0.0109 math | 0.3545 -0.0499 science | 0.3056 -0.1134 female | 0.1690 0.1265 ----------------------------------

Věci, které je třeba zvážit

Stejně jako v případě vícerozměrné regrese, MANOVA apod. vyžaduje kanonická korelační analýza pro platné závěry předpoklad vícerozměrné normality a homogenity rozptylu.
Kanonická korelační analýza předpokládá lineární vztah mezi kanonickými proměnnými a každým souborem proměnných.
Podobně jako vícerozměrná regrese vyžaduje kanonická korelační analýza velkou velikost vzorku.

Viz také

Stata Online Manual
- canon

Afifi, A, Clark, V a May, S. 2004. Počítačem podporovaná vícerozměrná analýza. Boca Raton, Fl. 4. vyd: Chapman & Hall/CRC.
Garson, G. David (2015). GLM Multivariate, MANOVA a kanonická korelace. Asheboro, NC: Statistical Associates Publishers.
G. David Garson, Canonical Correlation in Statnotes: Topics in Multivariate Analysis
Pedhazur, E. 1997. Vícenásobná regrese v behaviorálním výzkumu. Vydání třetí. Orlando, Fl: Holt, Rinehart and Winston, Inc.

Příklady kanonické korelační analýzy

Popis dat

Metody analýzy, které můžete zvážit