Canonical Correlation Analysis | Stata Data Analysis Examples

Version info:

A kanonikus korrelációelemzés két változócsoport közötti összefüggések azonosítására és mérésére szolgál. A kanonikus korreláció ugyanolyan helyzetekben megfelelő, mint a többszörös regresszió lenne, de ahol több egymással korreláló kimeneti változó van. A kanonikus korrelációelemzés meghatározza a kanonikus változók egy halmazát, az egyes halmazokon belüli változók ortogonális lineáris kombinációit, amelyek a legjobban magyarázzák a halmazokon belüli és a halmazok közötti változékonyságot.

Kérjük, vegye figyelembe: Ennek az oldalnak az a célja, hogy bemutassa, hogyan kell használni a különböző adatelemzési parancsokat. nem terjed ki a kutatási folyamat minden olyan aspektusára, amelyet a kutatóknak meg kell tenniük. Különösen nem terjed ki az adatok tisztítására és ellenőrzésére, a feltételezések ellenőrzésére, a modelldiagnosztikára és a lehetséges utóelemzésekre.

Példák a kanonikus korrelációelemzésre

1. példa. Egy kutató három pszichológiai változóra, négy tanulmányi változóra (standardizált teszteredmények) és a nemre vonatkozó adatokat gyűjtött 600 főiskolai gólya esetében. Az érdekli, hogyan viszonyul a pszichológiai változók halmaza a tanulmányi változókhoz és a nemhez. A kutatót különösen az érdekli, hogy hány dimenzió (kanonikus változó) szükséges a két változócsoport közötti kapcsolat megértéséhez.

2. példa. A kutatót két többdimenziós személyiségteszt, az MMPI és a NEO faktorai közötti összefüggések feltárása érdekli. Érdekli, hogy milyen dimenziók közösek a tesztek között, és mennyi variancia oszlik meg közöttük. Különösen az érdekli, hogy a NEO neuroticizmus dimenziója képes-e a két teszt közötti megosztott variancia jelentős részét megmagyarázni.

Az adatok leírása

Elemzési példánkhoz az 1. példát fogjuk kibővíteni a pszichológiai mérések és a tanulmányi teljesítmény mérések közötti összefüggések vizsgálatáról.

Egy mmreg.dta nevű adatfájllal rendelkezünk, amely nyolc változóra vonatkozó 600 megfigyelést tartalmaz. A pszichológiai változók a locus of control, az önkoncepció és amotiváció. A tanulmányi változók standardizált tesztek az olvasás (read), az írás (write), a matematika (math) és a természettudományok (science) területén. Továbbá a female változó egy nulla-egy indikátor változó, ahol az egyes jelzi a női tanulót.

Nézzük meg az adatokat.

use https://stats.idre.ucla.edu/stat/stata/dae/mmreg, clearsummarize locus_of_control self_concept motivation Variable | Obs Mean Std. Dev. Min Max-------------+--------------------------------------------------------locus_of_c~l | 600 .0965333 .6702799 -2.23 1.36self_concept | 600 .0049167 .7055125 -2.62 1.19 motivation | 600 .6608333 .3427294 0 1summarize read write math science female Variable | Obs Mean Std. Dev. Min Max-------------+-------------------------------------------------------- read | 600 51.90183 10.10298 28.3 76 write | 600 52.38483 9.726455 25.5 67.1 math | 600 51.849 9.414736 31.8 75.5 science | 600 51.76333 9.706179 26 74.2 female | 600 .545 .4983864 0 1

Elképzelhető elemzési módszerek

Az alábbiakban felsorolunk néhány elemzési módszert, amellyel már találkozhatott. A felsorolt módszerek közül néhány egészen ésszerű, míg mások vagy kiestek a divatból, vagy korlátokkal rendelkeznek.

  • Kanonikus korrelációelemzés, ennek az oldalnak a középpontjában.
  • Separate OLS regressziók – Ezeket az adatokat elemezheti külön OLS regresszióelemzéssel minden egyes változóra egy sorban. Az OLS-regresszió nem fog többváltozós eredményeket produkálni, és nem közöl információta dimenzionalitással kapcsolatban.
  • A többváltozós többszörös regresszió ésszerű lehetőség, ha nem érdekli a dimenzionalitás.

Kanonikus korrelációelemzés

A következőkben a kanon parancsot használjuk a kanonikus korrelációelemzés elvégzésére. Ehhez két, zárójelbe zárt változókészletre van szükség. Az első változókészletként a pszichológiai változóinkat, a második változókészletként pedig a tanulmányi változóinkat plusz a nemet adjuk meg. Az egyszerűség kedvéért az első halmazban lévő változókat “u” változóknak, a második halmazban lévő változókat pedig “v” változóknak nevezzük.

A kanonikus korrelációelemzés kimenete két részből áll. Az első a nyers kanonikus együtthatók. A második rész a kanonikus korrelációkkal kezdődik, és tartalmazza a dimenzionalitás átfogó többváltozós tesztjeit.

A nyers kanonikus együtthatók segítségével létrehozhatók a kanonikus változók, amelyeket az együtthatótáblázatok (1 2 3) oszlopai képviselnek az egyes halmazokhoz. Ezeket a regressziós együtthatók értelmezésével analóg módon kell értelmezni, azaz az olvasás változó esetében az olvasás egy egységnyi növekedése a “v” halmaz első kanonikus változójának 0,0446-os növekedéséhez vezet, ha az összes többi változót állandó értéken tartjuk. Íme egy másik példa: nőnek lenni a “v” halmaz 1. dimenziójának .6321-es növekedéséhez vezet, ha a többi prediktort változatlanul tartjuk.

A lehetséges kanonikus változók, más néven kanonikus dimenziók száma megegyezik a kisebb halmazban lévő változók számával. Példánkban az “u” halmaz (az első halmaz) három változóval, a “v” halmaz (a második halmaz) pedig öt változóval rendelkezik. Ez mindkét halmazhoz három lehetséges kanonikus változót eredményez, ami megfelel az egyes halmazok három oszlopának és három kanonikus korrelációs együtthatónak a kimeneten. A kanonikus dimenziók olyan látens változók, amelyek analógok a faktorelemzés során kapott faktorokkal, azzal a különbséggel, hogy a kanonikus változók a két változókészlet közötti korrelációt is maximalizálják. Általában nem minden kanonikus dimenzió lenne statisztikailag szignifikáns. Egy szignifikáns dimenzió szignifikáns kanonikus korrelációnak felel meg, és fordítva. Annak tesztelésére, hogy egy kanonikus korreláció statisztikailag különbözik-e a nullától, használhatjuk a canon parancsban a teszt opciót az alábbiak szerint. Nem kell újra lefuttatnunk a modellt, ehelyett csak megkérjük a Stata-t, hogy jelenítse meg újra a modellt a kért tesztekre vonatkozó további információkkal. Ahhoz, hogy az összes kanonikus dimenziót teszteljük, meg kell adnunk a test(1 2 3) parancsot. Lényegében a test(1) a három dimenzió átfogó tesztje, a test(2) a 2. és 3. kanonikus korreláció szignifikanciáját teszteli, a test(3) pedig csak a harmadik kanonikus korreláció szignifikanciáját teszteli.

Ez a konkrét modell három kanonikus dimenzióval rendelkezik, amelyek közül csak az első kettő statisztikailag szignifikáns. A dimenziók első tesztje azt vizsgálja, hogy mindháromdimenzió együtt szignifikáns-e (igen), a következő teszt azt vizsgálja, hogy a 2. és 3. dimenzió együtt szignifikáns-e (igen). Végül az utolsó teszt azt vizsgálja, hogy a 3. dimenzió önmagában szignifikáns-e (nem az). Ezért az 1. és 2. dimenziónak mindkettőnek szignifikánsnak kell lennie.

Most pedig megvizsgálhatjuk, hogy az egyes kanonikus változók nyers együtthatói közül melyek szignifikánsak. A standard hibákat és a szignifikanciateszteket az stderr opcióval kérhetjük le.

Megjegyezzük, hogy az első dimenzió esetében a matematika és a természettudomány kivételével minden változó statisztikailag szignifikáns, a dimenzió egészével együtt. Így a kontroll helyzete, az önkoncepció és a motiváció osztozik némi variabilitáson egymással, valamint az olvasással, az írással és a nővel, amelyek szintén osztoznak egymás közötti variabilitáson. A második dimenzió esetében csak az önkoncepció, a motiváció, a matematika és a nő szignifikáns. A harmadik dimenzió nem szignifikáns, és nem fordítunk figyelmet az együtthatóira vagy a Wald-tesztekre.

Ha a modellben szereplő változóknak nagyon eltérő a szórásuk, a standardizált együtthatók lehetővé teszik a változók közötti könnyebb összehasonlítást. Ezután megjelenítjük a standardizált kanonikus együtthatókat az első két (szignifikáns)dimenzióra.

canon (locus_of_control self_concept motivation)(read write math science female), first(2) stdcoef notestCanonical correlation analysis Number of obs = 600Standardized coefficients for the first variable set | 1 2 -------------+-------------------- locus_of_c~l | 0.8404 -0.4166 self_concept | -0.2479 -0.8379 motivation | 0.4327 0.6948 ----------------------------------Standardized coefficients for the second variable set | 1 2 -------------+-------------------- read | 0.4508 -0.0496 write | 0.3490 0.4092 math | 0.2205 0.0398 science | 0.0488 -0.8266 female | 0.3150 0.5406 ----------------------------------Canonical correlations: 0.4641 0.1675 0.1040

A standardizált kanonikus együtthatókat a standardizált regressziós együtthatók értelmezéséhez hasonlóan értelmezzük. Vegyük például az olvasás változót, az olvasás egy szórásnyi növekedése 0,45 szórásnyi növekedést eredményez a 2. halmaz első kanonikus változójának pontszámában, ha a modellben a többi változót állandó értéken tartjuk.

A következőkben az estat correlations paranccsal megnézzük az összes korrelációt a változók halmazain belül és a változók között.

estat correlationsCorrelations for variable list 1 | locus_~l self_c~t motiva~n -------------+------------------------------ locus_of_c~l | 1.0000 self_concept | 0.1712 1.0000 motivation | 0.2451 0.2886 1.0000 --------------------------------------------Correlations for variable list 2 | read write math sci female -------------+-------------------------------------------------- read | 1.0000 write | 0.6286 1.0000 math | 0.6793 0.6327 1.0000 science | 0.6907 0.5691 0.6495 1.0000 female | -0.0417 0.2443 -0.0482 -0.1382 1.0000 ----------------------------------------------------------------Correlations between variable lists 1 and 2 | locus_~l self_c~t motiva~n -------------+------------------------------ read | 0.3736 0.0607 0.2106 write | 0.3589 0.0194 0.2542 math | 0.3373 0.0536 0.1950 science | 0.3246 0.0698 0.1157 female | 0.1134 -0.1260 0.0981 --------------------------------------------

Végül az estat loadings paranccsal megjelenítjük a változóknak a kanonikus dimenziókra (változókra) vonatkozó terheléseit. A terhelések a változók és a kanonikus változók közötti korrelációk.

estat loadingsCanonical loadings for variable list 1 | 1 2 -------------+-------------------- locus_of_c~l | 0.9040 -0.3897 self_concept | 0.0208 -0.7087 motivation | 0.5672 0.3509 ----------------------------------Canonical loadings for variable list 2 | 1 2 -------------+-------------------- read | 0.8404 -0.3588 write | 0.8765 0.0648 math | 0.7639 -0.2979 science | 0.6584 -0.6768 female | 0.3641 0.7549 ----------------------------------Correlation between variable list 1 and canonical variates from list 2 | 1 2 -------------+-------------------- locus_of_c~l | 0.4196 -0.0653 self_concept | 0.0097 -0.1187 motivation | 0.2632 0.0588 ----------------------------------Correlation between variable list 2 and canonical variates from list 1 | 1 2 -------------+-------------------- read | 0.3900 -0.0601 write | 0.4068 0.0109 math | 0.3545 -0.0499 science | 0.3056 -0.1134 female | 0.1690 0.1265 ----------------------------------

Mit kell figyelembe venni

  • Mint a többváltozós regresszió, a MANOVA stb. esetében, az érvényes következtetéshez a kanonikus korrelációelemzés is megköveteli a többváltozós normális és a variancia homogenitásának feltételezését.
  • A kanonikus korrelációelemzés lineáris kapcsolatot feltételez a kanonikus változók és az egyes változócsoportok között.
  • A többváltozós regresszióhoz hasonlóan a kanonikus korrelációelemzés is nagy mintaméretet igényel.

See also

  • Stata Online Manual
    • canon
  • Afifi, A, Clark, V and May, S. 2004. Számítógéppel támogatott többváltozós elemzés. 4th ed. 4. kiadás: Boca Raton, Fl: Chapman & Hall/CRC.
  • Garson, G. David (2015). GLM többváltozós, MANOVA és kanonikus korreláció. Asheboro, NC: Statistical Associates Publishers.
  • G. David Garson, Canonical Correlation in Statnotes: Topics in Multivariate Analysis
  • Pedhazur, E. 1997. Többszörös regresszió a viselkedéskutatásban. 3rd ed. Orlando, Fl: Holt, Rinehart and Winston, Inc.

Szólj hozzá!