Canonical Correlation Analysis | Stata Data Analysis Examples

Version info:

Kanonista korrelaatioanalyysiä käytetään kahden muuttujajoukon välisten yhteyksien tunnistamiseen ja mittaamiseen. Kanoninen korrelaatio soveltuu samoihin tilanteisiin kuin moninkertainen regressio, mutta joissa on useita keskenään korreloivia tulosmuuttujia. Kanoninen korrelaatioanalyysi määrittää joukon kanonisia muuttujia, ortogonaalisia lineaarisia yhdistelmiä kussakin joukossa olevista muuttujista, jotka parhaiten selittävät vaihtelua sekä joukon sisällä että joukon välillä.

Huomautus: Tämän sivun tarkoituksena on näyttää, miten erilaisia data-analyysikomentoja käytetään. se ei kata kaikkia tutkimusprosessin näkökohtia, joita tutkijoiden odotetaan tekevän. Erityisesti se ei kata tietojen puhdistamista ja tarkistamista, oletusten todentamista, mallidiagnostiikkaa ja mahdollisia jatkoanalyysejä.

Esimerkkejä kanonisesta korrelaatioanalyysistä

Esimerkki 1. Tutkija on kerännyt tietoja kolmesta psykologisesta muuttujasta, neljästä akateemisesta muuttujasta (standardoidut testitulokset) ja sukupuolesta 600 korkeakouluopiskelijan osalta. Hän on kiinnostunut siitä, miten psykologiset muuttujat liittyvät akateemisiin muuttujiin ja sukupuoleen. Erityisesti tutkija on kiinnostunut siitä, kuinka monta ulottuvuutta (kanonista muuttujaa) tarvitaan näiden kahden muuttujajoukon välisen yhteyden ymmärtämiseksi.

Esimerkki 2. Tutkija on kiinnostunut tutkimaan kahden moniulotteisen persoonallisuustestin, MMPI:n ja NEO:n, tekijöiden välisiä yhteyksiä. Hän on kiinnostunut siitä, mitkä ulottuvuudet ovat yhteisiä testeille ja kuinka paljon varianssia testit jakavat keskenään. Hän on erityisesti kiinnostunut selvittämään, voiko NEO:n neuroottisuusulottuvuus selittää merkittävän osan näiden kahden testin yhteisestä varianssista.

Aineiston kuvaus

Analyysiesimerkissämme aiomme laajentaa esimerkkiä 1 psykologisten mittareiden ja akateemisen suorituksen mittareiden välisten yhteyksien tutkimisesta.

Meillä on datatiedosto, mmreg.dta, jossa on 600 havaintoa kahdeksasta muuttujasta. Psykologiset muuttujat ovat locus of control, self-concept jamotivation. Akateemiset muuttujat ovat standardoituja testejä lukemisessa (read), kirjoittamisessa (write), matematiikassa (math) ja luonnontieteissä (science). Lisäksi muuttuja female on nolla-yksi-indikaattorimuuttuja, jossa ykkönen tarkoittaa naisopiskelijaa.

Katsotaanpa aineistoa.

use https://stats.idre.ucla.edu/stat/stata/dae/mmreg, clearsummarize locus_of_control self_concept motivation Variable | Obs Mean Std. Dev. Min Max-------------+--------------------------------------------------------locus_of_c~l | 600 .0965333 .6702799 -2.23 1.36self_concept | 600 .0049167 .7055125 -2.62 1.19 motivation | 600 .6608333 .3427294 0 1summarize read write math science female Variable | Obs Mean Std. Dev. Min Max-------------+-------------------------------------------------------- read | 600 51.90183 10.10298 28.3 76 write | 600 52.38483 9.726455 25.5 67.1 math | 600 51.849 9.414736 31.8 75.5 science | 600 51.76333 9.706179 26 74.2 female | 600 .545 .4983864 0 1

Harkitsemasi analyysimenetelmät

Alhaalla on luettelo joistakin analyysimenetelmistä, joihin olet saattanut törmätä. Osa luetelluista menetelmistä on varsin järkeviä, kun taas toiset ovat joko menettäneet suosiotaan tai niillä on rajoituksia.

Kanoninen korrelaatioanalyysi, johon tällä sivulla keskitytään.
Erilliset OLS-regressiot – Voisit analysoida näitä aineistoja käyttämällä erillisiä OLS-regressioanalyysejä kullekin muuttujalle yhdessä sarjassa. OLS-regressiot eivät tuota monimuuttujaisia tuloksia eikä raportoi tietoaulottuvuudesta.
Monimuuttujainen monimuuttujainen regressio on järkevä vaihtoehto, jos ulottuvuus ei kiinnosta.

Kanoninen korrelaatioanalyysi

Alhaalla käytämme komentoa canon kanonisen korrelaatioanalyysin tekemiseen. Se vaatii kaksi muuttujajoukkoa sulkujen ympäröimänä. Määritämme psykologiset muuttujamme ensimmäiseksi muuttujajoukoksi ja akateemiset muuttujamme sekä sukupuolen toiseksi muuttujajoukoksi. Yksinkertaisuuden vuoksi ensimmäisen joukon muuttujia kutsutaan ”u”-muuttujiksi ja toisen joukon muuttujia ”v”-muuttujiksi.

Kanonisen korrelaatioanalyysin tuloste koostuu kahdesta osasta. Ensimmäinen on kanoniset raakakertoimet. Toinen osa alkaa kanonisista korrelaatioista ja sisältää yleiset monimuuttujaiset dimensiotestit.

Raakakanonisten kertoimien avulla voidaan tuottaa kullekin joukolle kanoniset muuttujat, joita edustavat kertoimitaulukoiden sarakkeet (1 2 3). Niitä tulkitaan analogisesti regressiokertoimien tulkintaan eli lukemismuuttujan osalta lukemismuuttujan yhden yksikön lisäys johtaa.0446 lisäykseen ”v”-joukon ensimmäisessä kanonisessa muuttujassa, kun kaikki muut muuttujat pidetään vakioina. Tässä on toinen esimerkki: naisena oleminen johtaa ”v”-joukon 1. ulottuvuuden .6321 kasvuun, kun muut ennustajat pidetään vakioina.

Mahdollisten kanonisten muuttujien, joita kutsutaan myös kanonisiksi ulottuvuuksiksi, lukumäärä on yhtä suuri kuin muuttujien lukumäärä pienemmässä joukossa. Esimerkissämme ”u”-joukossa (ensimmäinen joukko) on kolme muuttujaa ja ”v”-joukossa (toinen joukko) on viisi muuttujaa. Tämä johtaa kolmeen mahdolliseen kanoniseen muuttujaan kummallekin joukolle, mikä vastaa kunkin joukon kolmea saraketta ja kolmea kanonista korrelaatiokerrointa tulosteessa. Kanoniset dimensiot ovat latentteja muuttujia, jotka ovat analogisia faktorianalyysissä saatujen faktorien kanssa, paitsi että kanoniset muuttujat maksimoivat myös kahden muuttujajoukon välisen korrelaation. Yleensä kaikki kanoniset ulottuvuudet eivät olisi tilastollisesti merkitseviä. Merkitsevä ulottuvuus vastaa merkittävää kanonista korrelaatiota ja päinvastoin. Jos haluamme testata, poikkeaako kanoninen korrelaatio tilastollisesti nollasta, voimme käyttää canon-komennon test-vaihtoehtoa alla esitetyllä tavalla. Meidän ei tarvitse ajaa mallia uudelleen, vaan pyydämme vain Stataa näyttämään mallin uudelleen lisätietojen kanssa pyydetyistä testeistä. Jos haluamme testata kaikki kanoniset ulottuvuudet, meidän on määritettävä test(1 2 3). Pohjimmiltaan test(1) on kolmen ulottuvuuden kokonaistesti, test(2) testaa kanonisten korrelaatioiden 2 ja 3 merkitsevyyttä, ja test(3) testaa pelkän kolmannen kanonisen korrelaation merkitsevyyttä.

Tässä nimenomaisessa mallissa on kolme kanonista ulottuvuutta, joista vain kaksi ensimmäistä ovat tilastollisesti merkitseviä. Ensimmäinen ulottuvuuksien testi testaa, ovatko kaikki kolmeulottuvuutta yhdessä merkitseviä (ne ovat), seuraava testi testaa, ovatko ulottuvuudet 2 ja 3 yhdessä merkitseviä (ne ovat). Viimeisellä testillä testataan, onko ulottuvuus 3 yksinään merkitsevä (ei ole). Näin ollen ulottuvuuksien 1 ja 2 on kummankin oltava merkitseviä.

Nyt saatamme haluta tarkastaa, mitkä kunkin kanonisen muuttujan raakakertoimet ovat merkitseviä. Voimme pyytää keskivirheet ja merkitsevyystestit stderr-optiolla.

Huomaa, että ensimmäisen ulottuvuuden osalta kaikki muuttujat matematiikkaa ja tiedettä lukuun ottamatta ovat tilastollisesti merkitseviä yhdessä koko ulottuvuuden kanssa. Näin ollen locus of control, minäkäsitys ja motivaatio jakavat jonkin verran vaihtelua keskenään, samoin kuin lukeminen, kirjoittaminen ja nainen, jotka myös jakavat vaihtelua keskenään. Toisen ulottuvuuden osalta ainoastaan minäkäsitys, motivaatio, matematiikka ja nainen ovat merkitseviä. Kolmas ulottuvuus ei ole merkitsevä, eikä sen kertoimiin tai Waldin testeihin kiinnitetä huomiota.

Kun mallin muuttujilla on hyvin erilaiset keskihajonnat,standardoidut kertoimet mahdollistavat helpomman vertailun muuttujien välillä. Seuraavaksi näytetään standardoidut kanoniset kertoimet kahdelle ensimmäiselle (merkitsevälle)ulottuvuudelle.

canon (locus_of_control self_concept motivation)(read write math science female), first(2) stdcoef notestCanonical correlation analysis Number of obs = 600Standardized coefficients for the first variable set | 1 2 -------------+-------------------- locus_of_c~l | 0.8404 -0.4166 self_concept | -0.2479 -0.8379 motivation | 0.4327 0.6948 ----------------------------------Standardized coefficients for the second variable set | 1 2 -------------+-------------------- read | 0.4508 -0.0496 write | 0.3490 0.4092 math | 0.2205 0.0398 science | 0.0488 -0.8266 female | 0.3150 0.5406 ----------------------------------Canonical correlations: 0.4641 0.1675 0.1040

Standardoituja kanonisia kertoimia tulkitaan analogisesti standardoitujen regressiokertoimien tulkintaan. Tarkastellaan esimerkiksi muuttujaa lukeminen, jonka yhden standardipoikkeaman lisäys lukemisessa johtaa 0,45 standardipoikkeaman lisäykseen sarjan 2 ensimmäisen kanonisen muuttujan pistemäärässä, kun muut mallin muuttujat pidetään vakioina.

Seuraavaksi käytämme komentoa estat correlations tarkastellaksemme kaikkia korrelaatioita muuttujajoukkojen sisällä ja niiden välillä.

estat correlationsCorrelations for variable list 1 | locus_~l self_c~t motiva~n -------------+------------------------------ locus_of_c~l | 1.0000 self_concept | 0.1712 1.0000 motivation | 0.2451 0.2886 1.0000 --------------------------------------------Correlations for variable list 2 | read write math sci female -------------+-------------------------------------------------- read | 1.0000 write | 0.6286 1.0000 math | 0.6793 0.6327 1.0000 science | 0.6907 0.5691 0.6495 1.0000 female | -0.0417 0.2443 -0.0482 -0.1382 1.0000 ----------------------------------------------------------------Correlations between variable lists 1 and 2 | locus_~l self_c~t motiva~n -------------+------------------------------ read | 0.3736 0.0607 0.2106 write | 0.3589 0.0194 0.2542 math | 0.3373 0.0536 0.1950 science | 0.3246 0.0698 0.1157 female | 0.1134 -0.1260 0.0981 --------------------------------------------

Viimeiseksi käytämme komentoa estat loadings näyttääksemme muuttujien kuormitukset kanonisiin ulottuvuuksiin (muuttujiin). Theseloadings ovat muuttujien ja kanonisten muuttujien välisiä korrelaatioita.

estat loadingsCanonical loadings for variable list 1 | 1 2 -------------+-------------------- locus_of_c~l | 0.9040 -0.3897 self_concept | 0.0208 -0.7087 motivation | 0.5672 0.3509 ----------------------------------Canonical loadings for variable list 2 | 1 2 -------------+-------------------- read | 0.8404 -0.3588 write | 0.8765 0.0648 math | 0.7639 -0.2979 science | 0.6584 -0.6768 female | 0.3641 0.7549 ----------------------------------Correlation between variable list 1 and canonical variates from list 2 | 1 2 -------------+-------------------- locus_of_c~l | 0.4196 -0.0653 self_concept | 0.0097 -0.1187 motivation | 0.2632 0.0588 ----------------------------------Correlation between variable list 2 and canonical variates from list 1 | 1 2 -------------+-------------------- read | 0.3900 -0.0601 write | 0.4068 0.0109 math | 0.3545 -0.0499 science | 0.3056 -0.1134 female | 0.1690 0.1265 ----------------------------------

Huomioon otettavia asioita

Kuten monimuuttujaregressiossa, MANOVA:ssa ja niin edelleen, kelvollisen johtopäätöksen tekemiseksi kanoninen korrelaatioanalyysi edellyttää monimuuttujan normaalin ja varianssin homogeenisuuden oletusta.
Kanoninen korrelaatioanalyysi olettaa, että kanonisten muuttujien ja kunkin muuttujajoukon välillä on lineaarinen suhde.
Kanoninen korrelaatioanalyysi vaatii monimuuttujaisen regression tavoin suuren otoskoon.

Katso myös

Stata Online Manual
- canon

Afifi, A, Clark, V ja May, S. 2004. Tietokoneavusteinen monimuuttuja-analyysi. 4th ed.Boca Raton, Fl: Chapman & Hall/CRC.
Garson, G. David (2015). GLM monimuuttuja, MANOVA ja kanoninen korrelaatio. Asheboro, NC: Statistical Associates Publishers.
G. David Garson, Canonical Correlation in Statnotes: Topics in Multivariate Analysis
Pedhazur, E. 1997. Multiple Regression in Behavioral Research. 3rd ed. Orlando, Fl: Holt, Rinehart and Winston, Inc.