Analiza corelației canonice | Stata Data Analysis Examples

Version info: Codul pentru această pagină a fost testat în Stata 12.

Analiza corelațiilor canonice este utilizată pentru a identifica și măsura asocierile dintre două seturi de variabile. Corelația canonică este adecvată în aceleași situații în care ar fi regresia multiplă, dar în care există mai multe variabile de rezultat intercorelate. Analiza corelației canonice determină un set de variante canonice, combinații liniare ortogonale ale variabilelor din cadrul fiecărui set care explică cel mai bine variabilitatea atât în cadrul seturilor, cât și între acestea.

Rețineți: Scopul acestei pagini este de a arăta cum se utilizează diverse comenzi de analiză a datelor. ea nu acoperă toate aspectele procesului de cercetare pe care cercetătorii sunt așteptați să le facă. În special, nu acoperă curățarea și verificarea datelor, verificarea ipotezelor, diagnosticarea modelelor și eventualele analize ulterioare.

Exemple de analiză a corelațiilor canonice

Exemplu 1. Un cercetător a colectat date cu privire la trei variabile psihologice, patru variabile academice (scoruri standardizate la teste) și sexul pentru 600 de boboci de facultate. Ea este interesată de modul în care setul de variabile psihologice se raportează la variabilele academice și la sex. În special, cercetătorul este interesat de câte dimensiuni (variabile canonice) sunt necesare pentru a înțelege asocierea dintre cele două seturi de variabile.

Exemplu 2. Un cercetător este interesat să exploreze asocierile dintre factorii din două teste multidimensionale de personalitate, MMPI și NEO. Ea este interesată să afle ce dimensiuni sunt comune între teste și cât de multă varianță este împărțită între ele. Ea este interesată în special să afle dacă dimensiunea neuroticismului din NEO poate explica o cantitate substanțială de varianță comună între cele două teste.

Descrierea datelor

Pentru exemplul nostru de analiză, vom extinde exemplul 1 despre investigarea asociațiilor dintre măsurile psihologice și măsurile de realizare academică.

Avem un fișier de date, mmreg.dta, cu 600 de observații pe opt variabile. Variabilele psihologice sunt locus of control, self-concept șimotivation. Variabilele academice sunt teste standardizate de citire (read), scriere (write), matematică (math) și științe (science). În plus, variabila de sex feminin este o variabilă indicatoare zero-unu, unu indicând o studentă de sex feminin.

Să ne uităm la date.

use https://stats.idre.ucla.edu/stat/stata/dae/mmreg, clearsummarize locus_of_control self_concept motivation Variable | Obs Mean Std. Dev. Min Max-------------+--------------------------------------------------------locus_of_c~l | 600 .0965333 .6702799 -2.23 1.36self_concept | 600 .0049167 .7055125 -2.62 1.19 motivation | 600 .6608333 .3427294 0 1summarize read write math science female Variable | Obs Mean Std. Dev. Min Max-------------+-------------------------------------------------------- read | 600 51.90183 10.10298 28.3 76 write | 600 52.38483 9.726455 25.5 67.1 math | 600 51.849 9.414736 31.8 75.5 science | 600 51.76333 9.706179 26 74.2 female | 600 .545 .4983864 0 1

Metode de analiză pe care le-ați putea lua în considerare

Mai jos este o listă a unor metode de analiză pe care le-ați putea întâlni. Unele dintre metodele enumerate sunt destul de rezonabile, în timp ce altele fie au căzut în dizgrație, fie au limitări.

  • Analiza de corelație canonică, pe care se concentrează această pagină.
  • Regrese OLS separate – Ați putea analiza aceste date folosind analize de regresie OLS separate pentru fiecare variabilă dintr-un set. Regresiile OLS nu vor produce rezultate multivariate și nu raportează informații cu privire la dimensionalitate.
  • Regresia multiplă multivariată este o opțiune rezonabilă dacă nu sunteți interesat de dimensionalitate.

Analiza de corelație canonică

Mai jos folosim comanda canon pentru a efectua o analiză de corelație canonică. Aceasta necesită două seturi de variabile închise cu o pereche de paranteze. Specificăm variabilele noastre psihologice ca prim set de variabile și variabilele noastre academice plus sexul ca al doilea set. Pentru comoditate, variabilele din primul set sunt numite variabile „u”, iar variabilele din al doilea set sunt numite variabile „v”.

Lovitura pentru analiza corelației canonice este alcătuită din două părți. Prima este reprezentată de coeficienții canonici brute. A doua parte începe cu corelațiile canonice și include testele generale multivariate pentru dimensionalitate.

Coeficienții canonici brute pot fi utilizați pentru a genera variantele canonice, reprezentate de coloanele (1 2 3) din tabelele de coeficienți, pentru fiecare set. Aceștia sunt interpretați într-un mod analog cu interpretarea coeficienților de regresie, de exemplu, pentru variabila citire, o creștere de o unitate a citirii duce la o creștere de 0,0446 în prima variabilă canonică a setului „v”, atunci când toate celelalte variabile sunt menținute constante. Iată un alt exemplu: a fi de sex feminin conduce la o creștere de 0,6321 în dimensiunea 1 pentru setul „v”, cu ceilalți predictori menținuți constanți.

Numărul de variante canonice posibile, cunoscute și sub numele de dimensiuni canonice, este egal cu numărul de variabile din setul mai mic. În exemplul nostru, setul „u” (primul set) are trei variabile, iar setul „v” (al doilea set) are cinci. Acest lucru conduce la trei variante canonice posibile pentru fiecare set, ceea ce corespunde celor trei coloane pentru fiecare set și celor trei coeficienți de corelație canonică din rezultat. Dimensiunile canonice sunt variabile latente care sunt analoage cu factorii obținuți în analiza factorială, cu excepția faptului că variantele canonice maximizează, de asemenea, corelația dintre cele două seturi de variabile. În general, nu toate dimensiunile canonice ar fi semnificative din punct de vedere statistic. O dimensiune semnificativă corespunde unei corelații canonice semnificative și viceversa. Pentru a testa dacă o corelație canonică este diferită de zero din punct de vedere statistic, putem utiliza opțiunea test din comanda canon, așa cum se arată mai jos. Nu trebuie să rulăm din nou modelul, ci doar să-i cerem lui Stata să afișeze din nou modelul cu informații suplimentare privind testele solicitate. Pentru a testa toate dimensiunile canonice, trebuie să specificăm test(1 2 3). În esență, test(1) este testul general pe cele trei dimensiuni, test(2) va testa semnificația corelațiilor canonice 2 și 3, iar test(3) va testa semnificația doar a celei de-a treia corelații canonice.

Pentru acest model particular există trei dimensiuni canonice dintre care doar primele două sunt semnificative din punct de vedere statistic. Primul test al dimensiunilor testează dacă toate cele treidimensiuni combinate sunt semnificative (sunt), următorul test testează dacă dimensiunile 2 și 3combinate sunt semnificative (sunt). În cele din urmă, ultimul test testează dacă dimensiunea3, de una singură, este semnificativă (nu este). Prin urmare, dimensiunile 1 și 2 trebuie să fie fiecare semnificativă.

Acum, am putea dori să inspectăm ce coeficienți brute pentru fiecare dintre variantele canonice sunt semnificativi. Putem solicita erorile standard și testele semnificative prin intermediul opțiunii stderr.

Rețineți că, pentru prima dimensiune, toate variabilele, cu excepția matematicii și științei, sunt semnificative din punct de vedere statistic, împreună cu întreaga dimensiune. Astfel, locus de control, conceptul de sine și motivația împărtășesc o anumită variabilitate între ele, precum și cu citit, scris și feminin, care, de asemenea, împărtășesc variabilitatea între ele. Pentru a doua dimensiune, doar conceptul de sine, motivația, matematica și sexul feminin sunt semnificative. A treiadimensiune nu este semnificativă și nu se va acorda atenție coeficienților săi sau testelor Wald.

Când variabilele din model au deviații standard foarte diferite,coeficienții standardizați permit comparații mai ușoare între variabile. În continuare vom afișa coeficienții canonici standardizați pentru primele două dimensiuni (semnificative).

canon (locus_of_control self_concept motivation)(read write math science female), first(2) stdcoef notestCanonical correlation analysis Number of obs = 600Standardized coefficients for the first variable set | 1 2 -------------+-------------------- locus_of_c~l | 0.8404 -0.4166 self_concept | -0.2479 -0.8379 motivation | 0.4327 0.6948 ----------------------------------Standardized coefficients for the second variable set | 1 2 -------------+-------------------- read | 0.4508 -0.0496 write | 0.3490 0.4092 math | 0.2205 0.0398 science | 0.0488 -0.8266 female | 0.3150 0.5406 ----------------------------------Canonical correlations: 0.4641 0.1675 0.1040

Coeficienții canonici standardizați se interpretează într-un mod analog cuinterpretarea coeficienților standardizați de regresie. De exemplu, să luăm în considerare variabila citire, o creștere cu o abatere standard a citirii duce la o creștere cu 0,45 abatere standard a scorului pe prima variabilă canonică pentru setul 2 atunci când celelalte variabile din model sunt menținute constante.

În continuare, vom folosi comanda estat correlations pentru a examina toate corelațiileîn interiorul și între seturile de variabile.

estat correlationsCorrelations for variable list 1 | locus_~l self_c~t motiva~n -------------+------------------------------ locus_of_c~l | 1.0000 self_concept | 0.1712 1.0000 motivation | 0.2451 0.2886 1.0000 --------------------------------------------Correlations for variable list 2 | read write math sci female -------------+-------------------------------------------------- read | 1.0000 write | 0.6286 1.0000 math | 0.6793 0.6327 1.0000 science | 0.6907 0.5691 0.6495 1.0000 female | -0.0417 0.2443 -0.0482 -0.1382 1.0000 ----------------------------------------------------------------Correlations between variable lists 1 and 2 | locus_~l self_c~t motiva~n -------------+------------------------------ read | 0.3736 0.0607 0.2106 write | 0.3589 0.0194 0.2542 math | 0.3373 0.0536 0.1950 science | 0.3246 0.0698 0.1157 female | 0.1134 -0.1260 0.0981 --------------------------------------------

În cele din urmă, vom folosi comanda estat loadings pentru a afișa încărcările variabilelor pe dimensiunile canonice (variatele). Theseloadings sunt corelații între variabile și variantele canonice.

estat loadingsCanonical loadings for variable list 1 | 1 2 -------------+-------------------- locus_of_c~l | 0.9040 -0.3897 self_concept | 0.0208 -0.7087 motivation | 0.5672 0.3509 ----------------------------------Canonical loadings for variable list 2 | 1 2 -------------+-------------------- read | 0.8404 -0.3588 write | 0.8765 0.0648 math | 0.7639 -0.2979 science | 0.6584 -0.6768 female | 0.3641 0.7549 ----------------------------------Correlation between variable list 1 and canonical variates from list 2 | 1 2 -------------+-------------------- locus_of_c~l | 0.4196 -0.0653 self_concept | 0.0097 -0.1187 motivation | 0.2632 0.0588 ----------------------------------Correlation between variable list 2 and canonical variates from list 1 | 1 2 -------------+-------------------- read | 0.3900 -0.0601 write | 0.4068 0.0109 math | 0.3545 -0.0499 science | 0.3056 -0.1134 female | 0.1690 0.1265 ----------------------------------

Ceasuri de luat în considerare

  • Ca și în cazul regresiei multivariate, MANOVA și așa mai departe, pentru o inferență validă, analiza corelațiilor canonice necesită ipoteza normalității multivariate și a omogenității varianței.
  • Analiza de corelație canonică presupune o relație liniară între variantele canonice și fiecare set de variabile.
  • Asemănător cu regresia multivariată, analiza de corelație canonică necesită o dimensiune mare a eșantionului.

Vezi și

  • Stata Online Manual
    • canon
  • Afifi, A, Clark, V și May, S. 2004. Computer-Aided Multivariate Analysis. 4th ed.Boca Raton, Fl: Chapman & Hall/CRC.
  • Garson, G. David (2015). GLM Multivariate, MANOVA și corelația canonică. Asheboro, NC: Statistical Associates Publishers.
  • G. David Garson, Canonical Correlation in Statnotes: Topics in Multivariate Analysis
  • Pedhazur, E. 1997. Multiple Regression in Behavioral Research (Regresie multiplă în cercetarea comportamentală). Ed. a 3-a. Orlando, Fl: Holt, Rinehart și Winston, Inc.

Lasă un comentariu