Analisi di correlazione canonica

Informazioni sulla versione: Il codice per questa pagina è stato testato in Stata 12.

L’analisi di correlazione canonica è usata per identificare e misurare le associazioni tra due serie di variabili. La correlazione canonica è appropriata nelle stesse situazioni in cui lo sarebbe la regressione multipla, ma dove ci sono più variabili di risultato intercorrelate. L’analisi di correlazione canonica determina un set di variabili canoniche, combinazioni lineari ortogonali delle variabili all’interno di ogni set che spiegano meglio la variabilità sia all’interno che tra i set.

Nota: Lo scopo di questa pagina è di mostrare come usare vari comandi di analisi dei dati e non copre tutti gli aspetti del processo di ricerca che i ricercatori devono fare. In particolare, non copre la pulizia e il controllo dei dati, la verifica delle ipotesi, la diagnosi dei modelli e le potenziali analisi successive.

Esempi di analisi di correlazione canonica

Esempio 1. Un ricercatore ha raccolto dati su tre variabili psicologiche, quattro variabili accademiche (punteggi di test standardizzati) e il genere per 600 matricole del college. È interessato a come l’insieme delle variabili psicologiche si relaziona alle variabili accademiche e al genere. In particolare, il ricercatore è interessato a quante dimensioni (variabili canoniche) sono necessarie per capire l’associazione tra i due gruppi di variabili. Un ricercatore è interessato ad esplorare le associazioni tra i fattori di due test di personalità multidimensionali, il MMPI e il NEO. È interessato a quali dimensioni sono comuni tra i test e quanta varianza è condivisa tra loro. In particolare, è interessata a scoprire se la dimensione del nevroticismo del NEO può spiegare una quantità sostanziale di varianza condivisa tra i due test.

Descrizione dei dati

Per il nostro esempio di analisi, espanderemo l’esempio 1 sullo studio delle associazioni tra misure psicologiche e misure di rendimento scolastico.

Abbiamo un file di dati, mmreg.dta, con 600 osservazioni su otto variabili. Le variabili psicologiche sono locus of control, self-concept e motivazione. Le variabili accademiche sono test standardizzati in lettura (read), scrittura (write), matematica (math) e scienze (science). Inoltre, la variabile femminile è una variabile indicatore zero-uno con l’uno che indica uno studente donna.

Guardiamo i dati.

use https://stats.idre.ucla.edu/stat/stata/dae/mmreg, clearsummarize locus_of_control self_concept motivation Variable | Obs Mean Std. Dev. Min Max-------------+--------------------------------------------------------locus_of_c~l | 600 .0965333 .6702799 -2.23 1.36self_concept | 600 .0049167 .7055125 -2.62 1.19 motivation | 600 .6608333 .3427294 0 1summarize read write math science female Variable | Obs Mean Std. Dev. Min Max-------------+-------------------------------------------------------- read | 600 51.90183 10.10298 28.3 76 write | 600 52.38483 9.726455 25.5 67.1 math | 600 51.849 9.414736 31.8 75.5 science | 600 51.76333 9.706179 26 74.2 female | 600 .545 .4983864 0 1

Metodi di analisi che potreste considerare

Di seguito una lista di alcuni metodi di analisi che potreste aver incontrato. Alcuni dei metodi elencati sono abbastanza ragionevoli mentre altri sono caduti in disgrazia o hanno delle limitazioni.

Analisi delle correlazioni canoniche, l’obiettivo di questa pagina.
Regressioni OLS separate – Si potrebbero analizzare questi dati usando analisi di regressione OLS separate per ogni variabile in un set. Le regressioni OLS non produrranno risultati multivariati e non riportano informazioni sulla dimensionalità.
La regressione multipla multivariata è un’opzione ragionevole se non ti interessa la dimensionalità.

Di seguito usiamo il comando canon per condurre un’analisi di correlazione canonica. Richiede due serie di variabili racchiuse da una coppia di parentesi. Specifichiamo le nostre variabili psicologiche come primo set di variabili e le nostre variabili accademiche più il genere come secondo set. Per comodità, le variabili del primo set sono chiamate variabili “u” e le variabili del secondo set sono chiamate variabili “v”.

L’output dell’analisi di correlazione canonica è composto da due parti. La prima è costituita dai coefficienti canonici grezzi. La seconda parte inizia con le correlazioni canoniche e include i test multivariati complessivi per la dimensionalità.

I coefficienti canonici grezzi possono essere utilizzati per generare le varianti canoniche, rappresentate dalle colonne (1 2 3) nelle tabelle dei coefficienti, per ogni set. Essi sono interpretati in modo analogo all’interpretazione dei coefficienti di regressione, cioè, per la variabile lettura, un aumento di una unità nella lettura porta ad un aumento di 0,0446 nella prima variante canonica dell’insieme “v” quando tutte le altre variabili sono mantenute costanti. Ecco un altro esempio: essere femmina porta a un aumento di 0,6321 nella dimensione 1 per l’insieme “v” con gli altri predittori tenuti costanti.

Il numero di possibili varianti canoniche, note anche come dimensioni canoniche, è uguale al numero di variabili nell’insieme più piccolo. Nel nostro esempio, il set “u” (il primo set) ha tre variabili e il set “v” (il secondo set) ne ha cinque. Questo porta a tre possibili varianti canoniche per ogni set, che corrispondono alle tre colonne per ogni set e a tre coefficienti di correlazione canonica nell’output. Le dimensioni canoniche sono variabili latenti che sono analoghe ai fattori ottenuti nell’analisi dei fattori, eccetto che le varianti canoniche massimizzano anche la correlazione tra i due set di variabili. In generale, non tutte le dimensioni canoniche sarebbero statisticamente significative. Una dimensione significativa corrisponde a una correlazione canonica significativa e viceversa. Per testare se una correlazione canonica è statisticamente diversa da zero, possiamo usare l’opzione test nel comando canon come mostrato sotto. Non abbiamo bisogno di rieseguire il modello, invece chiediamo semplicemente a Stata di visualizzare nuovamente il modello con informazioni aggiuntive sui test richiesti. Per testare tutte le dimensioni canoniche, dobbiamo specificare test(1 2 3). Essenzialmente test(1) è il test complessivo su tre dimensioni, test(2) testerà la significatività delle correlazioni canoniche 2 e 3, e test(3) testerà la significatività della sola terza correlazione canonica.

Per questo particolare modello ci sono tre dimensioni canoniche di cui solo le prime due sono statisticamente significative. Il primo test delle dimensioni verifica se tutte e tre le dimensioni combinate sono significative (lo sono), il prossimo test verifica se le dimensioni 2 e 3 combinate sono significative (lo sono). Infine, l’ultimo test verifica se la dimensione 3, da sola, è significativa (non lo è). Quindi le dimensioni 1 e 2 devono essere ciascuna significativa.

Ora, potremmo voler controllare quali coefficienti grezzi per ciascuna delle variabili canoniche sono significativi. Possiamo richiedere gli errori standard e i test significativi tramite l’opzione stderr.

Nota che per la prima dimensione tutte le variabili tranne matematica e scienza sono statisticamente significative insieme alla dimensione nel suo complesso. Così, il locus of control, il concetto di sé e la motivazione condividono una certa variabilità l’uno con l’altro, così come leggere, scrivere e femminile, che condividono anche la variabilità tra loro. Per la seconda dimensione solo il concetto di sé, la motivazione, la matematica e la donna sono significativi. La terza dimensione non è significativa e non si presterà attenzione ai suoi coefficienti o ai test di Wald.

Quando le variabili nel modello hanno deviazioni standard molto diverse, i coefficienti standardizzati permettono un confronto più facile tra le variabili. Ora mostreremo i coefficienti canonici standardizzati per le prime due dimensioni (significative).

canon (locus_of_control self_concept motivation)(read write math science female), first(2) stdcoef notestCanonical correlation analysis Number of obs = 600Standardized coefficients for the first variable set | 1 2 -------------+-------------------- locus_of_c~l | 0.8404 -0.4166 self_concept | -0.2479 -0.8379 motivation | 0.4327 0.6948 ----------------------------------Standardized coefficients for the second variable set | 1 2 -------------+-------------------- read | 0.4508 -0.0496 write | 0.3490 0.4092 math | 0.2205 0.0398 science | 0.0488 -0.8266 female | 0.3150 0.5406 ----------------------------------Canonical correlations: 0.4641 0.1675 0.1040

I coefficienti canonici standardizzati sono interpretati in modo analogo all’interpretazione dei coefficienti di regressione standardizzati. Per esempio, si consideri la variabile lettura, un aumento di una deviazione standard nella lettura porta a un aumento di 0,45 deviazioni standard nel punteggio sulla prima variante canonica per il set 2 quando le altre variabili nel modello sono tenute costanti.

Prossimo, useremo il comando estat correlations per guardare tutte le correlazioni all’interno e tra gli insiemi di variabili.

estat correlationsCorrelations for variable list 1 | locus_~l self_c~t motiva~n -------------+------------------------------ locus_of_c~l | 1.0000 self_concept | 0.1712 1.0000 motivation | 0.2451 0.2886 1.0000 --------------------------------------------Correlations for variable list 2 | read write math sci female -------------+-------------------------------------------------- read | 1.0000 write | 0.6286 1.0000 math | 0.6793 0.6327 1.0000 science | 0.6907 0.5691 0.6495 1.0000 female | -0.0417 0.2443 -0.0482 -0.1382 1.0000 ----------------------------------------------------------------Correlations between variable lists 1 and 2 | locus_~l self_c~t motiva~n -------------+------------------------------ read | 0.3736 0.0607 0.2106 write | 0.3589 0.0194 0.2542 math | 0.3373 0.0536 0.1950 science | 0.3246 0.0698 0.1157 female | 0.1134 -0.1260 0.0981 --------------------------------------------

Infine, useremo il comando estat loadings per visualizzare i carichi delle variabili sulle dimensioni canoniche (variate). Le cariche sono correlazioni tra le variabili e le variabili canoniche.

estat loadingsCanonical loadings for variable list 1 | 1 2 -------------+-------------------- locus_of_c~l | 0.9040 -0.3897 self_concept | 0.0208 -0.7087 motivation | 0.5672 0.3509 ----------------------------------Canonical loadings for variable list 2 | 1 2 -------------+-------------------- read | 0.8404 -0.3588 write | 0.8765 0.0648 math | 0.7639 -0.2979 science | 0.6584 -0.6768 female | 0.3641 0.7549 ----------------------------------Correlation between variable list 1 and canonical variates from list 2 | 1 2 -------------+-------------------- locus_of_c~l | 0.4196 -0.0653 self_concept | 0.0097 -0.1187 motivation | 0.2632 0.0588 ----------------------------------Correlation between variable list 2 and canonical variates from list 1 | 1 2 -------------+-------------------- read | 0.3900 -0.0601 write | 0.4068 0.0109 math | 0.3545 -0.0499 science | 0.3056 -0.1134 female | 0.1690 0.1265 ----------------------------------

Cose da considerare

Come nel caso della regressione multivariata, MANOVA e così via, per una valida inferenza, l’analisi di correlazione canonica richiede l’assunzione di normalità multivariata e omogeneità della varianza.
L’analisi di correlazione canonica presuppone una relazione lineare tra le variabili canoniche e ogni set di variabili.
Similmente alla regressione multivariata, l’analisi di correlazione canonica richiede un grande campione.

Vedi anche

Stata Online Manual
- canonico

Afifi, A, Clark, V e May, S. 2004. Computer-Aided Multivariate Analysis. 4th ed.Boca Raton, Fl: Chapman & Hall/CRC.
Garson, G. David (2015). GLM Multivariata, MANOVA, e correlazione canonica. Asheboro, NC: Statistical Associates Publishers.
G. David Garson, Canonical Correlation in Statnotes: Topics in Multivariate Analysis
Pedhazur, E. 1997. Regressione multipla nella ricerca comportamentale. 3rd ed. Orlando, Fl: Holt, Rinehart and Winston, Inc.

Esempi di analisi di correlazione canonica

Descrizione dei dati

Metodi di analisi che potreste considerare