Canonical Correlation Analysis | Stata Data Analysis Examples

Version info: O código para esta página foi testado em Stata 12.

Análise de correlação canônica é usada para identificar e medir as associações entre dois conjuntos de variáveis. A correlação canônica é apropriada nas mesmas situações em que a regressão múltipla seria, mas onde há múltiplas variáveis de resultados intercorrelacionadas. A análise de correlação canônica determina um conjunto de variações canônicas, combinações lineares ortogonais das variáveis dentro de cada conjunto que melhor explicam a variabilidade tanto dentro como entre conjuntos.

Exemplos de análise de correlação canônica

Exemplo 1. Um pesquisador coletou dados sobre três variáveis psicológicas, quatro variáveis acadêmicas (resultados padronizados dos testes) e gênero para 600 calouros universitários. Ela está interessada em conhecer o conjunto de variáveis psicológicas relacionadas com as variáveis acadêmicas e gênero. Em particular, a pesquisadora está interessada em quantas dimensões (variáveis canônicas) são necessárias para entender a associação entre os dois conjuntos de variáveis.

Exemplo 2. Um pesquisador está interessado em explorar associações entre fatores de dois testes de personalidade multidimensionais, o MMPI e o NEO. Ela está interessada em quais dimensões são comuns entre os testes e quanta variância é compartilhada entre eles. Ela está especificamente interessada em descobrir se a dimensão neurótica do NEO pode ser responsável por uma quantidade substancial de variância compartilhada entre os dois testes.

Descrição dos dados

Para nosso exemplo de análise, vamos expandir o exemplo 1 sobre a investigação das associações entre as medidas psicológicas e as medidas de realização acadêmica.

Temos um arquivo de dados, mmreg.dta, com 600 observações sobre oito variáveis. As variáveis psicológicas são locus of control, self-concept andmotivation. As variáveis acadêmicas são testes padronizados de leitura (leitura), escrita (escrita), matemática (matemática) e ciência (ciência). Além disso, a variável feminina é uma variável indicadora zero-um com a que indica uma estudante feminina.

Vejamos os dados.

use https://stats.idre.ucla.edu/stat/stata/dae/mmreg, clearsummarize locus_of_control self_concept motivation Variable | Obs Mean Std. Dev. Min Max-------------+--------------------------------------------------------locus_of_c~l | 600 .0965333 .6702799 -2.23 1.36self_concept | 600 .0049167 .7055125 -2.62 1.19 motivation | 600 .6608333 .3427294 0 1summarize read write math science female Variable | Obs Mean Std. Dev. Min Max-------------+-------------------------------------------------------- read | 600 51.90183 10.10298 28.3 76 write | 600 52.38483 9.726455 25.5 67.1 math | 600 51.849 9.414736 31.8 75.5 science | 600 51.76333 9.706179 26 74.2 female | 600 .545 .4983864 0 1

Métodos de análise que você pode considerar

Below é uma lista de alguns métodos de análise que você pode ter encontrado. Alguns dos métodos listados são bastante razoáveis, enquanto outros ou caíram em desuso ou têm limitações.

  • Análise de correlação canônica, o foco desta página.
  • Regressão de OLS separada – Você poderia analisar estes dados usando análises de regressão de OLS separadas para cada variável em um conjunto. A regressão de OLS não produzirá resultados multivariados e não informa sobre dimensionalidade.
  • Regressão múltipla multivariada é uma opção razoável se você não tiver interesse em dimensionalidade.

Análise de correlação canônica

Below usamos o comando canônico para conduzir uma análise de correlação canônica. Ela requer dois conjuntos de variáveis enclausuradas com um par de parênteses. Especificamos nossas variáveis psicológicas como o primeiro conjunto de variáveis e nossas variáveis acadêmicas mais o gênero como o segundo conjunto. Por conveniência, as variáveis do primeiro conjunto são chamadas variáveis “u” e as variáveis do segundo conjunto são chamadas variáveis “v”.

O resultado da análise de correlação canônica é composto de duas partes. A primeira são os coeficientes canônicos brutos. A segunda parte começa com as correlações canônicas e inclui os testes multivariados gerais de dimensionalidade.

Os coeficientes canônicos brutos podem ser usados para gerar as variações canônicas, representadas pelas colunas (1 2 3) nas tabelas de coeficientes, para cada conjunto. Eles são interpretados de forma análoga aos coeficientes de interpretação de regressão, ou seja, para a variável lida, um aumento de uma unidade na leitura leva a um aumento de uma.0446 na primeira variável canônica do conjunto “v” quando todas as outras variáveis são mantidas constantes. Aqui está outro exemplo: sendo feminino leva a um aumento de 0,6321 na dimensão 1 para o conjunto “v” com os outros preditores mantidos constantes.

O número de possíveis variações canônicas, também conhecidas como dimensões canônicas, é igual ao número de variáveis no conjunto menor. No nosso exemplo, o conjunto “u” (o primeiro conjunto) tem três variáveis e o conjunto “v” (o segundo conjunto) tem cinco. Isso leva a três possíveis variações canônicas para cada set, que correspondem às três colunas para cada set e três coeficientes de correlação canônica na saída. As dimensões canônicas são variáveis latentes que são análogas aos fatores obtidos na análise fatorial, exceto que as variações canônicas também maximizam a correlação entre os dois conjuntos de variáveis. Em geral, nem todas as dimensões canônicas seriam estatisticamente significativas. Uma dimensão significativa corresponde a uma correlação canônica significativa e vice versa. Para testar se uma correlação canônica é estatisticamente diferente de zero, podemos usar a opção de teste no comando canônico como mostrado abaixo. Não precisamos de repetir o modelo, em vez disso apenas pedimos a Stata para reexibir o modelo com informações adicionais sobre os testes solicitados. Para testar todas as dimensões canônicas, precisamos especificar o teste(1 2 3). Essencialmente test(1) é o teste global em três dimensões, test(2) irá testar o significado das correlações canônicas 2 e 3, e test(3) irá testar o significado da terceira correlação canônica sozinha.

Para este modelo em particular existem três dimensões canônicas das quais apenas as duas primeiras são estatisticamente significativas. O primeiro teste de dimensões testa se todas as três dimensões combinadas são significativas (elas são), o próximo teste testa se as dimensões 2 e 3 combinadas são significativas (elas são). Finalmente, o último teste testa se a dimensão 3, por si só, é significativa (não é). Portanto, as dimensões 1 e 2 devem ser significativas para cada uma.

Agora, podemos querer inspecionar quais coeficientes brutos para cada uma das variações canônicas são significativos. Podemos solicitar os erros padrão e os testes significativos através da opção stderr.

Note que para a primeira dimensão todas as variáveis, exceto matemática e ciências, são estatisticamente significantes junto com a dimensão como um todo. Assim, locus of control, self concept, and motivation share some variability with each other, as well as with read, write, and female, which also share variablity between each other. Para a segunda dimensão apenas o auto-conceito, a motivação, a matemática e a mulher são significativos. A tríplice dimensão não é significativa e nenhuma atenção será dada aos seus coeficientes ou aos testes de Wald.

Quando as variáveis do modelo têm desvios padrão muito diferentes, os coeficientes padronizados permitem comparações mais fáceis entre as variáveis. A seguir vamos exibir os coeficientes canônicos padronizados para as duas primeiras dimensões (significativas).

canon (locus_of_control self_concept motivation)(read write math science female), first(2) stdcoef notestCanonical correlation analysis Number of obs = 600Standardized coefficients for the first variable set | 1 2 -------------+-------------------- locus_of_c~l | 0.8404 -0.4166 self_concept | -0.2479 -0.8379 motivation | 0.4327 0.6948 ----------------------------------Standardized coefficients for the second variable set | 1 2 -------------+-------------------- read | 0.4508 -0.0496 write | 0.3490 0.4092 math | 0.2205 0.0398 science | 0.0488 -0.8266 female | 0.3150 0.5406 ----------------------------------Canonical correlations: 0.4641 0.1675 0.1040

Os coeficientes canônicos padronizados são interpretados de forma análoga à interpretação dos coeficientes de regressão padronizados. Por exemplo, considerando a variável lida, um aumento de um desvio padrão na leitura leva a um aumento de 0,45 no desvio padrão na primeira variável canônica para o conjunto 2 quando as outras variáveis do modelo são mantidas constantes.

Próximo, vamos usar o comando estat correlações para ver todas as correlações com e entre conjuntos de variáveis.

estat correlationsCorrelations for variable list 1 | locus_~l self_c~t motiva~n -------------+------------------------------ locus_of_c~l | 1.0000 self_concept | 0.1712 1.0000 motivation | 0.2451 0.2886 1.0000 --------------------------------------------Correlations for variable list 2 | read write math sci female -------------+-------------------------------------------------- read | 1.0000 write | 0.6286 1.0000 math | 0.6793 0.6327 1.0000 science | 0.6907 0.5691 0.6495 1.0000 female | -0.0417 0.2443 -0.0482 -0.1382 1.0000 ----------------------------------------------------------------Correlations between variable lists 1 and 2 | locus_~l self_c~t motiva~n -------------+------------------------------ read | 0.3736 0.0607 0.2106 write | 0.3589 0.0194 0.2542 math | 0.3373 0.0536 0.1950 science | 0.3246 0.0698 0.1157 female | 0.1134 -0.1260 0.0981 --------------------------------------------

Finalmente, vamos usar o comando estat carregamentos para exibir os carregamentos das variáveis nas dimensões canônicas (variates). Estes carregamentos são correlações entre variáveis e as variáveis canônicas.

estat loadingsCanonical loadings for variable list 1 | 1 2 -------------+-------------------- locus_of_c~l | 0.9040 -0.3897 self_concept | 0.0208 -0.7087 motivation | 0.5672 0.3509 ----------------------------------Canonical loadings for variable list 2 | 1 2 -------------+-------------------- read | 0.8404 -0.3588 write | 0.8765 0.0648 math | 0.7639 -0.2979 science | 0.6584 -0.6768 female | 0.3641 0.7549 ----------------------------------Correlation between variable list 1 and canonical variates from list 2 | 1 2 -------------+-------------------- locus_of_c~l | 0.4196 -0.0653 self_concept | 0.0097 -0.1187 motivation | 0.2632 0.0588 ----------------------------------Correlation between variable list 2 and canonical variates from list 1 | 1 2 -------------+-------------------- read | 0.3900 -0.0601 write | 0.4068 0.0109 math | 0.3545 -0.0499 science | 0.3056 -0.1134 female | 0.1690 0.1265 ----------------------------------

Coisas a considerar

  • Como no caso da regressão multivariada, MANOVA e assim por diante, para inferências válidas, a análise de correlação canônica requer a normal multivariada e a homogeneidade da suposição de variância.
  • Análise de correlação canônica assume uma relação linear entre as variâncias canônicas e cada conjunto de variáveis.
  • Similiar à regressão multivariada, a análise de correlação canônica requer um grande tamanho de amostra.

Veja também

  • Manual Online da Estatística
    • canon
  • Afifi, A, Clark, V e Maio, S. 2004. Análise Multivariada Assistida por Computador. 4ª ed.Boca Raton, Fl: Chapman & Hall/CRC.
  • Garson, G. David (2015). GLM Multivariada, MANOVA, e Correlação Canônica. Asheboro, NC: Statistical Associates Publishers.
  • G. David Garson, Canonical Correlation in Statnotes: Tópicos em Análise Multivariada
  • Pedhazur, E. 1997. Regressão Múltipla na Pesquisa Comportamental. 3ª ed. Orlando, Fl: Holt, Rinehart e Winston, Inc.

Deixe um comentário