Analiza korelacji kanonicznej | Stata Data Analysis Examples

Informacja o wersji: Kod dla tej strony został przetestowany w Stata 12.

Kanoniczna analiza korelacji jest używana do identyfikacji i pomiaru związków między dwoma zestawami zmiennych. Korelacja kanoniczna jest odpowiednia w tych samych sytuacjach, w których byłaby regresja wielokrotna, ale gdzie jest wiele wzajemnie powiązanych zmiennych wynikowych. Analiza korelacji kanonicznej określa zestaw zmiennych kanonicznych, ortogonalnych kombinacji liniowych zmiennych w każdym zestawie, które najlepiej wyjaśniają zmienność zarówno wewnątrz jak i pomiędzy zestawami.

Uwaga: Celem tej strony jest pokazanie, jak korzystać z różnych poleceń analizy danych.Nie obejmuje ona wszystkich aspektów procesu badawczego, które badacze mają zrobić. W szczególności, nie obejmuje czyszczenia i sprawdzania danych, weryfikacji założeń, diagnostyki modelu i potencjalnych dalszych analiz.

Przykłady kanonicznej analizy korelacji

Przykład 1. Badaczka zebrała dane dotyczące trzech zmiennych psychologicznych, czterech zmiennych akademickich (wyniki testów standaryzowanych) oraz płci 600 studentów. Interesuje ją, jak zestaw zmiennych psychologicznych wiąże się ze zmiennymi akademickimi i płcią. W szczególności, badacz jest zainteresowany tym, ile wymiarów (zmiennych kanonicznych) jest potrzebnych do zrozumienia związku pomiędzy dwoma zestawami zmiennych.

Przykład 2. Badacz jest zainteresowany badaniem asocjacji pomiędzy czynnikami z dwóch wielowymiarowych testów osobowości, MMPI i NEO. Interesuje ją, jakie wymiary są wspólne dla tych testów i jak duża wariancja jest między nimi dzielona. W szczególności interesuje ją, czy wymiar neurotyczności z NEO może odpowiadać za znaczną część wariancji współdzielonej między tymi dwoma testami.

Opis danych

Dla naszego przykładu analizy, rozszerzymy przykład 1 o badanie związków pomiędzy miarami psychologicznymi a miarami osiągnięć akademickich.

Mamy plik danych, mmreg.dta, z 600 obserwacjami na ośmiu zmiennych. Zmienne psychologiczne to umiejscowienie kontroli, samoakceptacja i motywacja. Zmienne akademickie to standaryzowane testy w czytaniu (read), pisaniu (write), matematyce (math) i naukach ścisłych (science). Dodatkowo, zmienna kobieta jest zero-jedynkową zmienną wskaźnikową z jedynką wskazującą na studentkę.

Przyjrzyjrzyjmy się danym.

use https://stats.idre.ucla.edu/stat/stata/dae/mmreg, clearsummarize locus_of_control self_concept motivation Variable | Obs Mean Std. Dev. Min Max-------------+--------------------------------------------------------locus_of_c~l | 600 .0965333 .6702799 -2.23 1.36self_concept | 600 .0049167 .7055125 -2.62 1.19 motivation | 600 .6608333 .3427294 0 1summarize read write math science female Variable | Obs Mean Std. Dev. Min Max-------------+-------------------------------------------------------- read | 600 51.90183 10.10298 28.3 76 write | 600 52.38483 9.726455 25.5 67.1 math | 600 51.849 9.414736 31.8 75.5 science | 600 51.76333 9.706179 26 74.2 female | 600 .545 .4983864 0 1

Metody analizy, które możesz rozważyć

Poniżej znajduje się lista niektórych metod analizy, z którymi mogłeś się zetknąć. Niektóre z wymienionych metod są całkiem rozsądne, podczas gdy inne albo wypadły z łask, albo mają ograniczenia.

  • Kanoniczna analiza korelacji, główny temat tej strony.
  • Oddzielne regresje OLS – Możesz przeanalizować te dane używając oddzielnych regresji OLS dla każdej zmiennej w jednym zestawie. Regresja OLS nie daje wyników wielowymiarowych i nie dostarcza informacji dotyczących wymiarowości.
  • Regresja wielowymiarowa jest rozsądną opcją, jeśli nie jesteś zainteresowany wymiarowością.

Kanoniczna analiza korelacji

Poniżej używamy polecenia canon do przeprowadzenia kanonicznej analizy korelacji. Wymaga ono dwóch zestawów zmiennych ujętych w pary nawiasów. Jako pierwszy zestaw zmiennych podajemy nasze zmienne psychologiczne, a jako drugi zmienne akademickie plus płeć. Dla wygody zmienne z pierwszego zestawu nazywamy zmiennymi „u”, a zmienne z drugiego zestawu zmiennymi „v”.

Wyjście dla kanonicznej analizy korelacji składa się z dwóch części. Pierwsza to surowe współczynniki kanoniczne. Druga część zaczyna się od korelacji kanonicznych i zawiera ogólne testy wielowymiarowości.

Surowe współczynniki kanoniczne mogą być użyte do wygenerowania dla każdego zbioru zmiennych kanonicznych, reprezentowanych przez kolumny (1 2 3) w tabelach współczynników. Interpretować w sposób analogiczny do interpretowaćregression współczynnik i.e., dla zmienna czytać, jeden jednostka wzrost w czytanie prowadzić.0446 wzrost w pierwszy kanoniczny wariancja the „v” set gdy wszystkie inny zmienna utrzymywać stały. Oto inny przykład: bycie kobietą prowadzi do wzrostu o .6321 wymiaru 1 dla zbioru „v” przy pozostałych predyktorach utrzymanych na stałym poziomie.

Liczba możliwych zmiennych kanonicznych, znanych również jako wymiary kanoniczne, jest równa liczbie zmiennych w mniejszym zbiorze. W naszym przykładzie, zestaw „u” (pierwszy zestaw) ma trzy zmienne, a zestaw „v” (drugi zestaw) ma ich pięć. Prowadzi to do trzech możliwych wariantów kanonicznych dla każdego zestawu, co odpowiada trzem kolumnom dla każdego zestawu i trzem kanonicznym współczynnikom korelacji na wyjściu. Wymiary kanoniczne są zmiennymi ukrytymi, które są analogiczne do czynników uzyskanych w analizie czynnikowej, z tym wyjątkiem, że zmienne kanoniczne również maksymalizują korelację pomiędzy dwoma zestawami zmiennych. Ogólnie rzecz biorąc, nie wszystkie wymiary kanoniczne będą statystycznie istotne. Istotny wymiar odpowiada istotnej korelacji kanonicznej i vice versa. Aby sprawdzić, czy korelacja kanoniczna jest statystycznie różna od zera, możemy użyć opcji test w poleceniu canon, jak pokazano poniżej. Nie musimy ponownie uruchamiać modelu, a jedynie poprosić Statę o ponowne wyświetlenie modelu z dodatkowymi informacjami na temat wymaganych testów. Aby przetestować wszystkie wymiary kanoniczne, musimy określić test(1 2 3). Zasadniczo test(1) jest ogólnym testem trzech wymiarów, test(2) przetestuje znaczenie korelacji kanonicznych 2 i 3, a test(3) przetestuje znaczenie samej trzeciej korelacji kanonicznej.

Dla tego konkretnego modelu istnieją trzy kanoniczne wymiary, z których tylko dwa pierwsze są statystycznie istotne. Pierwszy test wymiarów sprawdza, czy wszystkie trzy wymiary łącznie są znaczące (są), następny test sprawdza, czy wymiary 2 i 3 łącznie są znaczące (są). Wreszcie ostatni test sprawdza, czy wymiar 3, sam w sobie, jest znaczący (nie jest). Dlatego wymiary 1 i 2 muszą być znaczące.

Teraz możemy chcieć sprawdzić, które surowe współczynniki dla każdej ze zmiennych kanonicznych są znaczące. Możemy poprosić o błędy standardowe i znaczące testy poprzez opcję stderr.

Zauważ, że dla pierwszego wymiaru wszystkie zmienne z wyjątkiem matematyki i nauki są statystycznie istotne wraz z wymiarem jako całością. Tak więc, poczucie kontroli, koncepcja siebie i motywacja dzielą pewną zmienność między sobą, podobnie jak czytanie, pisanie i kobieta, które również dzielą zmienność między sobą. Dla drugiego wymiaru tylko koncepcja siebie, motywacja, matematyka i kobieta są znaczące. Trzeci wymiar nie jest istotny i nie będziemy zwracać uwagi na jego współczynniki ani na testy Walda.

Kiedy zmienne w modelu mają bardzo różne odchylenia standardowe, współczynniki standaryzowane pozwalają na łatwiejsze porównania między zmiennymi. Następnie wyświetlimy standaryzowane współczynniki kanoniczne dla dwóch pierwszych (istotnych) wymiarów.

canon (locus_of_control self_concept motivation)(read write math science female), first(2) stdcoef notestCanonical correlation analysis Number of obs = 600Standardized coefficients for the first variable set | 1 2 -------------+-------------------- locus_of_c~l | 0.8404 -0.4166 self_concept | -0.2479 -0.8379 motivation | 0.4327 0.6948 ----------------------------------Standardized coefficients for the second variable set | 1 2 -------------+-------------------- read | 0.4508 -0.0496 write | 0.3490 0.4092 math | 0.2205 0.0398 science | 0.0488 -0.8266 female | 0.3150 0.5406 ----------------------------------Canonical correlations: 0.4641 0.1675 0.1040

Standaryzowane współczynniki kanoniczne interpretuje się w sposób analogiczny do interpretacji standaryzowanych współczynników regresji. Na przykład, rozważmy zmienną czytanie, wzrost czytania o jedno odchylenie standardowe prowadzi do wzrostu wyniku o 0.45 odchylenia standardowego w pierwszej zmiennej kanonicznej dla zestawu 2, gdy inne zmienne w modelu są utrzymywane na stałym poziomie.

Następnie, użyjemy polecenia estat correlations, aby spojrzeć na wszystkie korelacje wewnątrz i pomiędzy zestawami zmiennych.

estat correlationsCorrelations for variable list 1 | locus_~l self_c~t motiva~n -------------+------------------------------ locus_of_c~l | 1.0000 self_concept | 0.1712 1.0000 motivation | 0.2451 0.2886 1.0000 --------------------------------------------Correlations for variable list 2 | read write math sci female -------------+-------------------------------------------------- read | 1.0000 write | 0.6286 1.0000 math | 0.6793 0.6327 1.0000 science | 0.6907 0.5691 0.6495 1.0000 female | -0.0417 0.2443 -0.0482 -0.1382 1.0000 ----------------------------------------------------------------Correlations between variable lists 1 and 2 | locus_~l self_c~t motiva~n -------------+------------------------------ read | 0.3736 0.0607 0.2106 write | 0.3589 0.0194 0.2542 math | 0.3373 0.0536 0.1950 science | 0.3246 0.0698 0.1157 female | 0.1134 -0.1260 0.0981 --------------------------------------------

Na koniec, użyjemy polecenia estat loadings, aby wyświetlić obciążenia zmiennych na kanonicznych wymiarach (zmiennych). Obciążenia są korelacjami między zmiennymi i zmiennymi kanonicznymi.

estat loadingsCanonical loadings for variable list 1 | 1 2 -------------+-------------------- locus_of_c~l | 0.9040 -0.3897 self_concept | 0.0208 -0.7087 motivation | 0.5672 0.3509 ----------------------------------Canonical loadings for variable list 2 | 1 2 -------------+-------------------- read | 0.8404 -0.3588 write | 0.8765 0.0648 math | 0.7639 -0.2979 science | 0.6584 -0.6768 female | 0.3641 0.7549 ----------------------------------Correlation between variable list 1 and canonical variates from list 2 | 1 2 -------------+-------------------- locus_of_c~l | 0.4196 -0.0653 self_concept | 0.0097 -0.1187 motivation | 0.2632 0.0588 ----------------------------------Correlation between variable list 2 and canonical variates from list 1 | 1 2 -------------+-------------------- read | 0.3900 -0.0601 write | 0.4068 0.0109 math | 0.3545 -0.0499 science | 0.3056 -0.1134 female | 0.1690 0.1265 ----------------------------------

Rzeczy do rozważenia

  • Tak jak w przypadku regresji wielorakiej, MANOVA i tak dalej, dla poprawnego wnioskowania, analiza korelacji kanonicznych wymaga założenia normalności wielorakiej i jednorodności wariancji.
  • Kanoniczna analiza korelacji zakłada liniowy związek między zmiennymi kanonicznymi a każdym zestawem zmiennych.
  • Podobnie jak regresja wieloraka, kanoniczna analiza korelacji wymaga dużej wielkości próby.

Zobacz także

  • Stata Online Manual
    • canon
  • Afifi, A, Clark, V and May, S. 2004. Computer-Aided Multivariate Analysis. 4th ed.Boca Raton, Fl: Chapman & Hall/CRC.
  • Garson, G. David (2015). GLM Multivariate, MANOVA, and Canonical Correlation. Asheboro, NC: Statistical Associates Publishers.
  • G. David Garson, Canonical Correlation in Statnotes: Topics in Multivariate Analysis
  • Pedhazur, E. 1997. Regresja wieloraka w badaniach behawioralnych. 3rd ed. Orlando, Fl: Holt, Rinehart and Winston, Inc.

Dodaj komentarz