Kanonische Korrelationsanalyse

Versionsinfo: Der Code für diese Seite wurde in Stata 12 getestet.

Die kanonische Korrelationsanalyse wird verwendet, um die Zusammenhänge zwischen zwei Variablensätzen zu identifizieren und zu messen. Die kanonische Korrelation ist in denselben Situationen geeignet, in denen eine multiple Regression eingesetzt werden würde, aber in denen es mehrere miteinander korrelierende Ergebnisvariablen gibt. Die kanonische Korrelationsanalyse bestimmt einen Satz von kanonischen Variablen, orthogonale lineare Kombinationen der Variablen innerhalb jedes Satzes, die die Variabilität innerhalb und zwischen den Sätzen am besten erklären.

Bitte beachten Sie: Der Zweck dieser Seite ist es, die Verwendung verschiedener Datenanalysebefehle zu zeigen, ohne alle Aspekte des Forschungsprozesses zu behandeln, die von Forschern erwartet werden. Insbesondere deckt sie nicht die Datenbereinigung und -kontrolle, die Überprüfung der Annahmen, die Modelldiagnose und mögliche Folgeanalysen ab.

Beispiele für die kanonische Korrelationsanalyse

Beispiel 1. Eine Forscherin hat Daten über drei psychologische Variablen, vier akademische Variablen (standardisierte Testergebnisse) und das Geschlecht von 600 Studienanfängern gesammelt. Sie ist daran interessiert, wie die psychologischen Variablen mit den akademischen Variablen und dem Geschlecht in Beziehung stehen. Insbesondere ist die Forscherin daran interessiert, wie viele Dimensionen (kanonische Variablen) erforderlich sind, um den Zusammenhang zwischen den beiden Variablengruppen zu verstehen.

Beispiel 2. Ein Forscher ist daran interessiert, die Assoziationen zwischen Faktoren aus zwei multidimensionalen Persönlichkeitstests, dem MMPI und dem NEO, zu untersuchen. Sie ist daran interessiert, welche Dimensionen die Tests gemeinsam haben und wie viel Varianz zwischen ihnen besteht. Insbesondere möchte sie herausfinden, ob die Neurotizismus-Dimension des NEO einen wesentlichen Anteil der gemeinsamen Varianz zwischen den beiden Tests erklären kann.

Beschreibung der Daten

Für unser Analysebeispiel werden wir Beispiel 1 über die Untersuchung der Assoziationen zwischen psychologischen Messungen und akademischen Leistungsmessungen erweitern.

Wir haben eine Datendatei, mmreg.dta, mit 600 Beobachtungen zu acht Variablen. Die psychologischen Variablen sind Kontrollüberzeugung, Selbstkonzept und Motivation. Die akademischen Variablen sind standardisierte Tests in den Bereichen Lesen (Read), Schreiben (Write), Mathematik (Mathe) und Naturwissenschaften (Science). Außerdem ist die Variable weiblich eine Null-Eins-Indikatorvariable, wobei die Eins für eine weibliche Schülerin steht.

Schauen wir uns die Daten an.

use https://stats.idre.ucla.edu/stat/stata/dae/mmreg, clearsummarize locus_of_control self_concept motivation Variable | Obs Mean Std. Dev. Min Max-------------+--------------------------------------------------------locus_of_c~l | 600 .0965333 .6702799 -2.23 1.36self_concept | 600 .0049167 .7055125 -2.62 1.19 motivation | 600 .6608333 .3427294 0 1summarize read write math science female Variable | Obs Mean Std. Dev. Min Max-------------+-------------------------------------------------------- read | 600 51.90183 10.10298 28.3 76 write | 600 52.38483 9.726455 25.5 67.1 math | 600 51.849 9.414736 31.8 75.5 science | 600 51.76333 9.706179 26 74.2 female | 600 .545 .4983864 0 1

Analysemethoden, die Sie in Betracht ziehen könnten

Nachfolgend finden Sie eine Liste einiger Analysemethoden, die Sie vielleicht schon kennen. Einige der aufgelisteten Methoden sind recht vernünftig, während andere entweder in Ungnade gefallen sind oder Einschränkungen haben.

Kanonische Korrelationsanalyse, die im Mittelpunkt dieser Seite steht.
Separate OLS-Regressionen – Sie könnten diese Daten mit separaten OLS-Regressionsanalysen für jede Variable in einem Satz analysieren. Die OLS-Regressionen führen nicht zu multivariaten Ergebnissen und liefern keine Informationen über die Dimensionalität.
Die multivariate multiple Regression ist eine sinnvolle Option, wenn Sie kein Interesse an der Dimensionalität haben.

Nachfolgend wird der Befehl canon verwendet, um eine kanonische Korrelationsanalyse durchzuführen. Dazu werden zwei Variablensätze benötigt, die mit einem Klammerpaar versehen sind. Wir geben unsere psychologischen Variablen als ersten Satz von Variablen an und unsere akademischen Variablen plus Geschlecht als zweiten Satz. Der Einfachheit halber werden die Variablen des ersten Satzes als „u“-Variablen und die Variablen des zweiten Satzes als „v“-Variablen bezeichnet.

Das Ergebnis der kanonischen Korrelationsanalyse besteht aus zwei Teilen. Der erste Teil sind die rohen kanonischen Koeffizienten. Der zweite Teil beginnt mit den kanonischen Korrelationen und enthält die allgemeinen multivariaten Tests auf Dimensionalität.

Die rohen kanonischen Koeffizienten können verwendet werden, um die kanonischen Variablen, die durch die Spalten (1 2 3) in den Koeffiziententabellen dargestellt werden, für jeden Satz zu erzeugen. Sie werden analog zur Interpretation von Regressionskoeffizienten interpretiert, d. h. für die Variable Lesen führt ein Anstieg des Lesens um eine Einheit zu einem Anstieg der ersten kanonischen Variable des „v“-Sets um 0,0446, wenn alle anderen Variablen konstant gehalten werden. Hier ein weiteres Beispiel: weiblich zu sein, führt zu einem Anstieg der Dimension 1 des „v“-Sets um 0,6321, wenn die anderen Prädiktoren konstant gehalten werden.

Die Anzahl der möglichen kanonischen Variablen, die auch als kanonische Dimensionen bezeichnet werden, ist gleich der Anzahl der Variablen im kleineren Set. In unserem Beispiel hat die Menge „u“ (die erste Menge) drei Variablen und die Menge „v“ (die zweite Menge) fünf. Dies führt zu drei möglichen kanonischen Variablen für jedes Set, was den drei Spalten für jedes Set und drei kanonischen Korrelationskoeffizienten in der Ausgabe entspricht. Kanonische Dimensionen sind latente Variablen, die den in der Faktorenanalyse ermittelten Faktoren entsprechen, mit dem Unterschied, dass die kanonischen Variablen auch die Korrelation zwischen den beiden Variablensätzen maximieren. Im Allgemeinen werden nicht alle kanonischen Dimensionen statistisch signifikant sein. Eine signifikante Dimension entspricht einer signifikanten kanonischen Korrelation und vice versa. Um zu testen, ob sich eine kanonische Korrelation statistisch von Null unterscheidet, können wir die Option test im Befehl canon wie unten gezeigt verwenden. Wir brauchen das Modell nicht erneut auszuführen, sondern bitten Stata lediglich, das Modell mit zusätzlichen Informationen zu den gewünschten Tests erneut anzuzeigen. Um alle kanonischen Dimensionen zu testen, müssen wir test(1 2 3) angeben. Im Wesentlichen ist test(1) der Gesamttest auf drei Dimensionen, test(2) testet die Signifikanz der kanonischen Korrelationen 2 und 3, und test(3) testet die Signifikanz der dritten kanonischen Korrelation allein.

Für dieses spezielle Modell gibt es drei kanonische Dimensionen, von denen nur die ersten beiden statistisch signifikant sind. Der erste Test der Dimensionen prüft, ob alle drei Dimensionen zusammengenommen signifikant sind (sie sind es), der nächste Test prüft, ob die Dimensionen 2 und 3 zusammengenommen signifikant sind (sie sind es). Der letzte Test schließlich prüft, ob die Dimension 3 für sich genommen signifikant ist (das ist sie nicht). Daher müssen die Dimensionen 1 und 2 jeweils signifikant sein.

Nun möchten wir vielleicht untersuchen, welche Rohkoeffizienten für jede der kanonischen Variablen signifikant sind. Wir können die Standardfehler und signifikanten Tests über die Option stderr abfragen.

Beachten Sie, dass für die erste Dimension alle Variablen mit Ausnahme von Mathematik und Naturwissenschaften statistisch signifikant sind, ebenso wie die Dimension als Ganzes. Kontrollüberzeugung, Selbstkonzept und Motivation weisen also eine gewisse Variabilität auf, ebenso wie Lesen, Schreiben und weiblich, die ebenfalls untereinander variabel sind. Für die zweite Dimension sind nur Selbstkonzept, Motivation, Mathe und weiblich signifikant. Die dritte Dimension ist nicht signifikant und ihre Koeffizienten und die Wald-Tests werden nicht berücksichtigt.

Wenn die Variablen des Modells sehr unterschiedliche Standardabweichungen haben, ermöglichen die standardisierten Koeffizienten einen leichteren Vergleich zwischen den Variablen. Als nächstes werden die standardisierten kanonischen Koeffizienten für die ersten beiden (signifikanten) Dimensionen angezeigt.

canon (locus_of_control self_concept motivation)(read write math science female), first(2) stdcoef notestCanonical correlation analysis Number of obs = 600Standardized coefficients for the first variable set | 1 2 -------------+-------------------- locus_of_c~l | 0.8404 -0.4166 self_concept | -0.2479 -0.8379 motivation | 0.4327 0.6948 ----------------------------------Standardized coefficients for the second variable set | 1 2 -------------+-------------------- read | 0.4508 -0.0496 write | 0.3490 0.4092 math | 0.2205 0.0398 science | 0.0488 -0.8266 female | 0.3150 0.5406 ----------------------------------Canonical correlations: 0.4641 0.1675 0.1040

Die standardisierten kanonischen Koeffizienten werden analog zur Interpretation von standardisierten Regressionskoeffizienten interpretiert. Betrachten wir zum Beispiel die Variable Lesen, so führt ein Anstieg des Lesens um eine Standardabweichung zu einem Anstieg des Ergebnisses der ersten kanonischen Variable für Satz 2 um 0,45 Standardabweichungen, wenn die anderen Variablen im Modell konstant gehalten werden.

Als Nächstes verwenden wir den Befehl estat correlations, um alle Korrelationen innerhalb und zwischen den Variablensätzen zu betrachten.

estat correlationsCorrelations for variable list 1 | locus_~l self_c~t motiva~n -------------+------------------------------ locus_of_c~l | 1.0000 self_concept | 0.1712 1.0000 motivation | 0.2451 0.2886 1.0000 --------------------------------------------Correlations for variable list 2 | read write math sci female -------------+-------------------------------------------------- read | 1.0000 write | 0.6286 1.0000 math | 0.6793 0.6327 1.0000 science | 0.6907 0.5691 0.6495 1.0000 female | -0.0417 0.2443 -0.0482 -0.1382 1.0000 ----------------------------------------------------------------Correlations between variable lists 1 and 2 | locus_~l self_c~t motiva~n -------------+------------------------------ read | 0.3736 0.0607 0.2106 write | 0.3589 0.0194 0.2542 math | 0.3373 0.0536 0.1950 science | 0.3246 0.0698 0.1157 female | 0.1134 -0.1260 0.0981 --------------------------------------------

Schließlich verwenden wir den Befehl estat loadings, um die Ladungen der Variablen auf den kanonischen Dimensionen (Variablen) anzuzeigen. Diese Ladungen sind Korrelationen zwischen den Variablen und den kanonischen Variablen.

estat loadingsCanonical loadings for variable list 1 | 1 2 -------------+-------------------- locus_of_c~l | 0.9040 -0.3897 self_concept | 0.0208 -0.7087 motivation | 0.5672 0.3509 ----------------------------------Canonical loadings for variable list 2 | 1 2 -------------+-------------------- read | 0.8404 -0.3588 write | 0.8765 0.0648 math | 0.7639 -0.2979 science | 0.6584 -0.6768 female | 0.3641 0.7549 ----------------------------------Correlation between variable list 1 and canonical variates from list 2 | 1 2 -------------+-------------------- locus_of_c~l | 0.4196 -0.0653 self_concept | 0.0097 -0.1187 motivation | 0.2632 0.0588 ----------------------------------Correlation between variable list 2 and canonical variates from list 1 | 1 2 -------------+-------------------- read | 0.3900 -0.0601 write | 0.4068 0.0109 math | 0.3545 -0.0499 science | 0.3056 -0.1134 female | 0.1690 0.1265 ----------------------------------

Was ist zu beachten

Wie bei der multivariaten Regression, der MANOVA usw. ist auch bei der kanonischen Korrelationsanalyse für gültige Schlussfolgerungen die Annahme der multivariaten Normalverteilung und der Homogenität der Varianz erforderlich.
Die kanonische Korrelationsanalyse geht von einer linearen Beziehung zwischen den kanonischen Variablen und jedem Satz von Variablen aus.
Wie bei der multivariaten Regression erfordert die kanonische Korrelationsanalyse einen großen Stichprobenumfang.

Siehe auch

Stata Online Manual
- canon

Afifi, A, Clark, V und May, S. 2004. Computer-Aided Multivariate Analysis. 4th ed.Boca Raton, Fl: Chapman & Hall/CRC.
Garson, G. David (2015). GLM Multivariate, MANOVA, and Canonical Correlation. Asheboro, NC: Statistical Associates Publishers.
G. David Garson, Canonical Correlation in Statnotes: Topics in Multivariate Analysis
Pedhazur, E. 1997. Multiple Regression in Behavioral Research. 3rd ed. Orlando, Fl: Holt, Rinehart and Winston, Inc.

Beispiele für die kanonische Korrelationsanalyse

Beschreibung der Daten

Analysemethoden, die Sie in Betracht ziehen könnten