Version info: このページのコードは Stata 12.
正準相関分析は、変数の2つのセットの間の関連性を識別し、測定するために使用されます。 正準相関は、重回帰と同じ状況で適切ですが、複数の相互相関のある結果変数がある場合です。 正準相関分析は、正準変数のセットを決定します。これは、各セット内の変数の直交線形結合で、セット内とセット間の両方の変動を最もよく説明するものです。
注意: このページの目的は、さまざまなデータ分析コマンドの使い方を紹介することですが、研究者が行うべき研究プロセスのすべての側面を網羅しているわけではありません。 特に、データのクリーニングとチェック、仮定の検証、モデルの診断、およびフォローアップ分析の可能性についてはカバーしていません。 ある研究者が、大学1年生600人の3つの心理的変数、4つの学力変数(標準化テストの得点)、および性別に関するデータを収集した。 彼女は、心理的変数の集合が、どのように学業変数と性別に関係するかに興味があります。 特に、研究者は、変数の2つのセットの間の関連を理解するために、いくつの次元(正準変数)が必要であるかに興味がある。 ある研究者が、MMPIとNEOという2つの多次元性格検査からの因子間の関連性を調べることに興味を持っている。 彼女は、どのような次元がテスト間で共通であるか、また、どの程度の分散がそれらの間で共有されているかに興味があります。 特に、NEOの神経症的な次元が、2つのテスト間で共有される分散のかなりの量を説明できるかどうかを見つけることに興味があるそうです。
データの説明
分析例として、心理的尺度と学力尺度の間の関連性を調べることについて、例1を展開する予定である。
8つの変数で600の観測値を持つデータファイル、mmreg.dtaを持っています。 心理的変数は、制御の所在、自己概念、および動機である。 学力変数は、読み(reading)、書き(write)、数学(math)、科学(science)の標準化されたテストである。 さらに、変数femaleは0-1の指標変数で、1が女子学生を示します。
use https://stats.idre.ucla.edu/stat/stata/dae/mmreg, clearsummarize locus_of_control self_concept motivation Variable | Obs Mean Std. Dev. Min Max-------------+--------------------------------------------------------locus_of_c~l | 600 .0965333 .6702799 -2.23 1.36self_concept | 600 .0049167 .7055125 -2.62 1.19 motivation | 600 .6608333 .3427294 0 1summarize read write math science female Variable | Obs Mean Std. Dev. Min Max-------------+-------------------------------------------------------- read | 600 51.90183 10.10298 28.3 76 write | 600 52.38483 9.726455 25.5 67.1 math | 600 51.849 9.414736 31.8 75.5 science | 600 51.76333 9.706179 26 74.2 female | 600 .545 .4983864 0 1
あなたが考慮すべき分析方法
以下は、あなたが遭遇したことのあるいくつかの分析方法のリストです。
- Canonical correlation analysis, the focus of this page.
- Separate OLS Regressions – 1セットの各変数に別々のOLS回帰分析を使ってこれらのデータを分析することができます。 OLS回帰は多変量結果を生成せず、次元に関する情報を報告しません。
- Multivariate multiple regressionは次元に興味がない場合、妥当なオプションです。
Canonical correlation analysis
Below we use the canon command to conduct a canonical correlation analysis. このコマンドは、2つの括弧で囲まれた2組の変数を必要とする。 心理的変数を1セット目、学業的変数と性別を2セット目として指定します。 便宜上、最初のセットの変数を「u」変数、2番目のセットの変数を「v」変数と呼びます。
正準相関分析の出力は、2つの部分から構成されています。 最初は生の正準係数である。 2番目の部分は正準相関から始まり、次元性に関する全体的な多変量テストを含んでいます。
生の正準係数は、各集合の係数表の(1 2 3)の列で表される正準変数を生成するために使用することができます。 例えば、変数 read について、read の 1 単位の増加は、他のすべての変数が一定であるとき、”v” セットの最初の正準変量で 0.0446 増加することになります。 817>
可能な正準変量(正準次元としても知られる)の数は、より小さい集合内の変数の数に等しい。 我々の例では,”u” セット(最初のセット)は3つの変数を持ち,”v” セット(2番目のセット)は5つの変数を持つ. これは、各集合について3つの可能な正準変数をもたらし、これは各集合の3つの列と出力の3つの正準相関係数に対応するものです。 正準次元は、因子分析で得られる因子に類似した潜在変数ですが、正準変量も変数の2つのセットの間の相関を最大化することを除いては、そうです。 一般に、すべての正準次元が統計的に有意になるわけではありません。 有意な次元は,有意な正準相関に対応し,逆もまた真なりである. 正準相関が統計的に0と異なるかどうかを調べるには、以下のようにcanonコマンドのtestオプションを使えばよい。 モデルを再実行する必要はなく、要求された検定に関する追加情報とともにモデルを再表示するようにStataに頼むだけである。 すべての正準次元を検定するためには、test(1 2 3)を指定する必要があります。 本質的に test(1) は 3 つの次元の全体的なテスト、test(2) は正準相関 2 と 3 の有意性をテスト、そして test(3) は 3 番目の正準相関だけの有意性をテストします。
この特定のモデルでは、最初の 2 つだけが統計的に有意である 3 つの正準次元が存在します。 最初の次元の検定では、3つの次元をすべて組み合わせても有意であるかどうかを検定し(有意)、次の検定では、2次元と3次元を組み合わせても有意であるかどうかを検定する(有意である)。 最後に、3次元がそれ自体で有意であるかどうかを検定する(有意ではない)。 817>
ここで、正準変数のそれぞれについて、どのような生の係数が有意であるかを調べたいと思うかもしれない。 標準誤差と有意な検定をstderrオプションで要求することができます。
最初の次元では、数学と科学を除くすべての変数が、次元全体と一緒に統計的に有意であることに注意してください。 したがって、制御の場所、自己概念、動機づけは、お互いにある程度の変動性を共有しており、また、読み、書き、女性も、お互いの間で変動性を共有している。 第2次元では、自己概念、動機、数学、女性のみが有意であった。 3番目の次元は有意ではなく、その係数やWald検定には注目しない。
モデル中の変数が非常に異なった標準偏差を持つとき、標準化係数は変数間の比較を容易にする。 次に、最初の2つの(有意な)次元の標準化された正準係数を表示します。
canon (locus_of_control self_concept motivation)(read write math science female), first(2) stdcoef notestCanonical correlation analysis Number of obs = 600Standardized coefficients for the first variable set | 1 2 -------------+-------------------- locus_of_c~l | 0.8404 -0.4166 self_concept | -0.2479 -0.8379 motivation | 0.4327 0.6948 ----------------------------------Standardized coefficients for the second variable set | 1 2 -------------+-------------------- read | 0.4508 -0.0496 write | 0.3490 0.4092 math | 0.2205 0.0398 science | 0.0488 -0.8266 female | 0.3150 0.5406 ----------------------------------Canonical correlations: 0.4641 0.1675 0.1040
標準化正準係数は、標準化回帰係数の解釈と同様の方法で解釈される。 例えば、変数 read を考えると、read の 1 標準偏差の増加は、モデル内の他の変数が一定であるとき、セット 2 の最初の正準変数のスコアの 0.45 標準偏差の増加をもたらす。
次に、estat correlationsコマンドを使って、変数のセット内とセット間の相関をすべて見ます。
estat correlationsCorrelations for variable list 1 | locus_~l self_c~t motiva~n -------------+------------------------------ locus_of_c~l | 1.0000 self_concept | 0.1712 1.0000 motivation | 0.2451 0.2886 1.0000 --------------------------------------------Correlations for variable list 2 | read write math sci female -------------+-------------------------------------------------- read | 1.0000 write | 0.6286 1.0000 math | 0.6793 0.6327 1.0000 science | 0.6907 0.5691 0.6495 1.0000 female | -0.0417 0.2443 -0.0482 -0.1382 1.0000 ----------------------------------------------------------------Correlations between variable lists 1 and 2 | locus_~l self_c~t motiva~n -------------+------------------------------ read | 0.3736 0.0607 0.2106 write | 0.3589 0.0194 0.2542 math | 0.3373 0.0536 0.1950 science | 0.3246 0.0698 0.1157 female | 0.1134 -0.1260 0.0981 --------------------------------------------
最後に、estat loadingsコマンドを使って、正規の次元(変数)上の変数の負荷量を表示させます。
estat loadingsCanonical loadings for variable list 1 | 1 2 -------------+-------------------- locus_of_c~l | 0.9040 -0.3897 self_concept | 0.0208 -0.7087 motivation | 0.5672 0.3509 ----------------------------------Canonical loadings for variable list 2 | 1 2 -------------+-------------------- read | 0.8404 -0.3588 write | 0.8765 0.0648 math | 0.7639 -0.2979 science | 0.6584 -0.6768 female | 0.3641 0.7549 ----------------------------------Correlation between variable list 1 and canonical variates from list 2 | 1 2 -------------+-------------------- locus_of_c~l | 0.4196 -0.0653 self_concept | 0.0097 -0.1187 motivation | 0.2632 0.0588 ----------------------------------Correlation between variable list 2 and canonical variates from list 1 | 1 2 -------------+-------------------- read | 0.3900 -0.0601 write | 0.4068 0.0109 math | 0.3545 -0.0499 science | 0.3056 -0.1134 female | 0.1690 0.1265 ----------------------------------
考慮すべきこと
- 多変量回帰やMANOVAなどと同様に、正準相関分析では、有効な推論を行うためには、多変量正規性と分散の均質性の仮定が必要です。
- 正準相関分析は、正準変量と各変数のセットとの間に線形関係を仮定する。
- 多変量回帰と同様に、正準相関分析には大きなサンプルサイズが必要である。
See also
- Stata Online Manual
- canon
- Afifi, A, Clark, V and May, S. 2004. コンピュータ支援多変量解析(Computer-Aided Multivariate Analysis). 第4版.Boca Raton, Fl: Chapman & Hall/CRC.
- Garson, G. David (2015). GLM Multivariate, MANOVA, and Canonical Correlation. Asheboro, NC: Statistical Associates Publishers.
- G. David Garson, Canonical Correlation in Statnotes: 多変量解析のトピックス
- Pedhazur, E. 1997. 行動研究における重回帰。 第3版. Orlando, Fl: ホルト・ラインハート・ウィンストン社。