重回帰分析では 内部相関の高いデータは使わない

売上予測 30年の実績

048-711-7195

107-0062 東京都港区南青山2-2-15-942

月~金 9:00~18:00

lv_r

重回帰分析では 内部相関の高いデータは使わない

売上予測

2019/01/14 重回帰分析では 内部相関の高いデータは使わない

売上予測をエクセルで極める その90 重回帰分析

%e5%ae%9f%e9%9a%9b%e3%81%ae%e5%a3%b2%e4%b8%8a%e4%ba%88%e6%b8%ac%e3%83%a2%e3%83%87%e3%83%ab%e4%be%8b

分析ポイント(3)内部相関の高いデータは使わない
内部相関というのは、説明変数同士の相関のことです。目的変数(売上)となるべく高い相関のある説明変数を見つけましょうと前回書きました。
しかし、その説明変数が、他の説明変数とひじょうに高い相関があってはいけないのです。
例えば、仮に、「商圏人口」が売上と高い相関があったとします。この場合、人口ではなく、世帯数データを別の説明変数として用いたとしたらどうなるでしょう。往々にして、このデータが増えることによって、急に全体の重相関係数が上がります。そういう場合は、仮に、これを「10歳~14歳男性人口」や「1人世帯数」に変えても同様のことが起きます。
なぜかというと、これらのデータ同士の相関は、0・97とか0・99のようにひじょうに高いために、「マルチコ」という異常を起こすからです。マルチコが含まれているモデルは精度がとても落ちてしまいます。
マルチコを防ぐには、2個目の説明変数を探すところから、目的変数との相関を見るのではなく、残差(=実績値-理論値)との相関を見るようにしていくことをお勧めします。
それでも、内部相関が高い変数同士ができてしまうのは致し方ないことです。おおむね0・7くらいまでは許容することもあります。

 

分析ポイント(4)説明変数は少ないほど良い。
1つのモデルを作るために、大量のデータを用意しさえすれば早く作れると思い込んでいる人がいますが、これは間違いです。
最初にどんなに多くのデータがあっても、それらの内部相関が高ければ、それ全部を使うことはできません。つまり、人口や世帯数に関連したデータはどんなに多くあっても一つしかないのとほとんど同じです。
また、詳しい説明は省きますが、説明変数は、[サンプル数-1]より少なくなければなりません。つまり、10サンプルならば、説明変数が9個あってはいけないという意味です。この場合は、どんな重回帰分析ソフトもエラー(計算不能)に陥ります。8個までです。
この延長として、説明変数に加工される前のデータ項目の数も、サンプル数を超えてはいけません。この点はよく見落とされるので注意が必要です。

 

TOP