048-711-7195
107-0062 東京都港区南青山2-2-15-942
月~金 9:00~18:00
重回帰分析の落とし穴-1
重回帰分析による売上予測モデルの落とし穴
重回帰分析というデータをたくさん処理できる手法は、とても便利でパソコンを用いると簡単に操作できる最近は多くの専門分野で、世界中で使われるようになってきています。
しかし、最初にチャレンジする人にとって馴染みが薄いことや専門書にもあまり書いていないこともあって、誤った使い方、分析の仕方を行っていることが往々にしてあります。
そこで、今回は、このモデルを作るにあたって多くの人が陥りやすい落とし穴を分析ポイントとして解説していきます。
売上予測は、精度が命です。誤った作り方をすれば、精度どころの話ではなくなってしまいますからよくよく理解していただきたいと思います。
分析ポイント(1)サンプル数は少ないところからはじめます。
サンプルが多ければ多いほど良いからといって最初から数百店調べようとする人がいます。
これは、統計解析を少しかじったことがある人に多く陥る罠です。確かに、理論上はこの通りなのです。10サンプル(10店舗)でモデルを作るより、20サンプル、30サンプルで作った方が高い精度の売上予測モデルを作ることができます。
しかし、だからといって、最初から100サンプル、あるいは全店300サンプルを使ってモデルを作ろうとするのは実践的ではありません。
業種業態によって、良い立地、悪い立地というのは微妙に、あるいは大きく異なってきます。
立地条件をどのように定義するか、どのように数値化するかで出来上がるデータは異なってきます。それなのに、一律にこういうデータで行こうと決めつけて、データ収集をしてしまうとそれが間違っていたような場合、すべて、調査し直しということになります。
30店くらいだったら、取り直しもさほど苦ではないかもしれませんが、数百店ではとても簡単にはできるものではありません。
少ない数から始め、どのような立地データが役立つかわかるようになってきてからだんだんとサンプルを増やしていくことをお勧めします。
分析ポイント(2)データには必ずミスが入り込む。
どんなデータであっても、その調査、加工、分析は人間が行うものですから、その途中で必ずミスが入り込むものです。ですから、一つデータを作ったら必ず見直す習慣を付けましょう。
データの入っていない項目はないか、データが1行、1列ずれていないか、数字でなくて文字が入ってしまっているデータがないか、店舗名と照合して常識的なデータが入っているか(たとえば、A店は大型店なのに、面積として入力されたデータが小さければ、そのデータは間違っていると推測できますね)、
また、データを分析にかけた後のタイミングとして、分析者にとって、ひじょうに都合の良い結果が出たときは、まずそのデータを疑ってみることです。「本当にこのデータは正しいのだろうか」と疑うのです。どんなに疑っても問題がないことがわかって初めて喜びましょう。
分析ポイント(3)内部相関の高いデータは使わない
内部相関というのは、説明変数同士の相関のことです。目的変数(売上)となるべく高い相関のある説明変数を見つけましょうと前回書きました。
しかし、その説明変数が、他の説明変数とひじょうに高い相関があってはいけないのです。
例えば、仮に、「商圏人口」が売上と高い相関があったとします。この場合、人口ではなく、世帯数データを別の説明変数として用いたとしたらどうなるでしょう。往々にして、このデータが増えることによって、急に全体の重相関係数が上がります。そういう場合は、仮に、これを「10歳~14歳男性人口」や「1人世帯数」に変えても同様のことが起きます。
なぜかというと、これらのデータ同士の相関は、0・97とか0・99のようにひじょうに高いために、「マルチコ」という異常を起こすからです。マルチコが含まれているモデルは精度がとても落ちてしまいます。
マルチコを防ぐには、2個目の説明変数を探すところから、目的変数との相関を見るのではなく、残差(=実績値-理論値)との相関を見るようにしていくことをお勧めします。
それでも、内部相関が高い変数同士ができてしまうのは致し方ないことです。おおむね0・7くらいまでは許容することもあります。
分析ポイント(4)説明変数は少ないほど良い。
1つのモデルを作るために、大量のデータを用意しさえすれば早く作れると思い込んでいる人がいますが、これは間違いです。
最初にどんなに多くのデータがあっても、それらの内部相関が高ければ、それ全部を使うことはできません。つまり、人口や世帯数に関連したデータはどんなに多くあっても一つしかないのとほとんど同じです。
また、詳しい説明は省きますが、説明変数は、[サンプル数-1]より少なくなければなりません。つまり、10サンプルならば、説明変数が9個あってはいけないという意味です。この場合は、どんな重回帰分析ソフトもエラー(計算不能)に陥ります。8個までです。
この延長として、説明変数に加工される前のデータ項目の数も、サンプル数を超えてはいけません。この点はよく見落とされるので注意が必要です。
分析ポイント(5)後からデータを無根拠に改変するのはNG
分析者は『このデータが「2」でなく、「3」であったら、残差が縮まり都合がいいのになあ』というような誘惑にかられることがしばしばあります。
しかし、データの改変はご法度です。
データを見直したら計算ミスを見つけたというなら良いのですが、何の根拠もなくデータを変えてはいけません。大きな残差が出てくるのは、正確にやればやるほど仕方がないことです。
むしろ、大きな残差が出てくれるおかげで、私たちは、立地上の新しい発見ができるというものです。その発見の機会をみすみす逃すのはもったいない話ですね。
分析ポイント(6)まずは、常識をきかせること
重回帰分析で出てくる係数のプラス・マイナスに注意することです。たとえば、その説明変数が、売上に寄与するものであるならば(例えば、商圏人口、TGからの視界性評価など)、係数はプラスであるはずです。逆に、売上に制約を与えるものならば、マイナスのはずです。
その典型的なものは、競合店の存在です。競合店があればあるほど、それは自社店舗の売上を抑制するものです。つまり、競合についての説明変数の係数はマイナスになる。そう考えるのが妥当です。
しかし、プラスになってしまうことがたびたび見受けられます。こういう場合は、説明変数に組み込まないことが肝要です。ただし、特殊な手法で納得のいく説明変数が作られる場合もありますので諦めないことです。
「重回帰分析の方法」の関連記事 ●売上予測を重回帰分析で行う手法 1 ●t値が大事です。(売上予測を重回帰分析で行う手法2) ●修正済み相関係数とは(売上予測を重回帰分析で行う手法3) ●目的変数の決め方(売上予測を重回帰分析で行う手法4) ●残差分析で考える(売上予測を重回帰分析で行う手法5) ●マルチコに気をつけよ(売上予測を重回帰分析で行う手法6) ●感性を数値化せよ(売上予測を重回帰分析で行う手法7) ●競合指数の出し方(売上予測を重回帰分析で行う手法8) ●立地指数の出し方(売上予測を重回帰分析で行う手法9) ●商圏分断を数値化する(売上予測を重回帰分析で行う手法10) ●商圏拡大を数値化する(売上予測を重回帰分析で行う手法11) ●ダミー変数が役に立つ(売上予測を重回帰分析で行う手法13) ●売上予測のフォーマット(売上予測を重回帰分析で行う手法14) ●売上予測値と実際の理論値の差を計算する(売上予測を重回帰分析で行う手法15) ●エクセルを活用しよう 1(売上予測を重回帰分析で行う手法16) ●エクセルを活用しよう 2(売上予測を重回帰分析で行う手法17) ●売上予測モデルはいくつ作れば良いか?(売上予測を重回帰分析で行う手法18)く ●売上予測フォーマット(売上予測を重回帰分析で行う手法19) ●売上予測をエクセルで実現する (売上予測を重回帰分析で行う手法20) ●重回帰分析の出来は、データの多さでなく、残差分析の深さで決まる。 ●高精度/売上予測モデルはエクセルで分析したら、エクセルで運用した方が良い2つの理由。 ●最初から行き詰まるときは、考えるチャンス。重回帰分析の挑戦 ●変数が多くなり、エクセルの重回帰分析が嫌いにならない内に行動すべし ●売上予測のための重回帰分析という計算 飲食店経営2013年FEB (前半) ●売上予測のための重回帰分析という計算 飲食店経営2013年FEB (後半)
23/06/12
22/05/20
21/12/30
21/08/04
21/08/03
21/08/01
21/07/31
21/07/10
21/07/09
21/07/08
TOP
重回帰分析による売上予測モデルの落とし穴
重回帰分析というデータをたくさん処理できる手法は、とても便利でパソコンを用いると簡単に操作できる最近は多くの専門分野で、世界中で使われるようになってきています。
しかし、最初にチャレンジする人にとって馴染みが薄いことや専門書にもあまり書いていないこともあって、誤った使い方、分析の仕方を行っていることが往々にしてあります。
そこで、今回は、このモデルを作るにあたって多くの人が陥りやすい落とし穴を分析ポイントとして解説していきます。
売上予測は、精度が命です。誤った作り方をすれば、精度どころの話ではなくなってしまいますからよくよく理解していただきたいと思います。
分析ポイント(1)サンプル数は少ないところからはじめます。
サンプルが多ければ多いほど良いからといって最初から数百店調べようとする人がいます。
これは、統計解析を少しかじったことがある人に多く陥る罠です。確かに、理論上はこの通りなのです。10サンプル(10店舗)でモデルを作るより、20サンプル、30サンプルで作った方が高い精度の売上予測モデルを作ることができます。
しかし、だからといって、最初から100サンプル、あるいは全店300サンプルを使ってモデルを作ろうとするのは実践的ではありません。
業種業態によって、良い立地、悪い立地というのは微妙に、あるいは大きく異なってきます。
立地条件をどのように定義するか、どのように数値化するかで出来上がるデータは異なってきます。それなのに、一律にこういうデータで行こうと決めつけて、データ収集をしてしまうとそれが間違っていたような場合、すべて、調査し直しということになります。
30店くらいだったら、取り直しもさほど苦ではないかもしれませんが、数百店ではとても簡単にはできるものではありません。
少ない数から始め、どのような立地データが役立つかわかるようになってきてからだんだんとサンプルを増やしていくことをお勧めします。
分析ポイント(2)データには必ずミスが入り込む。
どんなデータであっても、その調査、加工、分析は人間が行うものですから、その途中で必ずミスが入り込むものです。ですから、一つデータを作ったら必ず見直す習慣を付けましょう。
データの入っていない項目はないか、データが1行、1列ずれていないか、数字でなくて文字が入ってしまっているデータがないか、店舗名と照合して常識的なデータが入っているか(たとえば、A店は大型店なのに、面積として入力されたデータが小さければ、そのデータは間違っていると推測できますね)、
また、データを分析にかけた後のタイミングとして、分析者にとって、ひじょうに都合の良い結果が出たときは、まずそのデータを疑ってみることです。「本当にこのデータは正しいのだろうか」と疑うのです。どんなに疑っても問題がないことがわかって初めて喜びましょう。
分析ポイント(3)内部相関の高いデータは使わない
内部相関というのは、説明変数同士の相関のことです。目的変数(売上)となるべく高い相関のある説明変数を見つけましょうと前回書きました。
しかし、その説明変数が、他の説明変数とひじょうに高い相関があってはいけないのです。
例えば、仮に、「商圏人口」が売上と高い相関があったとします。この場合、人口ではなく、世帯数データを別の説明変数として用いたとしたらどうなるでしょう。往々にして、このデータが増えることによって、急に全体の重相関係数が上がります。そういう場合は、仮に、これを「10歳~14歳男性人口」や「1人世帯数」に変えても同様のことが起きます。
なぜかというと、これらのデータ同士の相関は、0・97とか0・99のようにひじょうに高いために、「マルチコ」という異常を起こすからです。マルチコが含まれているモデルは精度がとても落ちてしまいます。
マルチコを防ぐには、2個目の説明変数を探すところから、目的変数との相関を見るのではなく、残差(=実績値-理論値)との相関を見るようにしていくことをお勧めします。
それでも、内部相関が高い変数同士ができてしまうのは致し方ないことです。おおむね0・7くらいまでは許容することもあります。
分析ポイント(4)説明変数は少ないほど良い。
1つのモデルを作るために、大量のデータを用意しさえすれば早く作れると思い込んでいる人がいますが、これは間違いです。
最初にどんなに多くのデータがあっても、それらの内部相関が高ければ、それ全部を使うことはできません。つまり、人口や世帯数に関連したデータはどんなに多くあっても一つしかないのとほとんど同じです。
また、詳しい説明は省きますが、説明変数は、[サンプル数-1]より少なくなければなりません。つまり、10サンプルならば、説明変数が9個あってはいけないという意味です。この場合は、どんな重回帰分析ソフトもエラー(計算不能)に陥ります。8個までです。
この延長として、説明変数に加工される前のデータ項目の数も、サンプル数を超えてはいけません。この点はよく見落とされるので注意が必要です。
分析ポイント(5)後からデータを無根拠に改変するのはNG
分析者は『このデータが「2」でなく、「3」であったら、残差が縮まり都合がいいのになあ』というような誘惑にかられることがしばしばあります。
しかし、データの改変はご法度です。
データを見直したら計算ミスを見つけたというなら良いのですが、何の根拠もなくデータを変えてはいけません。大きな残差が出てくるのは、正確にやればやるほど仕方がないことです。
むしろ、大きな残差が出てくれるおかげで、私たちは、立地上の新しい発見ができるというものです。その発見の機会をみすみす逃すのはもったいない話ですね。
分析ポイント(6)まずは、常識をきかせること
重回帰分析で出てくる係数のプラス・マイナスに注意することです。たとえば、その説明変数が、売上に寄与するものであるならば(例えば、商圏人口、TGからの視界性評価など)、係数はプラスであるはずです。逆に、売上に制約を与えるものならば、マイナスのはずです。
その典型的なものは、競合店の存在です。競合店があればあるほど、それは自社店舗の売上を抑制するものです。つまり、競合についての説明変数の係数はマイナスになる。そう考えるのが妥当です。
しかし、プラスになってしまうことがたびたび見受けられます。こういう場合は、説明変数に組み込まないことが肝要です。ただし、特殊な手法で納得のいく説明変数が作られる場合もありますので諦めないことです。
「重回帰分析の方法」の関連記事
●売上予測を重回帰分析で行う手法 1
●t値が大事です。(売上予測を重回帰分析で行う手法2)
●修正済み相関係数とは(売上予測を重回帰分析で行う手法3)
●目的変数の決め方(売上予測を重回帰分析で行う手法4)
●残差分析で考える(売上予測を重回帰分析で行う手法5)
●マルチコに気をつけよ(売上予測を重回帰分析で行う手法6)
●感性を数値化せよ(売上予測を重回帰分析で行う手法7)
●競合指数の出し方(売上予測を重回帰分析で行う手法8)
●立地指数の出し方(売上予測を重回帰分析で行う手法9)
●商圏分断を数値化する(売上予測を重回帰分析で行う手法10)
●商圏拡大を数値化する(売上予測を重回帰分析で行う手法11)
●ダミー変数が役に立つ(売上予測を重回帰分析で行う手法13)
●売上予測のフォーマット(売上予測を重回帰分析で行う手法14)
●売上予測値と実際の理論値の差を計算する(売上予測を重回帰分析で行う手法15)
●エクセルを活用しよう 1(売上予測を重回帰分析で行う手法16)
●エクセルを活用しよう 2(売上予測を重回帰分析で行う手法17)
●売上予測モデルはいくつ作れば良いか?(売上予測を重回帰分析で行う手法18)く
●売上予測フォーマット(売上予測を重回帰分析で行う手法19)
●売上予測をエクセルで実現する (売上予測を重回帰分析で行う手法20)
●重回帰分析の出来は、データの多さでなく、残差分析の深さで決まる。
●高精度/売上予測モデルはエクセルで分析したら、エクセルで運用した方が良い2つの理由。
●最初から行き詰まるときは、考えるチャンス。重回帰分析の挑戦
●変数が多くなり、エクセルの重回帰分析が嫌いにならない内に行動すべし
●売上予測のための重回帰分析という計算 飲食店経営2013年FEB (前半)
●売上予測のための重回帰分析という計算 飲食店経営2013年FEB (後半)
私は、あなたが開店する時の「立地リスク」を激減させます。
有限会社ソルブ(StoreOpeningRiskBusters)代表 林原安徳
電話番号:048-711-7195
住所 〒338-0002
埼玉県さいたま市中央区下落合四丁目17番18号
◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆