重回帰分析の落とし穴-1

048-711-7195

107-0062 東京都港区南青山2-2-15-942

月～金 9:00～18:00

重回帰分析の落とし穴-1

売上予測,飲食店経営

2018/05/16 重回帰分析の落とし穴-1

重回帰分析による売上予測モデルの落とし穴

重回帰分析というデータをたくさん処理できる手法は、とても便利でパソコンを用いると簡単に操作できる最近は多くの専門分野で、世界中で使われるようになってきています。

しかし、最初にチャレンジする人にとって馴染みが薄いことや専門書にもあまり書いていないこともあって、誤った使い方、分析の仕方を行っていることが往々にしてあります。

そこで、今回は、このモデルを作るにあたって多くの人が陥りやすい落とし穴を分析ポイントとして解説していきます。

売上予測は、精度が命です。誤った作り方をすれば、精度どころの話ではなくなってしまいますからよくよく理解していただきたいと思います。

分析ポイント（1）サンプル数は少ないところからはじめます。

サンプルが多ければ多いほど良いからといって最初から数百店調べようとする人がいます。

これは、統計解析を少しかじったことがある人に多く陥る罠です。確かに、理論上はこの通りなのです。１０サンプル（１０店舗）でモデルを作るより、２０サンプル、３０サンプルで作った方が高い精度の売上予測モデルを作ることができます。

しかし、だからといって、最初から１００サンプル、あるいは全店３００サンプルを使ってモデルを作ろうとするのは実践的ではありません。

業種業態によって、良い立地、悪い立地というのは微妙に、あるいは大きく異なってきます。

立地条件をどのように定義するか、どのように数値化するかで出来上がるデータは異なってきます。それなのに、一律にこういうデータで行こうと決めつけて、データ収集をしてしまうとそれが間違っていたような場合、すべて、調査し直しということになります。

３０店くらいだったら、取り直しもさほど苦ではないかもしれませんが、数百店ではとても簡単にはできるものではありません。

少ない数から始め、どのような立地データが役立つかわかるようになってきてからだんだんとサンプルを増やしていくことをお勧めします。

分析ポイント（2）データには必ずミスが入り込む。

どんなデータであっても、その調査、加工、分析は人間が行うものですから、その途中で必ずミスが入り込むものです。ですから、一つデータを作ったら必ず見直す習慣を付けましょう。

データの入っていない項目はないか、データが１行、１列ずれていないか、数字でなくて文字が入ってしまっているデータがないか、店舗名と照合して常識的なデータが入っているか（たとえば、A店は大型店なのに、面積として入力されたデータが小さければ、そのデータは間違っていると推測できますね）、

また、データを分析にかけた後のタイミングとして、分析者にとって、ひじょうに都合の良い結果が出たときは、まずそのデータを疑ってみることです。「本当にこのデータは正しいのだろうか」と疑うのです。どんなに疑っても問題がないことがわかって初めて喜びましょう。

setumei-1

分析ポイント（3）内部相関の高いデータは使わない

内部相関というのは、説明変数同士の相関のことです。目的変数（売上）となるべく高い相関のある説明変数を見つけましょうと前回書きました。

しかし、その説明変数が、他の説明変数とひじょうに高い相関があってはいけないのです。

例えば、仮に、「商圏人口」が売上と高い相関があったとします。この場合、人口ではなく、世帯数データを別の説明変数として用いたとしたらどうなるでしょう。往々にして、このデータが増えることによって、急に全体の重相関係数が上がります。そういう場合は、仮に、これを「１０歳～１４歳男性人口」や「1人世帯数」に変えても同様のことが起きます。

なぜかというと、これらのデータ同士の相関は、０・９７とか０・９９のようにひじょうに高いために、「マルチコ」という異常を起こすからです。マルチコが含まれているモデルは精度がとても落ちてしまいます。

マルチコを防ぐには、２個目の説明変数を探すところから、目的変数との相関を見るのではなく、残差（＝実績値－理論値）との相関を見るようにしていくことをお勧めします。

それでも、内部相関が高い変数同士ができてしまうのは致し方ないことです。おおむね０・７くらいまでは許容することもあります。

分析ポイント（4）説明変数は少ないほど良い。

１つのモデルを作るために、大量のデータを用意しさえすれば早く作れると思い込んでいる人がいますが、これは間違いです。

最初にどんなに多くのデータがあっても、それらの内部相関が高ければ、それ全部を使うことはできません。つまり、人口や世帯数に関連したデータはどんなに多くあっても一つしかないのとほとんど同じです。

また、詳しい説明は省きますが、説明変数は、[サンプル数－１]より少なくなければなりません。つまり、１０サンプルならば、説明変数が９個あってはいけないという意味です。この場合は、どんな重回帰分析ソフトもエラー（計算不能）に陥ります。８個までです。

この延長として、説明変数に加工される前のデータ項目の数も、サンプル数を超えてはいけません。この点はよく見落とされるので注意が必要です。

分析ポイント（5）後からデータを無根拠に改変するのはNG

分析者は『このデータが「２」でなく、「３」であったら、残差が縮まり都合がいいのになあ』というような誘惑にかられることがしばしばあります。

しかし、データの改変はご法度です。

データを見直したら計算ミスを見つけたというなら良いのですが、何の根拠もなくデータを変えてはいけません。大きな残差が出てくるのは、正確にやればやるほど仕方がないことです。

むしろ、大きな残差が出てくれるおかげで、私たちは、立地上の新しい発見ができるというものです。その発見の機会をみすみす逃すのはもったいない話ですね。

分析ポイント（6）まずは、常識をきかせること

重回帰分析で出てくる係数のプラス・マイナスに注意することです。たとえば、その説明変数が、売上に寄与するものであるならば（例えば、商圏人口、TGからの視界性評価など）、係数はプラスであるはずです。逆に、売上に制約を与えるものならば、マイナスのはずです。

その典型的なものは、競合店の存在です。競合店があればあるほど、それは自社店舗の売上を抑制するものです。つまり、競合についての説明変数の係数はマイナスになる。そう考えるのが妥当です。

しかし、プラスになってしまうことがたびたび見受けられます。こういう場合は、説明変数に組み込まないことが肝要です。ただし、特殊な手法で納得のいく説明変数が作られる場合もありますので諦めないことです。

◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆
私は、あなたが開店する時の「立地リスク」を激減させます。
有限会社ソルブ(StoreOpeningRiskBusters)代表　林原安徳
電話番号：048-711-7195
住所〒338-0002
埼玉県さいたま市中央区下落合四丁目17番18号
◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆