売上予測の問題はデータ収集が難しいことだ。

048-711-7195

107-0062 東京都港区南青山2-2-15-942

月～金 9:00～18:00

売上予測の問題はデータ収集が難しいことだ。

売上予測

2020/09/16 売上予測の問題はデータ収集が難しいことだ。

売上予測の問題はデータの収集が難しいことだ。

立地のデータなら、通行量や商圏人口などいくらでも収集できるではないかと思うかもしれない。

確かに、通行量は測定すればそれなりにいくらでも集められる。しかし、一律の定義が通行量の場合、難しい。測定対象が道路を走る自動車だけで、しかも、交差点からじゅうぶん離れたミッドブロックであれば、それなりに一律の定義ができるが、こうした限定すること自体が、一律とは言い難い（だから、店のサンプル数が有効に使えない）。

ふつうの自動車交通量でも難しい。ましてや測定対象が、人となると、どう定義したら良いのか皆目見当がつかなくなる。

（まあ、それでも、「店前のドアの前の限られた空間を横切る身長1.2ｍ以上で時速1ｋｍ以上で繰り返さず歩く人」とでも定義すると一律にデータ収集は可能だが、ここまで限定してしまうと、ふつうにイメージしている「たくさんの人が歩いている」状態とはまったく違った数字になる。1日10万人は歩いていると思われる、駅に面した店の直前はほとんど誰も歩いていないというようなことがしばしばあるからだ。）

ソルビクス　立地理論

また、確かに、1ｋｍ圏人口や5ｋｍ圏人口などはすぐデータ収集できる。国勢調査などの今までの統計結果など４０００項目などあっというまだ。

しかし、仮にそういうデータをたくさん重回帰分析に使ったとして、採用できるのは１個か２個に過ぎない。

そのほとんどの項目は、ほとんどが互いに強い相関（0.9以上）を持っている（これを「内部相関」と呼ぶ）ので、こうした項目を多く使えば使うほど「マルチコ（多重共線性）」という重回帰分析最大の欠陥ともいえるワナに陥ってしまう。人口が多いところは世帯数も多い。世帯数が多いところは、高年収世帯数も多い。・・・とこうなっているから、どれかを使うしかない。

無理して多くを使おうとすると、項目（説明変数）の互いが互いに影響を及ぼしあって間違った係数を導いてしまうのだ。これがマルチコである。

以上のように、通行量や、〇ｋｍ圏人口などというものは、1、2個データがするに過ぎない。

肝心の立地データは、どうだろう？

他に簡単に思いつく人はいるだろうか？

駅乗降数？店舗面積？間口幅？駐車台数？レジ台数？営業月数？従業員数？営業時間？休日数？

あるいは、

車道幅？競合店数？

どうだろう。ふつうに思いつくのはこのくらいだろう。

で、これで売上予測モデルはできるか。もちろん、答えは”No”である。

重回帰分析は、説明変数として候補が100個あろうが1000個あろうが、「意味があって・統計的にも支持できる」説明変数でなければ使ってはならないという鉄則がある。

だから、「意味がない」説明変数は使ってはならない。例えば、「人口に反比例する」というのは意味がない。「人口が減れば減るほど売れる」などあり得ないからだ。

また、「統計的に支持されない」説明変数も使ってはならない。例えば、「1％の確率でこの変数が役立つことがある」なんていう説明変数は、要するに偶然に過ぎないのだから使ってはならない。