048-711-7195
107-0062 東京都港区南青山2-2-15-942
月~金 9:00~18:00
売上予測の問題はデータ収集が難しいことだ。
売上予測の問題はデータの収集が難しいことだ。
立地のデータなら、通行量や商圏人口などいくらでも収集できるではないかと思うかもしれない。
確かに、通行量は測定すればそれなりにいくらでも集められる。しかし、一律の定義が通行量の場合、難しい。測定対象が道路を走る自動車だけで、しかも、交差点からじゅうぶん離れたミッドブロックであれば、それなりに一律の定義ができるが、こうした限定すること自体が、一律とは言い難い(だから、店のサンプル数が有効に使えない)。
ふつうの自動車交通量でも難しい。ましてや測定対象が、人となると、どう定義したら良いのか皆目見当がつかなくなる。
(まあ、それでも、「店前のドアの前の限られた空間を横切る身長1.2m以上で時速1km以上で繰り返さず歩く人」とでも定義すると一律にデータ収集は可能だが、ここまで限定してしまうと、ふつうにイメージしている「たくさんの人が歩いている」状態とはまったく違った数字になる。1日10万人は歩いていると思われる、駅に面した店の直前はほとんど誰も歩いていないというようなことがしばしばあるからだ。)
また、確かに、1km圏人口や5km圏人口などはすぐデータ収集できる。国勢調査などの今までの統計結果など4000項目などあっというまだ。
しかし、仮にそういうデータをたくさん重回帰分析に使ったとして、採用できるのは1個か2個に過ぎない。
そのほとんどの項目は、ほとんどが互いに強い相関(0.9以上)を持っている(これを「内部相関」と呼ぶ)ので、こうした項目を多く使えば使うほど「マルチコ(多重共線性)」という重回帰分析最大の欠陥ともいえるワナに陥ってしまう。人口が多いところは世帯数も多い。世帯数が多いところは、高年収世帯数も多い。・・・とこうなっているから、どれかを使うしかない。
無理して多くを使おうとすると、項目(説明変数)の互いが互いに影響を及ぼしあって間違った係数を導いてしまうのだ。これがマルチコである。
以上のように、通行量や、〇km圏人口などというものは、1、2個データがするに過ぎない。
肝心の立地データは、どうだろう?
他に簡単に思いつく人はいるだろうか?
駅乗降数?店舗面積?間口幅?駐車台数?レジ台数?営業月数?従業員数?営業時間?休日数?
あるいは、
車道幅?競合店数?
どうだろう。ふつうに思いつくのはこのくらいだろう。
で、これで売上予測モデルはできるか。もちろん、答えは”No”である。
重回帰分析は、説明変数として候補が100個あろうが1000個あろうが、「意味があって・統計的にも支持できる」説明変数でなければ使ってはならないという鉄則がある。
だから、「意味がない」説明変数は使ってはならない。例えば、「人口に反比例する」というのは意味がない。「人口が減れば減るほど売れる」などあり得ないからだ。
また、「統計的に支持されない」説明変数も使ってはならない。例えば、「1%の確率でこの変数が役立つことがある」なんていう説明変数は、要するに偶然に過ぎないのだから使ってはならない。
こういうことで、説明変数として、上記のように思いつくものをどんどん探して重回帰分析にかけても、たいていは、「意味がない」・「統計的に支持できない」変数となって、ボツになる。
説明変数が3つや4つでは決して高精度の売上予測モデルは作れない。
では、なぜこうしたことが起きるのだろうか?
理由は簡単。売上予測に影響する立地の理論が定まっていないからだ。
理論がないから、的確な要因を見出せない。だから、データを揃えることができない。
ということは、立地の理論を構築することが先決というわけだ。
これを弊社は長い期間行ってきて、それをSORBICS(ソルビクス)と名付けた。
このSORBICSの一部は、さまざまな書籍にして公開している。このブログの随所で説明している。
弊社が高精度・売上予測モデルを構築できて、多くのチェーン企業に手ほどきができるのは、そういう理由からだ。
東京都港区南青山2-2-15 ウィン青山942 有限会社ソルブ 電話 03-3538-6603 メール問合せは、こちら ◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆
23/06/12
22/05/20
21/12/30
21/08/04
21/08/03
21/08/01
21/07/31
21/07/10
21/07/09
21/07/08
TOP
売上予測の問題はデータの収集が難しいことだ。
立地のデータなら、通行量や商圏人口などいくらでも収集できるではないかと思うかもしれない。
確かに、通行量は測定すればそれなりにいくらでも集められる。しかし、一律の定義が通行量の場合、難しい。測定対象が道路を走る自動車だけで、しかも、交差点からじゅうぶん離れたミッドブロックであれば、それなりに一律の定義ができるが、こうした限定すること自体が、一律とは言い難い(だから、店のサンプル数が有効に使えない)。
ふつうの自動車交通量でも難しい。ましてや測定対象が、人となると、どう定義したら良いのか皆目見当がつかなくなる。
(まあ、それでも、「店前のドアの前の限られた空間を横切る身長1.2m以上で時速1km以上で繰り返さず歩く人」とでも定義すると一律にデータ収集は可能だが、ここまで限定してしまうと、ふつうにイメージしている「たくさんの人が歩いている」状態とはまったく違った数字になる。1日10万人は歩いていると思われる、駅に面した店の直前はほとんど誰も歩いていないというようなことがしばしばあるからだ。)
また、確かに、1km圏人口や5km圏人口などはすぐデータ収集できる。国勢調査などの今までの統計結果など4000項目などあっというまだ。
しかし、仮にそういうデータをたくさん重回帰分析に使ったとして、採用できるのは1個か2個に過ぎない。
そのほとんどの項目は、ほとんどが互いに強い相関(0.9以上)を持っている(これを「内部相関」と呼ぶ)ので、こうした項目を多く使えば使うほど「マルチコ(多重共線性)」という重回帰分析最大の欠陥ともいえるワナに陥ってしまう。人口が多いところは世帯数も多い。世帯数が多いところは、高年収世帯数も多い。・・・とこうなっているから、どれかを使うしかない。
無理して多くを使おうとすると、項目(説明変数)の互いが互いに影響を及ぼしあって間違った係数を導いてしまうのだ。これがマルチコである。
以上のように、通行量や、〇km圏人口などというものは、1、2個データがするに過ぎない。
肝心の立地データは、どうだろう?
他に簡単に思いつく人はいるだろうか?
駅乗降数?店舗面積?間口幅?駐車台数?レジ台数?営業月数?従業員数?営業時間?休日数?
あるいは、
車道幅?競合店数?
どうだろう。ふつうに思いつくのはこのくらいだろう。
で、これで売上予測モデルはできるか。もちろん、答えは”No”である。
重回帰分析は、説明変数として候補が100個あろうが1000個あろうが、「意味があって・統計的にも支持できる」説明変数でなければ使ってはならないという鉄則がある。
だから、「意味がない」説明変数は使ってはならない。例えば、「人口に反比例する」というのは意味がない。「人口が減れば減るほど売れる」などあり得ないからだ。
また、「統計的に支持されない」説明変数も使ってはならない。例えば、「1%の確率でこの変数が役立つことがある」なんていう説明変数は、要するに偶然に過ぎないのだから使ってはならない。
こういうことで、説明変数として、上記のように思いつくものをどんどん探して重回帰分析にかけても、たいていは、「意味がない」・「統計的に支持できない」変数となって、ボツになる。
説明変数が3つや4つでは決して高精度の売上予測モデルは作れない。
では、なぜこうしたことが起きるのだろうか?
理由は簡単。売上予測に影響する立地の理論が定まっていないからだ。
理論がないから、的確な要因を見出せない。だから、データを揃えることができない。
ということは、立地の理論を構築することが先決というわけだ。
これを弊社は長い期間行ってきて、それをSORBICS(ソルビクス)と名付けた。
このSORBICSの一部は、さまざまな書籍にして公開している。このブログの随所で説明している。
弊社が高精度・売上予測モデルを構築できて、多くのチェーン企業に手ほどきができるのは、そういう理由からだ。
統計てきめん2プレミアのダウロードサイト
統計てきめん2プレミアの紹介動画5分
林原安徳:有)ソルブは、立地と高精度/売上予測で「不振店」を根絶します。
東京都港区南青山2-2-15 ウィン青山942 有限会社ソルブ
電話 03-3538-6603 メール問合せは、こちら
◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆