東京都港区南青山2-2-15
重回帰分析による売上予測モデルの作り方 連載36
連載36 3月号
重回帰分析というデータをたくさん処理できる手法は、とても便利でパソコンを用いると簡単に操作できる最近は多くの専門分野で、世界中で使われるようになってきています。
しかし、最初にチャレンジする人にとって馴染みが薄いことや専門書にもあまり書いていないこともあって、誤った使い方、分析の仕方を行っていることが往々にしてあります。
そこで、今回は、このモデルを作るにあたって多くの人が陥りやすい落とし穴を分析ポイントとして解説していきます。
売上予測は、精度が命です。誤った作り方をすれば、精度どころの話ではなくなってしまいますからよくよく理解していただきたいと思います。
分析ポイント(1)サンプル数は少ないところからはじめます。
サンプルが多ければ多いほど良いからといって最初から数百店調べようとする人がいます。
これは、統計解析を少しかじったことがある人に多く陥る罠です。確かに、理論上はこの通りなのです。10サンプル(10店舗)でモデルを作るより、20サンプル、30サンプルで作った方が高い精度の売上予測モデルを作ることができます。
しかし、だからといって、最初から100サンプル、あるいは全店300サンプルを使ってモデルを作ろうとするのは実践的ではありません。
業種業態によって、良い立地、悪い立地というのは微妙に、あるいは大きく異なってきます。
立地条件をどのように定義するか、どのように数値化するかで出来上がるデータは異なってきます。それなのに、一律にこういうデータで行こうと決めつけて、データ収集をしてしまうとそれが間違っていたような場合、すべて、調査し直しということになります。
30店くらいだったら、取り直しもさほど苦ではないかもしれませんが、数百店ではとても簡単にはできるものではありません。
少ない数から始め、どのような立地データが役立つかわかるようになってきてからだんだんとサンプルを増やしていくことをお勧めします。
分析ポイント(2)データには必ずミスが入り込む。
どんなデータであっても、その調査、加工、分析は人間が行うものですから、その途中で必ずミスが入り込むものです。ですから、一つデータを作ったら必ず見直す習慣を付けましょう。
データの入っていない項目はないか、データが1行、1列ずれていないか、数字でなくて文字が入ってしまっているデータがないか、店舗名と照合して常識的なデータが入っているか(たとえば、A店は大型店なのに、面積として入力されたデータが小さければ、そのデータは間違っていると推測できますね)、
また、データを分析にかけた後のタイミングとして、分析者にとって、ひじょうに都合の良い結果が出たときは、まずそのデータを疑ってみることです。「本当にこのデータは正しいのだろうか」と疑うのです。どんなに疑っても問題がないことがわかって初めて喜びましょう。
分析ポイント(3)内部相関の高いデータは使わない
内部相関というのは、説明変数同士の相関のことです。目的変数(売上)となるべく高い相関のある説明変数を見つけましょうと前回書きました。
しかし、その説明変数が、他の説明変数とひじょうに高い相関があってはいけないのです。
例えば、仮に、「商圏人口」が売上と高い相関があったとします。この場合、人口ではなく、世帯数データを別の説明変数として用いたとしたらどうなるでしょう。往々にして、このデータが増えることによって、急に全体の重相関係数が上がります。そういう場合は、仮に、これを「10歳~14歳男性人口」や「1人世帯数」に変えても同様のことが起きます。
なぜかというと、これらのデータ同士の相関は、0・97とか0・99のようにひじょうに高いために、「マルチコ」という異常を起こすからです。マルチコが含まれているモデルは精度がとても落ちてしまいます。
マルチコを防ぐには、2個目の説明変数を探すところから、目的変数との相関を見るのではなく、残差(=実績値-理論値)との相関を見るようにしていくことをお勧めします。
それでも、内部相関が高い変数同士ができてしまうのは致し方ないことです。おおむね0・7くらいまでは許容することもあります。
分析ポイント(4)説明変数は少ないほど良い。
1つのモデルを作るために、大量のデータを用意しさえすれば早く作れると思い込んでいる人がいますが、これは間違いです。
最初にどんなに多くのデータがあっても、それらの内部相関が高ければ、それ全部を使うことはできません。つまり、人口や世帯数に関連したデータはどんなに多くあっても一つしかないのとほとんど同じです。
また、詳しい説明は省きますが、説明変数は、[サンプル数-1]より少なくなければなりません。つまり、10サンプルならば、説明変数が9個あってはいけないという意味です。この場合は、どんな重回帰分析ソフトもエラー(計算不能)に陥ります。8個までです。
この延長として、説明変数に加工される前のデータ項目の数も、サンプル数を超えてはいけません。この点はよく見落とされるので注意が必要です。
分析ポイント(5)後からデータを無根拠に改変するのはNG
分析者は『このデータが「2」でなく、「3」であったら、残差が縮まり都合がいいのになあ』というような誘惑にかられることがしばしばあります。
しかし、データの改変はご法度です。
データを見直したら計算ミスを見つけたというなら良いのですが、何の根拠もなくデータを変えてはいけません。大きな残差が出てくるのは、正確にやればやるほど仕方がないことです。
むしろ、大きな残差が出てくれるおかげで、私たちは、立地上の新しい発見ができるというものです。その発見の機会をみすみす逃すのはもったいない話ですね。
分析ポイント(6)まずは、常識をきかせること
重回帰分析で出てくる係数のプラス・マイナスに注意することです。たとえば、その説明変数が、売上に寄与するものであるならば(例えば、商圏人口、TGからの視界性評価など)、係数はプラスであるはずです。逆に、売上に制約を与えるものならば、マイナスのはずです。
その典型的なものは、競合店の存在です。競合店があればあるほど、それは自社店舗の売上を抑制するものです。つまり、競合についての説明変数の係数はマイナスになる。そう考えるのが妥当です。
しかし、プラスになってしまうことがたびたび見受けられます。こういう場合は、説明変数に組み込まないことが肝要です。ただし、特殊な手法で納得のいく説明変数が作られる場合もありますので諦めないことです。
分析ポイント(7)サンプル店舗は統計的にうまく絞ること
冒頭にあったように、百~数百店舗を有しているチェーン店の場合は、30~40サンプルくらいに店舗を絞る必要があります。
この場合の絞り方は重要です。単に、行動範囲を短くして効率的に調査できるようにしようと近い店同士を選んだり、面積が似通っている店だけ選んだりというのは避けた方が良いでしょう。
最もお勧めの絞り方は、ランダムに選ぶことです。そして、その上で、全店における売上の平均値と標準偏差という統計値、絞ったサンプルにおけるそれらの統計値がなるべく似通っていることです。
分析ポイント(8)サンプル店舗を削ってはいけない
重回帰分析をすすめていくと、必ず1つや2つどうしても、残差が大きいままで、合理的な立地要因が見つからないというサンプルが出てくるものです。そうすると、データの改変はしないものの、そのサンプル自体を削ってしまう人が出てきます。
これも間違っています。すでに書いたように、今見つからないからといって、何らかの要因は必ずあるはずです。だから、残差が出ているわけで、これは、新発見の前段階かもしれないのです。ですから、取り除いてしまってはいけません。
どうしても、こういう大きな残差が残っているのが感覚的に受け入れられないというのであれば、「D店指数(仮称)」という説明変数を作って加えることです。この指数は、残差の大きいD店だけに「1」というデータを入れ、他のサンプルはすべて「0」にしておくものです。こういう変数をダミー変数と言いますが、この変数を入れることで、「大きな残差」は消えます。もちろん、原因が見つかったわけではありませんので、後日、調べなければなりません。
分析ポイント(9)相関係数に拘り過ぎてはいけない
重回帰分析では、サンプルに使った既存店の売上実績と予測モデルで算出される売上理論値との相関係数が計算されます。これが1.00に近づけば近づくほど、各サンプル店の残差は小さくなり、見かけの精度は高くなります。
しかし、ここが盲点です。確かに見かけの精度は高くなりますが、そのために説明変数の作り方に相当な無理がかかります。
ひじょうに恣意的なデータになってしまったり、必要以上に多くのデータを使ったものになったり、つまり、意味のない精度アップをしているおそれがあります。
売上予測モデルは実践で活用したときに、高い精度で予測できなければ何の意味もありません。
既存店、しかもサンプル店の精度に拘っているよりも、正しいデータ、正しい説明変数を入れて高い精度の予測ができれば良いのです。筆者は個人的には、売上予測モデルの相関係数は0・85もあれば十分だと考えています。0・95を超えるようなモデルは作らないほうが無難だと思っています。
分析ポイント(10)コンピュータ(ソフトウェア)に任せきりにしない
重回帰分析に用いるソフトウェアの中には、「自動選択法」という機能がついていて、たくさんの説明変数の中から、統計的に間違っていないと言える説明変数だけを見つけてくる。
やや詳しく言うと、ある説明変数をモデルに加えて、相関係数が高くなるなら採用し、低くなるなら不採用とする機能です。人間は何も考えないで良いので、便利で簡単です。
しかし、こうして出てくる売上予測モデルは、だいたいが、箸にも棒にもかからないシロモノになります。競合指標の係数がプラスだったり、商圏人口がマイナスだったり。
一つ一つの説明変数を見ながら、残差の大きいサンプルを照らしながら人間が一歩一歩分析していく方が必ず良いもの(精度の高いもの)ができるものです。
まとめ
以上、10つの分析ポイントを挙げましたが、これらは典型的なものばかりで、実際に分析するとなると次々と注意しなければならないことが出てきます。しかし、それらは分析を多数行っていくうちに自然とクリアーできるでしょうし、もし、そうならなければ、分析のセミナーに行ったり、熟達者を探して聞いたりすることをお勧めします。
さて、今回で、昨年4月号から始まった“売上予測ができるようにしよう”という連載は一区切りとさせていただきます。次回からは、また、立地の基礎、原則について改めてお話ししていく連載と致しましょう。
(プロフィール)
林原安徳はやしはら やすのり 売上予測のプロ。経営コンサルタント。1956年さいたま市生56才。 東大(農)卒後、日本マクドナルド(株)出店調査部にて、「立地と売上予測」を基礎研究。退社独立後、理論を独自に深耕させSORBICS(ソルビクス)と命名。これに基づき、チェーン展開する多くの企業や個人を指導。主な著作「実践・売上予測と立地判定」(商業界)「最新版 これが繁盛立地だ!」(同文舘出版)。無料メルマガを配信中。http://www.sorb.co.jp
重回帰分析 10のポイント
(1)サンプル数は少ないところからはじめます。
(2)データには必ずミスが入り込む。
(3)内部相関の高いデータは使わない。
(4)説明変数は少ないほど良い。
(5)後からデータを無根拠に改変するのはNG
(6)まずは、常識をきかせること
(7)サンプル店舗は統計的にうまく絞ること
(8)サンプル店舗を削ってはいけない
(9)相関係数に拘り過ぎてはいけない
(10)コンピュータ(ソフトウェア)に任せきりにしない
東京都港区南青山2-2-15 ウィン青山942 有限会社ソルブ 電話 03-3538-6603 メール問合せは、こちら ◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆
24/09/08
23/06/12
22/05/20
TOP
連載36 3月号
重回帰分析というデータをたくさん処理できる手法は、とても便利でパソコンを用いると簡単に操作できる最近は多くの専門分野で、世界中で使われるようになってきています。
しかし、最初にチャレンジする人にとって馴染みが薄いことや専門書にもあまり書いていないこともあって、誤った使い方、分析の仕方を行っていることが往々にしてあります。
そこで、今回は、このモデルを作るにあたって多くの人が陥りやすい落とし穴を分析ポイントとして解説していきます。
売上予測は、精度が命です。誤った作り方をすれば、精度どころの話ではなくなってしまいますからよくよく理解していただきたいと思います。
分析ポイント(1)サンプル数は少ないところからはじめます。
サンプルが多ければ多いほど良いからといって最初から数百店調べようとする人がいます。
これは、統計解析を少しかじったことがある人に多く陥る罠です。確かに、理論上はこの通りなのです。10サンプル(10店舗)でモデルを作るより、20サンプル、30サンプルで作った方が高い精度の売上予測モデルを作ることができます。
しかし、だからといって、最初から100サンプル、あるいは全店300サンプルを使ってモデルを作ろうとするのは実践的ではありません。
業種業態によって、良い立地、悪い立地というのは微妙に、あるいは大きく異なってきます。
立地条件をどのように定義するか、どのように数値化するかで出来上がるデータは異なってきます。それなのに、一律にこういうデータで行こうと決めつけて、データ収集をしてしまうとそれが間違っていたような場合、すべて、調査し直しということになります。
30店くらいだったら、取り直しもさほど苦ではないかもしれませんが、数百店ではとても簡単にはできるものではありません。
少ない数から始め、どのような立地データが役立つかわかるようになってきてからだんだんとサンプルを増やしていくことをお勧めします。
分析ポイント(2)データには必ずミスが入り込む。
どんなデータであっても、その調査、加工、分析は人間が行うものですから、その途中で必ずミスが入り込むものです。ですから、一つデータを作ったら必ず見直す習慣を付けましょう。
データの入っていない項目はないか、データが1行、1列ずれていないか、数字でなくて文字が入ってしまっているデータがないか、店舗名と照合して常識的なデータが入っているか(たとえば、A店は大型店なのに、面積として入力されたデータが小さければ、そのデータは間違っていると推測できますね)、
また、データを分析にかけた後のタイミングとして、分析者にとって、ひじょうに都合の良い結果が出たときは、まずそのデータを疑ってみることです。「本当にこのデータは正しいのだろうか」と疑うのです。どんなに疑っても問題がないことがわかって初めて喜びましょう。
分析ポイント(3)内部相関の高いデータは使わない
内部相関というのは、説明変数同士の相関のことです。目的変数(売上)となるべく高い相関のある説明変数を見つけましょうと前回書きました。
しかし、その説明変数が、他の説明変数とひじょうに高い相関があってはいけないのです。
例えば、仮に、「商圏人口」が売上と高い相関があったとします。この場合、人口ではなく、世帯数データを別の説明変数として用いたとしたらどうなるでしょう。往々にして、このデータが増えることによって、急に全体の重相関係数が上がります。そういう場合は、仮に、これを「10歳~14歳男性人口」や「1人世帯数」に変えても同様のことが起きます。
なぜかというと、これらのデータ同士の相関は、0・97とか0・99のようにひじょうに高いために、「マルチコ」という異常を起こすからです。マルチコが含まれているモデルは精度がとても落ちてしまいます。
マルチコを防ぐには、2個目の説明変数を探すところから、目的変数との相関を見るのではなく、残差(=実績値-理論値)との相関を見るようにしていくことをお勧めします。
それでも、内部相関が高い変数同士ができてしまうのは致し方ないことです。おおむね0・7くらいまでは許容することもあります。
分析ポイント(4)説明変数は少ないほど良い。
1つのモデルを作るために、大量のデータを用意しさえすれば早く作れると思い込んでいる人がいますが、これは間違いです。
最初にどんなに多くのデータがあっても、それらの内部相関が高ければ、それ全部を使うことはできません。つまり、人口や世帯数に関連したデータはどんなに多くあっても一つしかないのとほとんど同じです。
また、詳しい説明は省きますが、説明変数は、[サンプル数-1]より少なくなければなりません。つまり、10サンプルならば、説明変数が9個あってはいけないという意味です。この場合は、どんな重回帰分析ソフトもエラー(計算不能)に陥ります。8個までです。
この延長として、説明変数に加工される前のデータ項目の数も、サンプル数を超えてはいけません。この点はよく見落とされるので注意が必要です。
分析ポイント(5)後からデータを無根拠に改変するのはNG
分析者は『このデータが「2」でなく、「3」であったら、残差が縮まり都合がいいのになあ』というような誘惑にかられることがしばしばあります。
しかし、データの改変はご法度です。
データを見直したら計算ミスを見つけたというなら良いのですが、何の根拠もなくデータを変えてはいけません。大きな残差が出てくるのは、正確にやればやるほど仕方がないことです。
むしろ、大きな残差が出てくれるおかげで、私たちは、立地上の新しい発見ができるというものです。その発見の機会をみすみす逃すのはもったいない話ですね。
分析ポイント(6)まずは、常識をきかせること
重回帰分析で出てくる係数のプラス・マイナスに注意することです。たとえば、その説明変数が、売上に寄与するものであるならば(例えば、商圏人口、TGからの視界性評価など)、係数はプラスであるはずです。逆に、売上に制約を与えるものならば、マイナスのはずです。
その典型的なものは、競合店の存在です。競合店があればあるほど、それは自社店舗の売上を抑制するものです。つまり、競合についての説明変数の係数はマイナスになる。そう考えるのが妥当です。
しかし、プラスになってしまうことがたびたび見受けられます。こういう場合は、説明変数に組み込まないことが肝要です。ただし、特殊な手法で納得のいく説明変数が作られる場合もありますので諦めないことです。
分析ポイント(7)サンプル店舗は統計的にうまく絞ること
冒頭にあったように、百~数百店舗を有しているチェーン店の場合は、30~40サンプルくらいに店舗を絞る必要があります。
この場合の絞り方は重要です。単に、行動範囲を短くして効率的に調査できるようにしようと近い店同士を選んだり、面積が似通っている店だけ選んだりというのは避けた方が良いでしょう。
最もお勧めの絞り方は、ランダムに選ぶことです。そして、その上で、全店における売上の平均値と標準偏差という統計値、絞ったサンプルにおけるそれらの統計値がなるべく似通っていることです。
分析ポイント(8)サンプル店舗を削ってはいけない
重回帰分析をすすめていくと、必ず1つや2つどうしても、残差が大きいままで、合理的な立地要因が見つからないというサンプルが出てくるものです。そうすると、データの改変はしないものの、そのサンプル自体を削ってしまう人が出てきます。
これも間違っています。すでに書いたように、今見つからないからといって、何らかの要因は必ずあるはずです。だから、残差が出ているわけで、これは、新発見の前段階かもしれないのです。ですから、取り除いてしまってはいけません。
どうしても、こういう大きな残差が残っているのが感覚的に受け入れられないというのであれば、「D店指数(仮称)」という説明変数を作って加えることです。この指数は、残差の大きいD店だけに「1」というデータを入れ、他のサンプルはすべて「0」にしておくものです。こういう変数をダミー変数と言いますが、この変数を入れることで、「大きな残差」は消えます。もちろん、原因が見つかったわけではありませんので、後日、調べなければなりません。
分析ポイント(9)相関係数に拘り過ぎてはいけない
重回帰分析では、サンプルに使った既存店の売上実績と予測モデルで算出される売上理論値との相関係数が計算されます。これが1.00に近づけば近づくほど、各サンプル店の残差は小さくなり、見かけの精度は高くなります。
しかし、ここが盲点です。確かに見かけの精度は高くなりますが、そのために説明変数の作り方に相当な無理がかかります。
ひじょうに恣意的なデータになってしまったり、必要以上に多くのデータを使ったものになったり、つまり、意味のない精度アップをしているおそれがあります。
売上予測モデルは実践で活用したときに、高い精度で予測できなければ何の意味もありません。
既存店、しかもサンプル店の精度に拘っているよりも、正しいデータ、正しい説明変数を入れて高い精度の予測ができれば良いのです。筆者は個人的には、売上予測モデルの相関係数は0・85もあれば十分だと考えています。0・95を超えるようなモデルは作らないほうが無難だと思っています。
分析ポイント(10)コンピュータ(ソフトウェア)に任せきりにしない
重回帰分析に用いるソフトウェアの中には、「自動選択法」という機能がついていて、たくさんの説明変数の中から、統計的に間違っていないと言える説明変数だけを見つけてくる。
やや詳しく言うと、ある説明変数をモデルに加えて、相関係数が高くなるなら採用し、低くなるなら不採用とする機能です。人間は何も考えないで良いので、便利で簡単です。
しかし、こうして出てくる売上予測モデルは、だいたいが、箸にも棒にもかからないシロモノになります。競合指標の係数がプラスだったり、商圏人口がマイナスだったり。
一つ一つの説明変数を見ながら、残差の大きいサンプルを照らしながら人間が一歩一歩分析していく方が必ず良いもの(精度の高いもの)ができるものです。
まとめ
以上、10つの分析ポイントを挙げましたが、これらは典型的なものばかりで、実際に分析するとなると次々と注意しなければならないことが出てきます。しかし、それらは分析を多数行っていくうちに自然とクリアーできるでしょうし、もし、そうならなければ、分析のセミナーに行ったり、熟達者を探して聞いたりすることをお勧めします。
さて、今回で、昨年4月号から始まった“売上予測ができるようにしよう”という連載は一区切りとさせていただきます。次回からは、また、立地の基礎、原則について改めてお話ししていく連載と致しましょう。
(プロフィール)
林原安徳はやしはら やすのり
売上予測のプロ。経営コンサルタント。1956年さいたま市生56才。 東大(農)卒後、日本マクドナルド(株)出店調査部にて、「立地と売上予測」を基礎研究。退社独立後、理論を独自に深耕させSORBICS(ソルビクス)と命名。これに基づき、チェーン展開する多くの企業や個人を指導。主な著作「実践・売上予測と立地判定」(商業界)「最新版 これが繁盛立地だ!」(同文舘出版)。無料メルマガを配信中。http://www.sorb.co.jp
重回帰分析 10のポイント
(1)サンプル数は少ないところからはじめます。
(2)データには必ずミスが入り込む。
(3)内部相関の高いデータは使わない。
(4)説明変数は少ないほど良い。
(5)後からデータを無根拠に改変するのはNG
(6)まずは、常識をきかせること
(7)サンプル店舗は統計的にうまく絞ること
(8)サンプル店舗を削ってはいけない
(9)相関係数に拘り過ぎてはいけない
(10)コンピュータ(ソフトウェア)に任せきりにしない
統計てきめん2プレミアのダウロードサイト
統計てきめん2プレミアの紹介動画5分
林原安徳:有)ソルブは、立地と高精度/売上予測で「不振店」を根絶します。
東京都港区南青山2-2-15 ウィン青山942 有限会社ソルブ
電話 03-3538-6603 メール問合せは、こちら
◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆