東京都港区南青山2-2-15
売上予測は統計学と常識に支えられている
WIKIによると、「統計学は、経験的に得られたバラツキのあるデータから、応用数学の手法を用いて数値上の性質や規則性あるいは不規則性を見いだす。統計的手法は、実験計画、データの要約や解釈を行う上での根拠を提供するため、幅広い分野で応用されている[1]。」とある。
重回帰分析による売上予測は、まさしく統計学に支えられている。
たとえば、説明変数を選ぶときに、これが顕著に表れる。
もちいた説明変数が、第一には、立地や営業についての常識に照らして、つじつまが合うことは重要である。
「店舗面積が大きいほど売上は上がる」、「視界性評価が高い方が売上は上がる」、「競合店が少ないほど売上は上がる」、「周辺人口が多いほど売上は上がる」などの常識と反していれば、その説明変数は速攻で不合格である。
しかし、そうした常識に基づいた判断基準だけでは、モデルは作れない。
ここに、統計学からの判断基準が入る。
すなわち、「偶然起きていることではない」という判断に統計学が用いられているのである。
たとえば、上記の常識で、「店舗面積が大きいほど売上が上がる」という常識も、それが、たまたまの偶然ですよ、という結果が得られたら、不採用となる。
この偶然性の判断は、具体的には「t値(ティーチ)」のことである。
t値が、1未満であったら(負の数になったときは -1~0)不合格、つまり「たまたまそうなったに過ぎない」ことになる。
もちろん、このt値を分析者が計算する必要はない。
重回帰分析を実行したとき、説明変数の係数などとともに、自動的に計算されて出てくる。
なぜ、t値が1未満の時は不合格、「たまたま」ということになるのか。
この理由を説明しよう。
まず、
t値は、係数÷標準偏差(係数のバラツキ具合)という式で定義されている。
したがって、t値が1より小さいということは、係数はそのバラツキより小さいということである。
仮に、重回帰で求めたある説明変数の係数が「3」であったとしよう。そして、t値は1より小さい「0.5」であったとする。
この場合、標準偏差=係数のバラツキ具合 は、定義から 「6」 ということになる。
(t値は3÷6=0.5 である)
バラツキが「6」であるということは、係数の値は、3に対して、プラスマイナス6の間に真の値があるということを意味している。
(この場合の3は「中央値」と呼ぶ。)
これは、係数が 3-6 から 3+6、つまり、-3から +9 の間にあるということだ。
つまり、係数はその中央値として、一応 3というプラスの値になっているが、本当は マイナスになっている可能性も否定できないということだ。
係数の符号が反対になる可能性があるということは、先ほどの「常識」と反することも考えられる。いまは、その中央値としての係数はプラスだけれど本当はマイナスかもしれないということだ。
そういうわけでt値は、統計学から得られた重要な基準である。
そして、t値に関して、次の基準が設けられている。
t値は「2」以上が望ましい。2以上あれば採用してもほぼ問題がない。
しかし、「1」未満であれば、速攻で不合格にすべきだ。
では、1以上2未満 はどうか。これは、分析者の考え方次第で、採用しても良い。ということになっている。
こうやって、重回帰分析を使った売上予測モデルは、立地等の常識と、統計学の指標の2通りの基準を用いて組み立てていくことになる。
東京都港区南青山2-2-15 ウィン青山942 有限会社ソルブ 電話 03-3538-6603 メール問合せは、こちら ◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆
24/09/08
23/06/12
22/05/20
TOP
WIKIによると、「統計学は、経験的に得られたバラツキのあるデータから、応用数学の手法を用いて数値上の性質や規則性あるいは不規則性を見いだす。統計的手法は、実験計画、データの要約や解釈を行う上での根拠を提供するため、幅広い分野で応用されている[1]。」とある。
重回帰分析による売上予測は、まさしく統計学に支えられている。
たとえば、説明変数を選ぶときに、これが顕著に表れる。
もちいた説明変数が、第一には、立地や営業についての常識に照らして、つじつまが合うことは重要である。
「店舗面積が大きいほど売上は上がる」、「視界性評価が高い方が売上は上がる」、「競合店が少ないほど売上は上がる」、「周辺人口が多いほど売上は上がる」などの常識と反していれば、その説明変数は速攻で不合格である。
しかし、そうした常識に基づいた判断基準だけでは、モデルは作れない。
ここに、統計学からの判断基準が入る。
すなわち、「偶然起きていることではない」という判断に統計学が用いられているのである。
たとえば、上記の常識で、「店舗面積が大きいほど売上が上がる」という常識も、それが、たまたまの偶然ですよ、という結果が得られたら、不採用となる。
この偶然性の判断は、具体的には「t値(ティーチ)」のことである。
t値が、1未満であったら(負の数になったときは -1~0)不合格、つまり「たまたまそうなったに過ぎない」ことになる。
もちろん、このt値を分析者が計算する必要はない。
重回帰分析を実行したとき、説明変数の係数などとともに、自動的に計算されて出てくる。
なぜ、t値が1未満の時は不合格、「たまたま」ということになるのか。
この理由を説明しよう。
まず、
t値は、係数÷標準偏差(係数のバラツキ具合)という式で定義されている。
したがって、t値が1より小さいということは、係数はそのバラツキより小さいということである。
仮に、重回帰で求めたある説明変数の係数が「3」であったとしよう。そして、t値は1より小さい「0.5」であったとする。
この場合、標準偏差=係数のバラツキ具合 は、定義から 「6」 ということになる。
(t値は3÷6=0.5 である)
バラツキが「6」であるということは、係数の値は、3に対して、プラスマイナス6の間に真の値があるということを意味している。
(この場合の3は「中央値」と呼ぶ。)
これは、係数が 3-6 から 3+6、つまり、-3から +9 の間にあるということだ。
つまり、係数はその中央値として、一応 3というプラスの値になっているが、本当は マイナスになっている可能性も否定できないということだ。
係数の符号が反対になる可能性があるということは、先ほどの「常識」と反することも考えられる。いまは、その中央値としての係数はプラスだけれど本当はマイナスかもしれないということだ。
そういうわけでt値は、統計学から得られた重要な基準である。
そして、t値に関して、次の基準が設けられている。
t値は「2」以上が望ましい。2以上あれば採用してもほぼ問題がない。
しかし、「1」未満であれば、速攻で不合格にすべきだ。
では、1以上2未満 はどうか。これは、分析者の考え方次第で、採用しても良い。ということになっている。
こうやって、重回帰分析を使った売上予測モデルは、立地等の常識と、統計学の指標の2通りの基準を用いて組み立てていくことになる。
統計てきめん2プレミアのダウロードサイト
統計てきめん2プレミアの紹介動画5分
林原安徳:有)ソルブは、立地と高精度/売上予測で「不振店」を根絶します。
東京都港区南青山2-2-15 ウィン青山942 有限会社ソルブ
電話 03-3538-6603 メール問合せは、こちら
◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆