« 2014年5月10日 | トップページ | 2014年5月24日 »

2014年5月16日

2014.05.16

中小企業でも統計センスを磨こう

多くの中小企業では、統計的な判断で、ビジネスを進めること、統計センスを
企業判断に持ち込むことはほとんどない。
経営トップの勘と経験”に頼った意思決定が基本であり、それが、当たり前の
世界でもある。
しかし、市場の動きが速くなり、その構造も複雑化することで、過去の成功体験が
通用する領域がドンドン狭くなっているのも、事実である。きちんと科学的に
検証可能な“事実”に基づいて、的確な意思決定を行っていかなければ、企業経営
すら脅かす失敗をもたらしかねない局面が増えている。

逆にデータを分析すれば、適切な意思決定を行うための判断材料を生み出せる上、
新しい市場や見えなかったニーズ、未来に向けた戦略など、これまで成し得なかった
ビジネスへの進化を起こすことも可能ではないのだろうか。
玉石混交の様々な情報や主張があふれている現代で、情報を客観的に吟味できる統計
センスとそのリテラシーが非常に強力かつ重要であり、「主観的な判断」「恣意的な
判断」「都合のいい判断」を防止することがビジネスとしても重要である。

1.データマイニングとは
小売店の販売データや電話の通話履歴、クレジットカードの利用履歴など、企業に
大量に蓄積されるデータを解析し、その中に潜む項目間の相関関係やパターンなど
を探し出す技術。従来は、こうした取引の「生データ」は、経理処理に必要なだけ
で活用されていなかったが、情報技術の向上により、潜在的な顧客ニーズが眠る
「鉱山」として「採掘(mining)」されるようになった。
よく引き合いに出されるのが、スーパーの販売データをデータマイニングで分析
することにより、「ビールを買う客は一緒に紙オムツを買うことが多い」「雨の日は
肉の売上が良い」など、項目間の相関関係を見つけることができる。
また、クレジットカードの利用履歴を解析することにより、不正使用時に特徴的な
パターンを見つけ出し、あやしい取引を検出するなどの応用も考えられる。
ここで、そのやり方を少しコメントする。
①相関ルール抽出
データベースに蓄積された大量のデータから、頻繁に同時に生起する事象同士を相関の
強い事象の関係、すなわち相関ルールとして抽出する技術。
例1 スーパーでビデオを買った人のうちガムテープを買う人が多い → 両者を同じ場
所に置く。
例2 本Aを買う人は、後に本Bを買うことが多い → 本Aの購入者に本Bを薦めるダイレ
クトメールを送る。
その他の頻出パターン、時系列やグラフを対象としたものもある。
②クラス分類
クラス分類は与えられたデータに対応するカテゴリを予測する問題。
例:薬品の化合物のデータから,その化合物に薬効がある・ないといったカテゴリ
を予測する。
③回帰分析
与えられたデータに対応する実数値を予測する問題
例:曜日、降水確率、今日の売上げなどのデータを元に、明日の売上げという実数値
データを予測する。
④クラスタリング
データの集合をクラスタと呼ぶグループに分ける。
クラスタとは、同じクラスタのデータならば互いに似ていて、違うクラスタならば
似ていないようなデータの集まり。
例:Webの閲覧パターンのデータから、類似したものをまとめることで、閲覧の傾向が
同じ利用者のグループを発見する。

これらは、ECサイトの効果を知るためのA/Bテストやダイレクトメールの
メッセージとデザインを何度かランダムに送り分け、そのうち最も反応が良かったもの
を全面展開するなど身近にも活用されている。
特に、回帰分析は、我々のビジネスにも、直接応用できる。

2.統計センスを高める。
企業ではよく、エクセルやBIツールを使って一生懸命きれいな円グラフを作る。
会議ではそれを見ながら経営方針を決めたりしているが、グラフ化は単なる「集計」
であって「分析」ではない。単なる「見える化」をしただけでは、グラフが見えた
としても、誰もがその内容まで理解しているわけではない。「その数値が何を
示していて、どう行動したらどれくらい利益が上がるのか」という判断を出せること
こそが重要である。
この様に、具体的な意思決定、アクションにつながるプロセスを科学的根拠に基づいて
導き出すのが統計やアナリティクス(分析)であり、まずは、その様な統計データ
を使っていく、企業文化の醸成が必要である。

データはある、でもそこから何が分析できるのか分からないという企業に、具体的な
アクションを起こさせるきっかけ創りは必要となる。社内に分析の専門家がいないなら
外部の知恵を借りてもいいし、サンプルデータで「このあたりの領域が重要だ」と
判断したら、すぐに分析を開始し、方向性と仮説を検証しながら、全社レベルの
データまで対象を広げていくことが肝要である。
その結果を、現場の人も含め、共有していくと「これならいけるんじゃないか」と
盛り上がる場面が多々出てくる。そうやって具体的な施策を打ち出しながら、企業文化
を変えていくことも重要なポイントでもある。

3.統計スキルを高める幾つかのキーワード
ビジネスで必要となる定量分析は、正規分布、標準偏差、Z値、T値、P値、標準誤差
などの統計学の基礎知識だけ知っていれば、統計センスアップと必要とされる
統計分析はできるものである。ただ、中々、取り組みにくいかもしれないが。

①正規分布とは平均を中心として、左右対称にばらけている分布を指す。
エクセルでNORMINV関数やNORMSDIST関数を使うことで、標準正規分布表や正規分布の
グラフを描くことができる。
正規分布は自然現象の多くがこのような分布に従っていることが知られており、「分布
が正規分布に従っている前提で、その事象が発生する確率は何%である」といった計算
の前提となる。
②標準偏差
正規分布の横軸の目盛りが標準偏差となる。標準偏差はσ(シグマと読む)。
正規分布では、1標準偏差の中に全体の分布の34.1%にあたるデータが含まれる。
したがって、中心から両側1標準偏差をとると全体の68.3%のデータが含まれる
ことになり、平均から両側1標準偏差とると全体の2/3、2標準偏差( 2σ)で
95%、となる。ちなみに標準偏差はZ値はとも呼ばれる。
また、標準偏差を2乗すると分散が求められる。
③標準誤差とは?
標準誤差とは統計処理によって算出された値が、どれ程確からしいかを標準偏差で表し
たもの。
例えば、日本人の成人男性の身長の分布を算定するのに、ランダムに集めた30人の平均
でとるのか、それとも3万人のデータをもとにして計算するのか、または実際に日本人
の成人男性全員のデータで計算するのか、結果が異なる。
30人の場合は、たまたまその中に背の高い人が何人か混じっていれば平均値は大きくな
るし、サンプル数が小さければ小さいほど、そのような個別の特殊事情が反映され
る可能性が高くなる。一方、多くのデータを入手することがコストがかかったり、
手間がかかったりするので、できるだけ小さな数字で計算できれば楽である。
そこで、許容範囲内のずれかどうかを確認しながら、できるだけ少ないデータで
統計処理を行うためにこの標準誤差が使われる。
④P値とは?
P値とは、統計処理により計算された値の本当の答えがゼロである確率をさしている。
すなわち、実際には、何の差もないのに、誤差や偶然によって、たまたま、データ
のような差が生じる確率であり、通常は、5%以下を考える。
例えば、右足と左足の大きさから慎重を説明した回帰分析モデルが、重回帰式の
各項がそれぞれ意味がないかもしれない確率(=P値)の大きさを示している。
あるP値が29%ある場合、これの係数-3.64478が本当はゼロである確率が29%
あることを示している。回帰分析の手続きとしては、まずこのP値が大きい変数
から削除していき、全ての変数のP値が5%以下になったところで変数を確定させ
るのが一般的に行われる。
⑤t値とは?
t値は平均値から何個の標準偏差分離れているかを表す。
すなわち、2平均の差の検定であるt検定の、結果を表すものがt値で、そのt値が
絶対値で大きくなればなるほど「2平均の差がないことはない」確率、すなわち
「2平均に差があるといえそうな」確率が高くなり、有意差があるといえる。
⑥重回帰分析とは?
重回帰分析とは変数が複数ある回帰分析を意味し、エクセルによる重回帰分析の
ポイントは、正しい説明変数(Y=aX1+bX2でいうXのこと)を選択することにつきる。
例えば、回帰分析によるデータ分析の事例として、アパートの家賃を
総面積、部屋数、風呂数、、セキュリティー対策、駐車場の有無、駅からの距離
バス路線の有無、築年数で説明させる回帰分析を実施する場合など。

4.自身で統計データを分析する
まずは、回帰分析を体験的に行うのが良いかもしれない。
1)何のために回帰分析を行うのか整理する
何がどの程度の影響を及ぼす、のかについて分析する為の回帰分析なのか、
将来の予想モデルとしての回帰分析なのか?をはっきりさせる。
将来を予想するモデルでは、変数自体が将来どうなるかわからないようではモデル
ができたとしても役に立たない。
2)十分なデータ数のある変数の候補をできるだけ多く集める
十分なデータ数とは変数の数の15倍以上が目安。変数を2つ取った場合、1つの
変数に必要なデータ数は30程度。
5倍以下のデータ数ではデータ分析は難しいといわれている。
相互に高い相関関係にある変数でもって回帰分析を行うと「マルチコ
(Multicollinearity)」という事象が発生する。
相互に相関関係が高い変数でもって、回帰分析を行うと、
・係数の符号が正しく出ない
・t値が本当より小さく出てしまう
・少しのデータの変化で回帰分析の結果出てくる係数が大きく変わってしまう。
という事象が発生し、回帰分析を難しくする。
4)エクセルのツール→データ分析→回帰分析から回帰分析をおこなう。
エクセル回帰分析結果の読み方を理解しておくことも重要である。

分析のツールとしては、Excelは必須。レポーティングは必要であり、その点で
Excelは以前として使いやすさ・結果の見やすさ・覚えやすさのどれを取っても
バランスが取れている。
また、Excelだけでは追いつかないケースもちらほら散見されるから「R」が有効。
無料であり、OSS同様に世界中のコミッターが最新パッケージをどんどん提供して
くれるのでいつでも最新手法に触れられるというのも大きい。

5.統計センスを更に高める
以前なら処理できずに捨ててしまっていた膨大なデータも、ITの進化で低コストに
収集・蓄積できる時代になった。だが、このデータを“宝”にするか“ゴミ”と
して埋もれさせてしまうかが、ビッグデータ利活用では問われている。
データが“宝”になるか“ゴミ”で終わってしまうのか。その重要なポイントは
「分析のゴールをきちんと設定する」こと。自社にはどんな課題があり、分析結果を
どう経営に結びつけていくのか、そこから逆算して考えた方が投資対効果は
大きくなる。そのためにまず必要なのは、分析や統計のリテラシーを持つ人間
や企業文化を育てること。
また、「データから価値を生み出す」なら、まずは経営者自身で体験をしてみること
が必要かもしれない。経営者としてのめざすべきゴールは利益を上げることであり、
今あるデータの中で、何が利益とつながっていそうなのか、トライ&エラーを繰り
返しながら仮説を検証していく。

莫大なデータの中に隠された意味を解釈し、最適な利活用のシナリオを描き、実用化
していくには、適用業務を踏まえたデータやツールの活用方法、データを利用し
たビジネスモデル構築までの道筋を的確にナビゲートできる「総合力」が欠かせない。

例えば、「購買」向上について考えると、その背後には、ウキウキした人は商品を
買いやすいという「心理要因」や魅力的な広告に触れた人は購買しやすいという
「広告接触」、カワイイイメージや信頼感という「ブランド力」などは動かす
ことが可能な説明変数となるため、それに向けた商品作りにアクションを行うことが
基本的なやり方である。
一方、「性別」や「年齢」、「世帯収入」などは動かせない説明変数となるため、
結果につなげるためには狙い所をずらすという方法もある。女性や高齢の人も訪れ
やすい店構えに変えるとか、安価な商品のラインナップを増やすなど、原因を遡り、
簡単にコントロールできる地点にまで落とし込めば売上に結びつく可能性がある。
更に、「在庫ロス」という動かせない結果に対して、説明変数が「季節」、「景況
指数」、「仕入れ数」の場合はどうするか。季節と景況指数はずらすことさえ
できないが、仕入れ数は状況に合せて制御できるため、在庫の変動予測に従って
仕入れ数を最適化することができれば、データ分析からの価値が生まれる。

多くの企業では、何気ない毎日の仕事が、会社のどんな貢献につながっているのか
あまり意識していない。データを見てみることで、会社の中でのメンバーシップ
意識が高まり、やりがいが生まれるのではないかと思う。

« 2014年5月10日 | トップページ | 2014年5月24日 »

最近のトラックバック

2017年11月
      1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30    
無料ブログはココログ