Books-Science: 2013年3月アーカイブ

統計学が最強の学問である

2013年3月10日 23:59 daiya | 個別ページ | トラックバック(0)

学生時代は当たり前に理解していても、営業、企画、経営、ーケティングみたいな文系社会人になってしばらくすると、理系の知識って忘れてしまうものだ。典型的なのが数字の読み方だと思う。ビッグデータやデータ分析が話題になる昨今、会議で、え、それ違いません？学校で習ったような、ということがよくある。この本でビジネスで使う統計について、ばっちり整理できる。おすすめ。

たとえばビッグデータは必要なのか、サンプリングで間に合うのではないかという疑問。。サンプルを１万増やしても、標準誤差は０．３％しか変わらないようなケースは多々ある。

「サンプル数が１００名分しかなければその標準誤差は９．５％にもなり、得られた「顧客に占める女性の割合が７０％」という結果が実際には女性の割合が５１％～８９％と考えてほぼ間違いない」という解釈になってしまう。しかし、1000名いれば標準誤差は３％となり「女性の割合が６４％～７６％と考えてほぼ間違いない」、8000名を超えて標準誤差が１％となると「女性の割合が６８％～７２％と考えてほぼ間違いない」ということになる。　そして逆に、このあたりから先は、「サンプル数を倍に増やしてもあまり誤差が小さくならない」ということになっている（なお、1万名分を使っても標準誤差は０．９％で、２万名分でも０．６％にしかならない）。」

データに対する投資を決めるに際してこういう数学は当然おさえておかなければならない。定量的な判断をするときには、適正なデータ規模が存在する。（逆に定性的な分析も含めてロングテールからユニークな事例を取り出したいときにはデータは多ければ多いほどよいかもしれない。）。

分析にあたってランダム化比較実験のような統計的アプローチを使うべきか、クラスタリングのようなデータマイニングのアプローチを使うべきか？も現場で迷うポイントだ。「予測それ自体がゴールなのであればデータマイニングは有効である。」「予測モデルから今後何をすべきかを議論したいのであれば、回帰モデルのほうが役に立つ」など、本書のガイドラインは指針になる。

データの信頼性から4階層に分かれるエビデンスとして、　メタアナリシス・系統的レビュー　＞　ランダム化比較実験　＞　疫学・観察研究　＞　専門家の意見・基礎実験　
というヒエラルキーピラミッドの図が示されている。今は論文検索なども充実してきたから、最高位のメタアナリシス・系統的レビューはもっと重視されるべき方法論だろう。低線量の放射線内部被ばくは危険なのか？とか、専門家でも意見が分かれる複雑高度な事柄で、メタレベルの知をとることができる。

« Books-Science: 2013年1月 | メインページ | アーカイブ

このページには、2013年3月以降に書かれたブログ記事のうちBooks-Scienceカテゴリに属しているものが含まれています。

前のアーカイブはBooks-Science: 2013年1月です。

最近のコンテンツはインデックスページで見られます。過去に書かれたものはアーカイブのページで見られます。

Books-Science: 2013年3月アーカイブ

統計学が最強の学問である

このアーカイブについて

Books-Science: 2013年3月: 月別アーカイブ

検索