Books-Science: 2013年3月アーカイブ

・統計学が最強の学問である
41MBjnL4zcL._AA300_.jpg

学生時代は当たり前に理解していても、営業、企画、経営、ーケティングみたいな文系社会人になってしばらくすると、理系の知識って忘れてしまうものだ。典型的なのが数字の読み方だと思う。ビッグデータやデータ分析が話題になる昨今、会議で、え、それ違いません?学校で習ったような、ということがよくある。この本でビジネスで使う統計について、ばっちり整理できる。おすすめ。

たとえばビッグデータは必要なのか、サンプリングで間に合うのではないかという疑問。。サンプルを1万増やしても、標準誤差は0.3%しか変わらないようなケースは多々ある。

「サンプル数が100名分しかなければその標準誤差は9.5%にもなり、得られた「顧客に占める女性の割合が70%」という結果が実際には女性の割合が51%~89%と考えてほぼ間違いない」という解釈になってしまう。しかし、1000名いれば標準誤差は3%となり「女性の割合が64%~76%と考えてほぼ間違いない」、8000名を超えて標準誤差が1%となると「女性の割合が68%~72%と考えてほぼ間違いない」ということになる。 そして逆に、このあたりから先は、「サンプル数を倍に増やしてもあまり誤差が小さくならない」ということになっている(なお、1万名分を使っても標準誤差は0.9%で、2万名分でも0.6%にしかならない)。」

データに対する投資を決めるに際してこういう数学は当然おさえておかなければならない。定量的な判断をするときには、適正なデータ規模が存在する。(逆に定性的な分析も含めてロングテールからユニークな事例を取り出したいときにはデータは多ければ多いほどよいかもしれない。)。

分析にあたってランダム化比較実験のような統計的アプローチを使うべきか、クラスタリングのようなデータマイニングのアプローチを使うべきか?も現場で迷うポイントだ。「予測それ自体がゴールなのであればデータマイニングは有効である。」「予測モデルから今後何をすべきかを議論したいのであれば、回帰モデルのほうが役に立つ」など、本書のガイドラインは指針になる。

データの信頼性から4階層に分かれるエビデンスとして、 メタアナリシス・系統的レビュー > ランダム化比較実験 > 疫学・観察研究 > 専門家の意見・基礎実験 
というヒエラルキーピラミッドの図が示されている。今は論文検索なども充実してきたから、最高位のメタアナリシス・系統的レビューはもっと重視されるべき方法論だろう。低線量の放射線内部被ばくは危険なのか?とか、専門家でも意見が分かれる複雑高度な事柄で、メタレベルの知をとることができる。

このアーカイブについて

このページには、2013年3月以降に書かれたブログ記事のうちBooks-Scienceカテゴリに属しているものが含まれています。

前のアーカイブはBooks-Science: 2013年1月です。

最近のコンテンツはインデックスページで見られます。過去に書かれたものはアーカイブのページで見られます。

Powered by Movable Type 4.1