仮説について考えてみた
データ分析に限らず、生きていく中で「〜かもしれない」「〜だろう」と推理・憶測・予想して行動することはよくありますよね。
ただ、これがいつしか「〜に違いない」「きっとそうだ」と不十分な根拠をもとにした断定に変化してしまっていることもあり、"仮説とバイアス"は紙一重なのではないかとよく考えています。
育ってきた環境が違うから〜♪とはよく言ったもので、当人の常識や正義、文化、性格、宗教観などから仮説をたてるとどうしても少なからずバイアスは含んでしまう…。
これは、マンガ「チ。」を読んでいるととても感じます。
どんなマンガか簡単に説明すると、天動説と地動説どっちが正しいのかを極めて科学的なステップで検証していき、それを書物として継承していきながら、天動説を唱える偉い人たちに立ち向かっていく話でむちゃくちゃ面白いです。日々、アナリストやデータサイエンティストが業務で戦っているそれに近しいものを感じます。
今でこそ地動説が正しいと知っているから主人公たちの立場に立って読めるけど、実際その時代にいたら自分はどっちの側に立つのだろうと考えたら長いものに巻かれてしまう方を選ぶだろうな。。。
物語の中でこの天動説を唱える偉い人たちは地球が動いているわけがないと言っていて、そしてそれが世の常識で、街の人々もそれを疑わない(疑えない)んです。
まさに偉い人が言っているのだから間違いないという権威バイアスがあり、さらに研究者たちも結論ありきで検証していくという確証バイアスもある。
人間たるもの自分を否定する結果は受け入れたくないし、何かの間違いだと思いたくなりますよね。
では、バイアスを含まず仮説はたてられるのか…というと正直完全に取り除くことは難しいし、取り除く必要もないと思ってます。人間なので。
だからこそ、いろんなバックグラウンドがある人たちでブレストして意見を出し合って、確からしいいくつかの仮説を出して、検証していく必要があるのだと思います。
実際、チ。でも数少ない仲間と何日も何日も観察を続け、仮説をたてて、検証して、観察して、…を延々と繰り返しています。実に科学的なプロセスですよね。
データサイエンティストのことを難しい数式を解いている人と思いがちですが、データ分析の基本は観察と検証であり、その土台の上に数学があるというイメージです。
最近、「仮説のつくり方」という本を読んでいるのですが、まさに先述したような"仮説って一言で言うけどなんなのさ"ってところを上手く説明してくれている本でした。
数式が多めですが、物理や生物、地学など理科が好きな人にとってはかなり面白い角度から「仮説とは?」を知ることができると思います。
本の中にもあったのですが、仮説になる前の前段階仮説(仮の仮説)ってあると思っていて、
・前段階仮説:勘や経験からくる仮説
・仮説:検証を重ねていく中で洗練された仮説
上記のように考えています。
この2つをごちゃごちゃにしたまま話すとアンジャッシュのコントくらい絶妙に話が噛み合わないので、相手がどの段階の仮説を話しているのか知るためにも最初のブレストはかなり重要かなと思っています。一人で分析をするとしてもやった方がいいと思います。思考が整理されます。ついつい初手でデータを見てしまいがちですが、急がば回れです。
まとめ
- 仮説とバイアスは紙一重
- 仮説には前段階仮説と仮説がある
- データ分析の基本は観察と検証
- 「チ。」はおもしろいぞ
データ分析は上流にいけばいくほど考えることが多角的で、かつ、考えられる自由度も大きいと思います。
一般論やドメイン知識をもとにした仮説を列挙して前段階の検証し、得られた筋の良い仮説をもとに分析設計をして、「なにが言えて」「なにが言えないのか」を整理していく。
仮説を基に演繹と帰納を行ったり来たりして、汎化性能が高い(再現性が高い)理論を構築していくことがアナリストやデータサイエンティストの本分なのかなと思います。(アナリストはデータサイエンティストよりも課題ヒアリングや現場適用などコンサル要素の比重が高いかも)
- 一般論やセオリーから仮説をたてて検証
- 1.の理論が木でのみ成り立つのか、森まで拡げても成り立つのかを検証
引用:https://dyzo.consulting/3535/
まずは筋が良い仮説をたてられるように観察観察ぅ!!