データ分析って何のためにするんでしょうね?
何かを予測する為でしょうか?
何かを説明する為でしょうか?
それらを同時に行う事ってあるんでしょうか?
気になってしょうがない今日この頃です。
さっそくぶん投げなのですが、To explain or To predictという論文が出てるので読みましょう。
内容的には予測する為のモデリングと、効果を推定(因果を推測する)するモデリングは別物ですよねっていう話で、互いにどういう対比になっていてどう使い分けてどう協同すればいいのだろうという事が書いてあります。
著者がyoutubeに動画をアップしているので英語解って時間を節約したい人はこちらを見るのだけでも良いかもしれません。
ポイントとしては予測においてベストなモデルが説明にとってベストなモデルではないよねって事です。
そもそもデータ分析をどういう事に対して使いたいか?使っているか?っていう事に明確なアイデアを持っていなければ多分ここに対して明確な意識は持ってないかと思います。
少なくとも2011年時点では、予測と説明をはっきり分けて考えられている人なんてほとんどいないよって書いてあったので混同しているそこのあなたも安心。3年後も同じ状態かは解らないけど。
ちなみに僕は大学院では計量経済学をやってきていて、基本的には説明する側の人間です。ただ、ラッキーなことに時系列分析をやっていたので、予測についてもいくらか知っていましたし(やってた当時は明確な差を意識出来てなかったけど)、業務で予測を使う機会も増えてきました。
自分が未知の分野に踏み込んだ時に仮説的に立てた数理モデルが因果を保証すると考える計量経済学ベースのアプローチはかなり限定的な応用しかできず、むしろデータに語らせるアプローチのアウトプットから事象の構造を考えることの方がとっつきやすいです。
そういう使い方は全然ありだと思ってます。でも予測に最適化したモデルのパラメーターを持ってきて「これが効果です(ドヤ」っていうのはちょっと思考停止なんじゃないかなとも思ってます。