データアナリストに多分必要な物。

TJOさんの記事を読んでまぁ色々と思った事があったのと、最近思った事を掛け合わせて何か書こうかと思った今日この頃です。

 

P1090982

1. データ分析を仕事にしようと思ったら必要なのはまずスキルではなく誠実な心構えかと。

そもそも意思決定に関する情報だったり、予測できるとインパクトのあるコアな情報を扱う仕事なのでアウトプットは常にファクトベースであるべきです。

自分の分析結果の正当性や、自分のデータ集計の正当性は基本的には自分でけつを持って担保しなくてはなりません。

これが無ければたとえその人がどんなモデル知ってようが、どんなコード書けようが無価値です。

というかマネジメントコストかさむだけなんで邪魔です。

いや、それは前提だろって思われる方いるかもしれませんが、正直これ持ってる人、目先の成果に惑わされずに持ち続けられる人ってどの位いるんですかね。

アカデミックはこの部分に関しては一定の要求をしており、その要求を満たさなければ実績として認められない仕組みになっていますが、ビジネス上ではそうではありません。

予測モデルの場合では結果で可否が出ますが、因果推論の場合には誰も確認ができないのでここに関しては個人の裁量に任されてしまっているのが現状です。

このデータサイエンティストブームで適当な人が集まってきて、適当な事やって、しょうもないレポートが量産されて、業界の熱が冷めるって事は大いにありそうだなと。

僕はこれ持ってない人と仕事するくらいだったら、まだ重回帰と決定木しか知らなくてもこれをしっかり守れる人と仕事したいっす。(知っているものは多い方が良いですが)

 

2. なんのためのモデリングなのかをちゃんと考えられる。って大事だよね。

統計モデリングであっても機械学習であっても、因果推論と予測の為に使う事が出来ます。(機械学習を因果推論に使うケースはすごい少ないと思いますが)

モデルが予測のためのものなのか、因果推論のためなのかで気にすることはだいぶ違いますし、使うモデルの選択だって違ってきます。

あなたがしたいのは予測なんですか?それとも効果の推定なんですか?この仕事始めてからこの質問何回したかわからないです。

このモデルの目的に対する混同は結構色々なところで見られますし、僕もこういう罠にはまってたと思います。今もまだはまっているかもしれません。

多分ここが整理されてないのって予測と因果推論の両方を要求される分野が少ないからなんだと思ってます。

出来ればどっちの教科書の一章目に明確な区分を、例え正確性を多少欠くとしても、書いておいてほしいです。

どっちを優先的に勉強するかは業務内容次第だと思いますが、どちらにしろ自分がどっちのための勉強をしていて、どっちのためのモデリングを今やっているのかはわかってなければならないかと。

 

3. ビジネスの理解・・・というか分析対象への興味。

これが無いのも切実な問題ですね。

結構軽視されてる感がしますが。

因果推論であれば内生性が無いか?とか多重共線性が無いか?とか、そもそもモデルにどんな変数を入れるか?とか、対数とるのか?とかですね。

予測モデルであっても、クラスタリングの問題としてとらえるのか?識別の問題としてとらえるのか?とかありますね。

その辺の判別って、モデル上ではどうしようもないので、人間が考えるしかないわけです。

そして人間が考える時に使う知識は、分析の対象となっているものがどんなもの何だろう?という理解なわけです。

この部分が苦痛に感じる人って今後どーするんだろーって正直思います。

 

 

まぁそりゃそうだよねって話ばかりなんですが、ちゃんとこういう話してる人がいなかった気がしたので書いてみました。

カテゴリー: データマイニング, 世間話, 統計学 パーマリンク

コメントを残す