どんなデータサイエンティストを目指しましょ?

どんなデータサイエンティストを目指しましょう?ってお話です。

思考の整理みたいなものなので、読み物としては相変わらず最低な質かとw

 

データサイエンティスト=ビッグデータ という図式があるらしいのですが、ビッグデータに特化して興味が有るわけではないです。

むしろ、少ないデータから有益な情報を発掘できる事のほうが大事な気がします。

でも、ビッグデータからしか見つけられないものも確かに存在するので、そういったものがビジネスの役に立つのであればビッグデータの分析も出来るようになって行きたいです。

手法に特にこれといったこだわりは無いです。新しい分析手法を勉強するのは楽しいですし、データや目的ごとに分析手法を適切に選べたら楽しいと思います。
正直何でもかんでも回帰分析でえいやっ とやってしまうアプローチの仕方には疑問を持っていたので丁度良いです。

 

ただ、分析する対象は人間の経済的な意思決定に拘りたいなと思ってます。金融工学でちょいちょい名前のある大学院行っておきながら全く金融やらなかったのはこれが理由です。

人間の意思決定を限定的な状況下だけでも構わないので1つのモデルに出来たらカッコイイと思うんですよね。

アトリビューション分析なんかはこれに結構近い事が出来るのかなと。マルコフ連鎖なんかで広告の価値を出すのもいいのですが、そこで意思決定モデルを作ってみるのもアリなんじゃないかなと思ってます。

例えば購買意欲ポイントみたいなものがあるとして、その合計が一定量以上になったらユーザーは購買に走るとする。広告を見る度に購買ポイントが蓄積されて、ABCと順番にみてCを見終わった時にポイントが一定量を超えて検索を掛けて購入。

これをちょっとモデルにしてみて、それをロジスティック回帰かなんかに掛けてみれば多分個々の広告の購買意欲ポイント加算値みたいなのが出ると思うんですよ。そしたらポイント当たりの価値を推定して広告の価値を出すと。そんな事を挑戦してゆきたいですね。

インターネットで分析する魅力の1つは、人間の個々の消費活動における行動データがかなり詳細に取れる事と、情報収集活動における行動データが取れることですかね。詰まる所、人間の行動や情報に関するデータが手に入りやすいからインターネットという括りでの分析は面白いという事です。

 

 

最終的に何をしたいかってのは具体的には考えてません。が。経営や人事にデータ分析を持ち込みたいです。

完全に喩え話ですが、会社にいる人材は限られていて、やらなければいけない仕事も短期的には一定だとすれば、どの仕事(プロジェクト)にどういった構成のチームを当てて行くか?というのが人事や経営の仕事だと思うんですよ。そしてこれって非常に難しい・・・はず。なんでかといえば最高の相性のチームを5個作って他の5個のチームの相性が最低になってしまえば仕事は半分しか成功しないから。

もし目的が会社の利益を最大化させるということに成るのであれば、10個全ての仕事を成功させなければいけないのである程度チームの均一化を図りつつ重い仕事には優秀なチームを降るといった調整を行わなくてはならない。

もしチームの数が100とかだったら人間が最適解を見つけるのはまず不可能でしょう。・・・多分。(たまにこういうことやってしまう天才ってのはいるもんです)

そしたらデータ取って協調フィルタリングとか使って、社員同士の相性を全部推定して、その結果を元に最適化問題を解けば、最適解とは行かなくても人事案の雛形くらいは作れてしまうんじゃないかなと思うわけです。

これが実現できてそこそこのパフォーマンスを発揮できたとしたら以下の素晴らしい点があると思います。

  • 人事の意思決定がもっと楽になる。他のデータ分析とかではどうしようもない部分にもっと時間を避ける。例えば福利厚生の作成・調整とか等々。
  • チーム編成なんかは定期的に改善しないといけない物なのである程度自動化出来ていると非常に便利。

この辺まで切り込めるようになったら多分楽しくてしょうがなくなってる気がします。

恐らくオンラインゲームのマッチングシステムなんかはその内これに似たようなことをし始めると思うので、その辺を将来的には参考にするのかな?とか妄想してますw

 

まぁ妄想から現実に戻るとですね、実際足りない知識が多すぎるのでそこをガッツリ4月までに準備したいなと思ってます。やらないといかんなぁと思ってるものは以下のとおりです。

  • データマイニング

多分最初のうちは計量経済学の知識でどうにかなると思うんですが、データサイエンティストになって手法をちゃんと適切に選びたいとか考えてるので今からコツコツやって行かないと後で困る。

  • データベース

MySQLくらいはいじったことあるんですが、所詮ウェブアプリ作った程度なのでもう少しちゃんと理解してhadoopからhiveでデータ取り出して〜位は出来るように成りたいですね。
実はこのサーバーhadoop入ってるんですが何一つ有用なこと出来てませんw
ログデータをHDFSに貯めてhiveで取り出してRで分析ってのが今の目標ですね・・・いつ達成できるんだろ?w

  • プログラミング

分析で使ってる方が多いのでとりあえずPythonを少しやろうかと。

  • 統計学

これは基本のおさらいをちゃんとします。モーメント法とかちゃんとやりたいですね。

  • 計量時系列

実は今一番重宝される分析手法なんじゃないかと。理由は知らねぇけど過去のパターンから行くと次はこうなるぜ!っていう男前な潔さが実は結構好きですw
VARとかちゃんと勉強したこと無いのでこの際やってみようかと。

 

あとは重要度をノルウェーに行ってる間にでも考えて自分で設定して、4月までコツコツやってゆこうかと。そんな感じです。

カテゴリー: 未分類 パーマリンク

コメントを残す