データ分析で何が解るの?
アナリストが答え無くてはならない重要な質問です。
データサイエンティスト協会とかはスキル要件とかを定義する前にこの問に対して具体的な例のみでなく、”一般化”した形で答える必要があると思います。
さて、僕はこの問に対して2つの事が言えると思っています。
1つは、データ分析は誰かが当たり前だと思っている考えを数値として表せるところに魅力があるということ。
もう1つは、その当たり前の関係性がぱっと見データから読み取れない時に見つけ出せるということ。
僕は機械学習やパターン認識の専門家ではないので、データを分析するときには必ず仮説を携えています。そしてその仮説は普段現場で働いている方のアイデアだったり、論理的に考えて出てきた結果だったりします。(もしかしたら機械学習やパターン認識の方々も仮説を持ってやってるかもしれません。)
すこし具体的な言い方をすれば、「経験や環境から考えて”こう”なっているはずなんだけれども、それを上手く数字に出来ない・見いだせない」という人の助けになることが出来る。
そういう事がデータ分析には出来ると僕は考えています、そしてそれ以上のことは(少なくとも今の僕には)出来ないとも考えています。
では上の事を行うためにはデータを分析しなくてはならないのでしょうか?眺めるだけではダメなのでしょうか?
半分はイエス。半分はノーというのが僕の見解です。
多くのデータ(少なくとも広告業界のもの)は適切に処理した後に並べてみるだけで大体の用途に事足ります。
しかしながら、並べてみただけでは多くの罠にハマってしまうことになり、間違った結果を導いたり、本来関係性が見いだせるデータの中にある関係性を見逃したりもしてしまいます。
具体的に例を1つ出して説明してみたいと思います。下のグラフを見てみてください。
データは適当に生成しました。
仮にリスティング広告のキャンペーンにおけるCPCとランキングの相関を見ているとしましょう。
縦軸(y)がランキングで、下のほうがランキングが高いという状況です。
横軸(x)がCPCで、右に行く程に高いCPCが入っているという事になります。
常識的に考えれば入札を高くすればするほどランキングは上がって行くはずです。(グラフでは下がっていく)
しかしこのグラフを見る限りではランキングとCPCでの相関はなさそうです。
仮に回帰分析を行ったとしても係数はほぼ0値になってしまいます。
根気が無ければこのグラフを観た辺りでデータからの定量的なアプローチを諦めてしまいそうです。
ではここで下のグラフを見てみてください。
実はさっきのデータは3つのほぼおなじ特性を持ったデータを掛けあわせたシロモノでした。(係数は同じだけど、定数とcpcの最低値・最高値がキーワードで違う)
(あと乱数が入っていて上下の図で若干の違いはあるのですがそこは見逃してくださいw)
リスティングの例で言えば、”3つのキーワードが1つのキャンペーンで管理されている”という状況です。
この図の様にしてみるとCPCとランキングの関係性は明らかで、CPCをどの程度上げればランキングをあげられるかがハッキリと分かりそうです。
この例はシンプルではあるものの、似た感じのデータを雑に集めるだけで簡単に関係性が埋もれてしまうという事を明確に示してくれています。
恐らく全てのキーワードを上のようにプロットしていてはアホみたいに時間がかかってしまいます。
よってパネルデータ分析の手法などを使って関係性を見るのが現実的なのかなと思います。
さて、一応この例で「一見見えない関係性を見えるようにする」という事の例を示せた気がしています。もしパネルデータの手法を使って回帰分析を行えば、その関係性も数値として出すことが出来ます。
データを見てゆく中で上のような罠はそこら中にあり、見ているだけでは幾らでもその術中にハマって機械損失をしてしまいます。
皆さん是非そのような罠にハマり続けないためにも、データを眺めるだけでなくしっかり勉強して分析出来るようになっていきましょう。