最近広告効果検証系の論文を読んでてやっぱ本質的に向いているのはこっちだなーとか思う今日です。
まぁ検証も予測も両方大事なんですが。
今回は効果検証で出てくる面倒なomitted variable biasに付いて書こうかなと思います。
仮に何かの効果について分析してくださいというタスクがあったとします。
まっとうな分析者としてはここで因果推論と呼ばれる分野の知識を活用することになります。(統計学の中の一分野です。)
すると、ここでの目的は「何かの効果を表すパラメーターの値をバイアスが掛かっていない状態で手に入れる」というものになります。
分析対象が重回帰で問題なく記述できるとして、
y = a*x1 + b*x2 + u
というモデルを想定します。
この時分析タスクがx1のyに対する効果を知りたいというものであれば、aというパラメーターの値をバイアスが掛かっていない状態で取り出さなければなりません。
重回帰で得られるパラメーターaはFirst Order Conditionから以下の様に解釈することができます。
a = r*y/r^2
r = (x1 – c – d*x2)
rはx1 = c + d*x2 + rという回帰で得られる誤差項です。
x1の中でx2と相関している部分はd*x2に閉じ込められるので、rはx2とは相関していない状態になり、x1の中のx2と関係のない部分と捉えることができます。
そしてaはそのrと説明したいyのみで構成されているので、x1のx2に関係のない部分がyに与える影響となっています。
さて、そろそろ本題に進んでいきます。
x2のデータが現実的には手に入らないとします。
すると扱うモデルは
y = f*x1 + e
e = u + g*x2
という状態になります。
この時推定されるfは最初の重回帰で推定されるaとは別の値になります。
fはこんな感じです。
f = a+b*h
hはx2を被説明変数とし、x1を説明変数とした単回帰のパラメーターです。
つまり、x2という変数が無くなった事により、本来のaにx2との相関部分であるb*hの部分が上乗せされて推定される事になるわけです。
そしてこの上乗せされたb*hの部分はx1の効果ではなく、x2の効果がx2とx1の相関を通して現れているものなので、パラメーターaにかかっているバイアスとなるわけです。
この様な本来入っているべき変数がモデルに入っていないことで発生するバイアスをomitted variable biasと呼びます。
ただ、重要な変数が落ちていてもその変数がモデルに含まれている変数と相関していない場合にはこのバイアスは発生しません。(h=0になるので、b*h=0になる。)
さて、広告の業界にいるとこういったケースにかなりの確率で出会います。
広告の効果を説明するために広告の出稿額やimp量なんかを売り上げのモデルに入れ込みます。
しかしマーケターは出稿額を均等に分けるわけではなく、効果がありそうな要因があるところに予算を集中させます。
よって、その効果がありそうな要因がデータとして取れていなければ、上で上げたようなomitted variable biasの問題を抱えたモデルを持つことになってしまいます。