情報量規準の考え方
2.1 分布間距離とダイバージェンス
統計学では,2つの分布(確率測度)P,Q 間の“距離”を測るために“ダイバージェンス(divergence)”という概念が伝統的に用いられる:
d(P,Q)がP,Qの間のダイバージェンスであるとは d(P,Q)≧0 (等号はP=Qのときに限る)を満たすこと.
一般にはこれだけの要請しかないが,二つの分布が一致するときにのみ最小となることから,この量が小さいほど二つの分布はより“近い”とみなすことにするのである.特に,P,Qが絶対連続のとき,伝統的に用いられるダイバージェンスは“Kullback-Leibler divergence”と言われる以下のものである.
KL(P,Q)= ∫log(dP/dQ) dP
これは通常の数学的距離のような対称性や三角不等式が成り立たないため,厳密には距離とは言えない(擬距離などとも言う)が,統計学における情報量などと密接な関係があるためよく用いられる.
2.2 情報量規準
今,推定対象となる真の分布Pに対して,モデルQ(θ)を仮定し,それぞれ,ルベーグ測度に関して密度p(x),q(x;θ)を持つと仮定しよう.ここに,θは未知パラメータである.このとき,Kullback-Leiblerの意味で分布間距離を評価することにすると,
KL(P,Q)= ∫p(x)log p(x) dx - ∫p(x)log q(x;θ) dx ≧ 0
我々は,この値が小さいほど“良い”モデルであるという立場をとるが,第1項はモデルに依らないので,モデルの良さは第2項のみで決まる.したがって,
I:= -∫p(x)log q(x;θ) dxが最小となるモデルが“最良”
ということになる.しかし,この量は真の分布Pに依存するため,我々はこれを観測によって推定する必要がある.
今,PからのサンプルX_1, X_2, ... X_n が得られたとする.Iを良く見ると,期待対数尤度E[log q(θ)]であることが分かるので,その最も単純な(一致)推定量は
I_n:= -Σ_i log q(X_i;θ_n)/n (ただし,θ_nはサンプルX_1, X_2, ... X_nに基づく最尤推定量とする)
であるが,これには無視できないバイアスがあることが知られている: B:= E[I_n] - I = O(1/n).もし,真値θ*に対してΣ_i log q(X_i;θ*)/nとI_nを推定できればバイアスは無いが,同じデータを用いてこれを最大化するMLEθ_nを代入して推定するために,結果としてΣ_i log q(X_i;θ*)/nを過大評価(I_nでは過小評価)してしまうのである.そこでこのバイアスの推定量B_nを求め,
IC_n(Q):=I_n + B_n; E[IC_n(Q) - I] = o(1/n)
となるようにバイアス修正をおこなったIC_n(Q)を(Pに対するモデルQの)情報量規準(Information Criteria)という.特に,真値θ*に対してP=Q(θ*)となるときには,B_n=dim(θ)/nとなることが知られており,このときのIC_nをAIC(Akaike's Information Criteria)という(伝統的に2nI_nをAICと呼ぶことが多い).もちろん,Qはモデルであるから,どのようなθに対しても,P≠Q(θ)となり得る(モデルの誤特定, misspecification)が,このような場合のICも研究されている(TIC, Takeuchi,1976)
競合モデルQ_1,Q_2,...を作った時には,IC_n(Q_1),IC_n(Q_2),...を作り,それが最小となるモデルを選択することになる.
目次へ