データ解析・サブグループの研究背景

確率モデルで現象を記述し将来の意思決定を行う場合，モデルとデータとの何らかの意味での“適合度”を評価し，その意味で“最良”のモデルを選択しようとすることは自然であろう．観測されるデータを用いてある種の“最適モデル”を選出する手続きを統計的モデル選択という．本ページでは，統計学における代表的モデル選択規準である情報量規準の簡単な解説と，データ解析・サブグループの研究テーマとの関連について説明する．

確率モデルと予測の視点
情報量規準の考え方

2.1 分布間距離とダイバージェンス
2.2 情報量規準
確率過程のモデル選択
研究課題との関連について

4.1 本課題におけるモデル選択問題
4.2 セミマルチンゲール・モデルのAIC導出
4.3 擬似情報量規準(QIC)の考察
4.4 目的別のモデル選択規準
4.5 その他

確率モデルと予測の視点

確率モデルとは，確率的現象のある側面に焦点を当てて，その構造を数学的に記述するものであり，本質的にはその現象を生み出す確率法則（分布）をモデリングすることと言っていい．ある意味で真の構造により“近い”モデルが構築されれば，様々な推論・予測がより“確か”なものとなるであろう．では，どのようなモデルが真の構造に“近い”といえるのであろうか？その基準は，推論にどのような“確かさ”を求めるかに依存して決まるであろう．たとえば，日々の株価の動きをある種の時系列モデルで記述したとする．このモデルに真の株価構造を完全に捕らえているという“確かさ”を要求すれば，株価構造とモデルとが全ての側面において完全に一致しているという“近さ”を要求することになるが，数学モデルにおいてこのようなことは実際にはあり得ず，モデルは株価の一近似にすぎないと見るのが自然であろう．そこで，たとえば１ヶ月後の株価を予測するモデルを作りたければ，１ヵ月後の株価の分布をモデリングし，データからそのモデルを推定し，(１ヵ月後の株価の)真の分布との間のある種の“距離”を最小にするという“近さ”によって，最良のモデルを選択することが考えられる．ここで選択されたモデルは，他の側面から見れば，実際の株価を捉えきれていないかもしれないが，「１ヵ月後の株価の予測分布」という意味では，ここで選んだ“距離”の意味で最良なのである．

このように，「予測」の視点から，目的に応じた分布のモデリングを行い，パラメータを推定し，“分布間距離”を最小にするモデルを選択するという手続きを「統計的モデル選択」とよんでいる．統計的モデル選択では分布間の距離を測る尺度として，伝統的に“ダイバージェンス”という概念を用いるが，実際にはその量を，データを用いて推定することになる．その推定量が次節に述べる「情報量規準」であり，我々は情報量規準を最小にするモデルを“最良”のモデルとして選択するのである．

目次へ

情報量規準の考え方

2.1　分布間距離とダイバージェンス

統計学では，２つの分布(確率測度)P,Q 間の“距離”を測るために“ダイバージェンス(divergence)”という概念が伝統的に用いられる:

　　　　　d(P,Q)がP,Qの間のダイバージェンスであるとは d(P,Q)≧0 (等号はP=Qのときに限る)を満たすこと．

一般にはこれだけの要請しかないが，二つの分布が一致するときにのみ最小となることから，この量が小さいほど二つの分布はより“近い”とみなすことにするのである．特に，P,Qが絶対連続のとき，伝統的に用いられるダイバージェンスは“Kullback-Leibler divergence”と言われる以下のものである．

　　　　　KL(P,Q)= ∫log(dP/dQ) dP

これは通常の数学的距離のような対称性や三角不等式が成り立たないため，厳密には距離とは言えない(擬距離などとも言う)が，統計学における情報量などと密接な関係があるためよく用いられる．

2.2　情報量規準

今，推定対象となる真の分布Pに対して，モデルQ(θ)を仮定し，それぞれ，ルベーグ測度に関して密度p(x),q(x;θ)を持つと仮定しよう．ここに，θは未知パラメータである．このとき，Kullback-Leiblerの意味で分布間距離を評価することにすると，

　　　　　KL(P,Q)= ∫p(x)log p(x) dx - ∫p(x)log q(x;θ) dx ≧ 0

我々は，この値が小さいほど“良い”モデルであるという立場をとるが，第1項はモデルに依らないので，モデルの良さは第2項のみで決まる．したがって，

　　　　　I:= -∫p(x)log q(x;θ) dxが最小となるモデルが“最良”

ということになる．しかし，この量は真の分布Pに依存するため，我々はこれを観測によって推定する必要がある．

今，PからのサンプルX_1, X_2, ... X_n が得られたとする．Iを良く見ると，期待対数尤度E[log q(θ)]であることが分かるので，その最も単純な(一致)推定量は

　　　　　I_n:= -Σ_i log q(X_i;θ_n)/n　(ただし，θ_nはサンプルX_1, X_2, ... X_nに基づく最尤推定量とする）

であるが，これには無視できないバイアスがあることが知られている: B:= E[I_n] - I = Ｏ(1/n)．もし，真値θ*に対してΣ_i log q(X_i;θ*)/nとI_nを推定できればバイアスは無いが，同じデータを用いてこれを最大化するMLEθ_nを代入して推定するために，結果としてΣ_i log q(X_i;θ*)/nを過大評価(I_nでは過小評価)してしまうのである．そこでこのバイアスの推定量B_nを求め，

　　　　　IC_n(Q):=I_n + B_n;　　E[IC_n(Q) - I] = o(1/n)

となるようにバイアス修正をおこなったIC_n(Q)を（Pに対するモデルQの）情報量規準(Information Criteria)という．特に，真値θ*に対してP=Q(θ*)となるときには，B_n=dim(θ)/nとなることが知られており，このときのIC_nをAIC(Akaike's Information Criteria)という(伝統的に2nI_nをAICと呼ぶことが多い)．もちろん，Qはモデルであるから，どのようなθに対しても，P≠Q(θ)となり得る(モデルの誤特定, misspecification)が，このような場合のICも研究されている(TIC, Takeuchi,1976)

競合モデルQ_1,Q_2,...を作った時には，IC_n(Q_1),IC_n(Q_2),...を作り，それが最小となるモデルを選択することになる．

目次へ

確率過程のモデル選択

区間[0,t]上でcádlágパスを持つ関数全体をD[0,t]とし，確率空間(Ω,F,P)上のD[0,t]-値“確率変数”Xを考えると，Xは，時間[0,t]上の確率過程の一つの表現とみることが出来る．今，Xを観測し，そのモデルYを考えたとしよう．確率過程Xは，そのD[0,t]上の分布を決めることにより特徴付けられるので，D[0,t]上のYの分布がある意味でXのそれと“近い”とき，YはXの“良いモデル”と言ってよいであろう．

この確率過程モデルの良さを分布間の“ダイバージェンスd”によって測ることを考えよう．すなわち，X,YのD[0,t]上の分布をそれぞれPx,Pyとし，d(Px,Py)が出来るだけ小さいモデルが“良い”モデルであると考える．例えば，Px，Pyが互いに絶対連続のときは，dとしてKullback-Leibler divergenceを選べば，Radon-Nykodim微分dPx/dPyを用いてその良さを測ることが出来る．これは，Xが拡散過程などであれば，Girsanov密度を用いて実行可能である．

また，Xを時間離散的にX^n=(X_1,X_2,...,X_n)と観測するときは，予測分布を比較するという意味では，将来のn時点におけるサンプルのXの有限(n)次元分布Px,nと，Yの有限(n)次元分布Py,nを用いて，d(Px,n,Py,n)を比較するべきである．この場合にはXの推移確率が必要となるが，拡散過程などでも，一般に推移密度を求めるのは容易ではない．離散観測に基づく拡散過程の情報量規準については，本チーム・内田教授の一連の仕事を参照されたい．

目次へ

研究課題との関連について

4.1　本課題におけるモデル選択問題

セミマルチンゲールの離散観測に基づく統計的モデル選択の理論を確立し、モデル依存の量である価格やリスクの評価において、パラメータ推定の安定性も考慮した、客観性のあるモデル選択の指標を構成する。さらに前述の無限次元漸近展開における方向選択・次数選択をモデル選択の枠組みで捉え、複数の近似公式からパラメータの推定誤差まで考慮した上で最適なものを選ぶスキームを提案する．

4.2　セミマルチンゲール・モデルのAIC導出

確率過程の無限次元分布に対するモデル選択規準として、ジャンプ型拡散過程の離散観測に基づく情報量規準AICを構成し、その漸近挙動を解析する．
AIC導出においてはlang=EN-US> Wiener-Poisson空間上のジャンプ型Malliavin解析による遷移確率密度の評価が本質的な役割を果たすことを予想している．

4.3　擬似情報量規準(QIC)の考察

確率過程の無限次元分布に対するモデル選択規準として、ジャンプ型拡散過程の離散観測に基づく擬似情報量規準QICを構成し，その漸近挙動を解析する．停止時刻等汎関数の分布のモデリングにおいては適切なQICを構成することで、そのモデルの予測精度を評価する必要があり、そのために拡散過程のドリフト項、ジャンプ項に対してはGirsanov密度に基づくKullback-Leiblerダイバージェンスを損失関数に用いることなど、いくつか具体的なアイデアがある．実用のデータ解析に当たって、状況によってはPoisson方程式の解など、陽に表現できない量を計算する必要が出てくる可能性があるが、その場合には楠岡近似など作用素分割法に基づく数値解法の適用可能性を調べる．離散観測として最初は時間幅が等間隔なケースを取り扱い、その後より一般の停止時刻列で表現された確率的サンプリングのケースに拡張する．

4.4　目的別のモデル選択

無限次元の分布そのものではなく、特定の汎関数の期待値を計算する目的に特化したモデル選択も考察する。これは統計的モデル選択において、Kullback-Leiblerダイバージェンス以外の損失関数を採用することに関係している．例えば最小二乗誤差を損失として、パラメータ推定誤差を考慮したモデル選択規準を導出する。パラメータ推定に用いるデータとしてはヒストリカルなものだけではなく、市場からインプライされるものも想定する．

4.5　その他

目次へ