Seminar.23

　　　データ科学チュートリアル（T）/研究室ゼミ（K）　(2011年度：H.23.4～H.24.3)

毎週水曜13:00～.

研究室ゼミ；以下K：研究室のスタッフや院生が最新の研究成果を発表し，それについて議論を戦わせます．
もちろん，ご興味のある方はいつでも歓迎いたします．

データ科学チュートリアル；以下T：講座員，または他から講師を招き，さまざまなトピックを取り上げ数回で講義します．
データ科学，確率・統計に関するあらゆる話題を対象とし，理論・応用に関する知識を幅広く共有することを目指します．

過去のセミナー記録

 狩野研究室トップページへ

■次回以降の予定：今年度のゼミはすべて終了致しました．

■ 過去の発表

4月13日

第1回（K）：	堀池譲立・水関裕人 (M2)，寺田吉壱 (D1)，門脇達彦 (研究生)，廣瀬慧 (助教)
題目：	研究（自己）紹介Ⅰ
概要：	新M2・D1・研究生・助教の研究に関する報告．

4月15日

第2回（K）：	望田雄真・北條新太郎 (M2)，土田友里恵・鎌田亜美 (M1)，磯崎郷平・森川耕輔・田辺竜ノ介・中矢徹 (B4)
題目：	研究（自己）紹介Ⅱ
概要：	新M2・M1の研究に関する報告と新B4の簡単な自己紹介．

4月20日

第3.1回（K）：	吉森雅代 (D2)
題目：	MSE approximation and several estimators for MSE of EBLUP
概要：	線形混合モデルに基づく予測量EBLUPが用いられる場合があるが、一般的にEBLUPのMSEを厳密に導出することはできない。この問題に対して、EBLUPのMSEの推定量が提案されており、実際面でもよく用いられている。しかしながら従来のMSEの推定量は過大評価する傾向がある。その問題を解決するために、新たなMSEの推定量を提案し、数値実験結果とともに報告する。

第3.2回（K）：	森丈治 (D1・社会人)
題目：	自己紹介
概要：	この四月より社会人博士として研究室に配属されたため，研究室ゼミにおいて，これまでの研究と小野薬品での業務・研究，今後の研究テーマについて発表する．

5月11日

第4回（K）：	山本倫生 (D1)
題目：	Clustering method in a low-dimensional subspace -Functional data, Regularization, Nonlinear model-
概要：	ある解析法による結果を用いて別の解析方法を実施することをtandem analysisという．例えば，主成分分析で得られた主成分得点をもとにクラスタリングを行う方法などが該当する．このような方法では，次元縮約を行う際に，クラスター構造に関する情報が欠落してしまうという問題が生じる．そこで，関数データにおけるtandem analysisの問題を解決する方法として，次元縮約とクラスタリングを同時に行う方法を提案する．また，提案方法で推定される，データ空間の部分空間を張る基底関数について，その滑らかさを調整可能なモデルへと拡張する．さらに，カーネル法を用いて，非線形なデータ間の関係及び複雑なクラスター構造を捉えることができるモデルへと拡張する．

5月18日

第5.1回（K）：	藤本翔太 (D1)
題目：	Analysis of High Dimensional Data - Hypothesis Testing on Mean Vector-
概要：	データの変数の次元が標本サイズに比して大きなデータ，すなわち高次元データの解析法について報告する．特に，平均ベクトルの検定法を扱う．先行研究において既にそのような検定法は幾つか提案されているが，それらは母共分散行列に非常に強い条件を課すものであり，相関構造をほとんど許さないものになっている．これは非現実的であるため，本報告では母共分散行列への条件を課さないような新しい検定方法を提案し，強い相関構造を持つようなモデルでも適切な検定が可能なことを数値実験によって確認する．

第5.2回（T）：	田辺竜ノ介・森川耕輔 (B4)
題目：	田辺：確率の歴史―カルダーノからド・モアブルまで― 森川：大数の法則についての実生活に関連する具体例とその説明
概要：	田辺：数式を出さないやり方で，カルダーノからド・モアブルまでの確率に関する歴史を扱う．森川：B3前期の情報数理ゼミナールＡで使用したテキスト「たまたま―日常に潜む「偶然」を科学する」で紹介されていた，ベンフォードの法則に証明を与えたり,実際にあった大数の法則に関連する話を紹介する.

5月25日

第6.1回（K）：	寺田吉壱 (D1)
題目：	Symbolic MDS with hypersphere model (+少しwith hyperbox model)
概要：	シンボリックデータ解析（SDA）では，対象として“concepts”を扱うため，非類似性が従来のように単一の値だけでなく，区間値や分布値などで表現される．本発表では，特に区間値と分布値非類似性データに対して，対象が “hypersphere”で表現されると仮定したSymbolic MDSについて扱う．まず，区間値非類似性データについて，反復majorizationに基づく良い性質をもったアルゴリズムであるhypersphere model I-Scalを紹介する．そして，分布値非類似性データに対して，各対象が同一の中心点をもつ入れ子状の超球で表現されると仮定したモデルについて，反復 majorizationに基づくアルゴリズム（Percen-Scal）を導出する．また，このモデルを一般化し，中心点の同一性を外したモデルのMDSについても提案する．さらに，上記のI-Scal及びPercen-Scal を2相3元非類似性データに対するものへと拡張する．

第6.2回（T）：	磯崎郷平・中矢徹 (B4)
題目：	磯崎：最尤法と個体数推定中矢：ベイズの定理
概要：	磯崎：生態学における個体数推定の一つの方法として,標識再捕獲法がある.その中で最も基本的な方法である Petersen法における推定量を最尤法によって説明し,さらに拡張した調査においても最尤推定法により推定量を導出する. 田辺：確率論のシンプルな定理であるベイズの定理をもとにした有名なパラドックスや実際に迷惑メールフィルタに利用されているベイジアンフィルタについて紹介する.

6月8日

第7回（K）：	林賢一
題目：	Boosting Methods for Asymmetric Mislabeled Data
概要：	TBA

6月22日

第8.1回（T）：	鎌田亜美 (M1)
題目：	特異に近い標本共分散行列に対するSEM－Yuan and Chan (2008) に基づくアプローチ－
概要：	構造方程式モデリングにおいては標本共分散行列Sとモデルの共分散構造との相違を最小化にすることによって推定量を得る．一般的に推定量はニュートン法に基づくアルゴリズムにより得られるが, このアルゴリズムにはSの逆行列が登場するので， Sが特異に近いとき, 推定が不安定になるという問題がある. この問題への対処策のひとつに, Sに単位行列の正定数(リッジパラメータ)倍を加えることにより推定を安定化させるという方法がある. これはYuan and Chan (2008)で提案されている. そこで本発表では, まず, 提案された推定法の紹介と, 提案された手法を用いることによって得られる推定量のもつ一致性と漸近正規性の証明を行い, 最後に, 現在研究中である, "リッジパラメータが推定量にどのような影響を及ぼすのか"について議論するべく, 推定量のバイアスを導出し, 今後の展開について議論する.

第8.2回（K）：	廣瀬慧(助教)
題目：	L1型正則化法におけるチューニングパラメータの選択
概要：	L1型正則化法に基づくスパース推定は，生命科学，システム工学など様々な分野で応用されている．このモデリングの過程において，ペナルティの強さを調節するパラメータ（チューニングパラメータ）の推定が本質的となる．チューニングパラメータの選択はモデル評価・モデル選択の問題と捉えることができる．特に，線形回帰モデルにおいて，一般化自由度(Ye, 1998)に基づくモデル評価基準は，標本数に関する漸近論を用いることなく導出されているため，変数の次元がサンプル数を超えた場合でも理論的に適用可能である．しかしながら，L1型正則化法では，正則化項にパラメータの絶対値が含まれるため，微分不可能となり，一般化自由度を解析的に求めることが困難となる．そこで，一般化自由度を解析的に求めるのではなく，数値的に計算する方法を考える．本報告では，線形回帰モデルにおけるGPSアルゴリズム(Generalized Path Seeking; Friedman, 2008) を拡張し，一般化自由度を求めるアルゴリズム提案する．GPSアルゴリズムは，様々な凸関数および非凸関数で与えられる正則化項に対する解を求める効率的なアルゴリズムである．提案アルゴリズムは，その解を求めると同時に，一般化自由度も計算することができる．さらに，サンプルサイズが大きいときでも比較的高速に自由度を求めることができるよう提案したアルゴリズムを改良する．

6月29日

第9.1回（T）：	土田友里恵 (M1)
題目：	時系列分析
概要：	本報告では，時系列解析の成り立ちと時系列の例を紹介する．まずは，時系列とはどのようなものかを説明し，その起源や発展の流れを順番に紹介する．そして，時系列の例を挙げて，トレンド，季節性や定常性について考える．最後に，時系列モデルへの一般的なアプローチの方法を紹介する．

第9.2回（K）：	高井啓二 (招聘研究員)
題目：	Partially Classified Data と Complitely Classified Data を用いた正規判別の比較
概要：	判別データでは，すべてのケースに対してラベルが得られないことがある．その際，判別規則の作り方には，ラベルのつけられたケースだけを使う方法と，ラベルのないケースも使う方法の二通りがある．またラベルをつけるケースを選ぶ方法も，特徴ベクトルに依存しない方法と，依存する方法の二通りある．本発表では，欠測データ解析のフレームワークを用いて、正規判別においてこの２×２通りの誤判別率を理論的・数値的に調べた結果を報告する。

7月6日

第10.1回（K）：	水関裕人 (M2)
題目：	修論中間報告： 2因子モデルの使用条件の探索
概要：	現在因子分析を用いるための条件は１因子の使用条件としてtetradが存在する．今回はその条件の導出法を説明し，それを用いての２因子の条件の考察を行う．

第10.2回（K）：	北條新太郎 (M2)
題目：	修論中間報告：多重代入法による推定量の精度の理論的考察
概要：	代入法とは欠測のあるデータを解析する手法であり，モデルから代入値を生成して欠測部分に代入することで疑似的な完全データを作る方法であるが，特に疑似完全データの組を複数作る場合を多重代入法という．通常，多重代入法を適用するときには，データは正規分布に従っていることを前提とするが，現実では正規分布に従わないデータも多数あるため，この仮定は非常に強いものとなっている．そこで本報告では，データの正規性の仮定を用いない場合における代入値の精度の影響について考察を行う．

7月13日

第11.1回（K）：	堀池譲立 (M2)
題目：	修論中間報告：ロジスティックモデルのDeceleration point について
概要：	平均寿命が８０歳前後の国において、国民の寿命のハザードをロジスティックモデルで表現し，その対数を取ることを考える．このとき、対数をとったハザードの値は９０歳前後までは直線的に増加するが，その頃から減速が始まる．その減速が始まるDeceleration pointを求める方法について述べる．

第11.2回（K）：	望田雄真 (M2)
題目：	修論中間報告：正定値カーネルと確率分布
概要：	データをカーネルによって定義された特徴写像を用いて変換することで，データが持つ（非線形の）特徴を抽出するというのがカーネル法の基本的な考え方である．今回は，カーネルが写像先の空間である再生核ヒルベルト空間をどのように構成するか，カーネルによって確率変数をどのように特徴づけるかについて述べる．

10月5日

第12.1回（T）：	寺田吉壱 (D1)
題目：	分類とシンボリックデータ解析（シンボリックデータ解析における分類） [pdf]
概要：	本発表では，まずシンボリックデータ解析（SDA）及び“Symbolic Objects”による”concepts”のモデル化について説明し，SDAにおける分類として，分布値データに対するクラスタリング法と区間値非類似性データに対するMDSとクラスタリング法の組み合わせた方法について紹介した．また，発表の中で教師あり学習における重要な定理であるNo Free Lunch定理と Classicalなデータに対するクラスタリン法についても簡単に紹介した．

第12.2回（K）：	狩野裕 (教授)
題目：	経時データと因子分析：LCA入門 [pdf]
概要：	反復測定データと経時データの違いから始め，経時測定データ解析の基礎，因子分析の基礎，そして，潜在曲線モデルの定義と応用事例を紹介した．

10月13日

第13.1回（K）：	熊谷悦生 (専任講師)
題目：	Efron's Counterexample and Related Topics [pdf]
概要：	最尤推定量に関する情報量損失において、 Fisher の情報量損失とRaoの2次漸近有効性との乖離を示すために Efron が反例を示した。しかし、この反例には矛盾する要求があることを示し、そのパラメトリゼイションでは3項分布での構成が不可能であることも示した。また、時系列データにおける日次データを元に、週次データや月次データが抽出されたデータとしたときの正確な情報量損失をAR(1)モデルで示した。

第13.2回（T）：	藤本翔太 (D1)
題目：	高次元データ解析の基礎 [pdf]
概要：	高次元データ解析を行うための理論的基礎として，高次元データにおける母平均ベクトルおよび母共分散行列の推定を主に扱う．また，その推定がどのように使われるかを高次元線形判別分析を通して紹介する．

10月19日

第14.1回（K）：	森丈治 (D1)
題目：	Kappa coefficient statistics and latent class analysis [pdf]
概要：	ある疾患に対して有病か否かを判断した2人の評価者の結果は分割表にまとめられる．実際のデータを説明し，評価者の評価結果が良好であることを示すための方法論としてカッパ係数及びLCA，両手法の違いについて紹介した．また，LCAの発展モデルについて紹介した．

第14.2回（T）：	山本倫生 (D2)
題目：	欠測値問題と経時データ分析 [pdf]
概要：	本発表では，まずは，一般的な欠測値問題の理論として，Rubinの欠測メカニズムを紹介した．次に，経時測定データにおいて欠測がある場合の解析方法として，尤度に基づく方法，多重代入法及び重み付き推定量を紹介した．さらに，ランダムでない欠測の下での解析方法の枠組みとして，選択モデルとパターン混合モデルによる方法の説明を行った．

10月26日

第15.1回（K）：	廣瀬慧 (助教)
題目：	Lassoに基づく探索的因子分析モデル [pdf]
概要：	多変量解析手法の一つである因子分析は，観測される変数の相関構造をより少数の観測されない潜在変数によって探索するための手法で，心理学，行動計量学，教育学，マーケティングなどの社会科学をはじめとする様々な分野で応用されている．探索的因子分析では，最尤法などによってモデルを推定し，因子回転を施すことによってスパースな解を求めて因子を解釈する方法が一般的である．本発表では，対数尤度関数に因子負荷行列の各成分の絶対値の和で定義されるlassoに基づくモデルの推定を行うことにより，回転を行わずに因子負荷行列の新しいスパース推定法を考えた．まず，あらゆる調整パラメータに対する解を高速に求めるために， GPSアルゴリズムと準Newton法を組み合わせた新しい推定法を提案した．次に，因子分析におけるsolution pathを定義した．さらに，因子間相関が存在する場合の推定法も検討した．因子間相関がある場合，ダイレクトに推定すると相関係数が1を超えたり独自分散が負になったりと非常に不安定な傾向にあったので，相関係数と独自分散に対しても正則化を行った．その結果，promax, varimax,quartiminなどの従来の回転方法では得られないような因子負荷行列を求めることにも成功した．今後は，識別性による不適解問題への対処について考察していきたい．

第15.2回（K）：	狩野裕 (教授)
題目：	NMARness and auxiliary variables in missing data analysis [pdf]
概要：	不完全データ解析において，欠測メカニズムをモデル化しない尤度に基づく最尤法は NMARの下では一般に一致推定量を構成しない．本発表では，NMARの下での最尤推定量の理論バイアスの評価式(APB, approcimate Population Bias)を導出した．また， MARでない程度を表すNMARnessを定義しその性質を調べた．特に，NMARnessとAPBの関係を議論した．

11月9日

第16.1回（K）：	北條新太郎 (M2)
題目：	修論中間報告 : Effect of Distribution Misspecification in Normal-theory MI and ML for the Analysis for Incompleter Data [pdf]
概要：	代入法とは欠測のあるデータを解析する手法であり，モデルから代入値を生成して欠測部分に代入することで疑似的な完全データを作る方法であるが，特に疑似完全データの組を複数作る場合を多重代入法という．通常，多重代入法を適用するときには，データは正規分布に従っていることを前提とした推定量（Normal-thoery estimator）を用いるが，データの母集団が正規分布以外のときのNormal-theory estimatorの漸近分散を算出した．また，シミュレーションを行い，理論値に追従することを示した．

第16.2回（K）：	堀池譲立 (M2)
題目：	修論中間報告 : 人の寿命に対するハザードモデル [pdf]
概要：	人の寿命に対するハザードは高齢になると減速することが知られており、そのモデルはHeterogeneity Hypothesisによって導かれるロジスティックモデルで表現されることが多い。しかし、この減速減少を表現するのにはIndividual Risk Hypothesisというもう一つの有力な仮説があり、この仮説は十分に吟味されていない。そこで、Heterogeneity HypothesisとIndividual Risk Hypothesisの両方の仮説を組み込んだモデルを提案し、そのモデルの妥当性について議論する。

11月16日

第17.1回（K）：	望田雄真 (M2)
題目：	修論中間報告 : KCLアルゴリズムの一致性 [pdf]
概要：	KCLアルゴリズムとは、グラフィカルモデルリングにおけるアルゴリズムの一つで、正定値カーネルによる依存性の尺度を用いて因果構造を推定する。本研究では、主に依存性の尺度やグラフの構成について評価し、 KCLアルゴリズムの一致性に関する検討を行う。

第17.2回（K）：	水関裕人 (M2)
題目：	修論中間報告 : 2因子モデルの探索可能性について [pdf]
概要：	代数統計学の見地から因子分析の分散構造について考える。今回は特に2因子モデルに注目して発表を行う。

12月7日

第18.1回（K）：	山本倫生 (D2)
題目：	関数データの低次元部分空間におけるクラスタリング法の比較 [pdf]
概要：	ある解析法による結果を用いて別の解析方法を実施することをTandem analysisという．本発表では，関数データにおけるTandem analysisの問題を解決するための方法として，次元縮約と対象のクラスタリングを同時に行う方法を2つ提案した．また，データの分解に基づいて2つの方法について考察し，シミュレーションによって比較を行った．

第18.2回（K）：	鎌谷研吾 (助教)
題目：	研究(自己)紹介
概要：	自己紹介及び次世代シーケンサを用いた遺伝統計解析，確率過程の統計ソフトウェア YUIMA Projectの紹介およびマルコフ連鎖モンテカルロ法の漸近論など雑多な研究紹介を行う．現在研究中の混合モデルに対するモンテカルロ法の振る舞いも紹介する．

12月14日

第19.1回（K）：	門脇達彦 (研究生)
題目：	正倉院・古文書「食口案」データの多変量時系列解析
概要：	TBA

第19.2回（T）：	鎌田亜美・土田友里恵 (M1)
題目：	鎌田：中心極限定理 [pdf] 土田：基礎ゼミ報告 [pdf]
概要：	基礎ゼミの途中経過報告．

12月21日

第20回（T）：	磯崎郷平・田辺竜ノ介・中矢徹・森川耕輔 (B4)
題目：	磯崎：シンボリックデータ解析田辺：ゼロトランケートとゼロ修正モデルの解析中矢：初婚ハザードのコーホート分析森川：単調な欠測データの解析
概要：	卒業論文の途中経過に関する報告．

1月11日

第21.1回（K）：	寺田吉壱 (D1)
題目：	多様体学習と多次元尺度構成法 -Local Multidimensional Scaling - [pdf]
概要：	本発表では，多様体学習について IsomapやLocal MDS等の多次元尺度構成法に基づく方法を中心に適用例を紹介しながら述べた．また，Chen and Buja (2009)によって提案されたLocal MDSについては, Majorization Algorithmを提案し，MDSとクラスタリング法との同時分析法を Local MDSに拡張した．

第21.2回（T）：	片山翔太 (D1)
題目：	高次元データに対する統計的推測
概要：	TBA

1月18日

第22.1回（K）：	堀池譲立 (M2)
題目：	Individual Risk Hypothesisを取り入れた人の寿命に対するハザードモデル [pdf]
概要：	人の寿命に対するハザードモデルを考える際，GompertzモデルやLogisticモデルが使われるが，これらのモデルでは後年，過剰推定してしまうという問題点がある．本発表においては，これらのモデルよりデータへの適合度が高いIndividual Riskモデルを提案し，既存のモデルとの比較を行う．

第22.2回（K）：	水関裕人 (M2)
題目：	誤差相関のない2因子モデルの探索可能性について [pdf]
概要：	1因子モデルに対して統計的根拠を与える条件について考察を行い，それを元に，2因子モデルに対して統計的根拠を与える条件の導出を行う．

第22.3回（K）：	望田雄真 (M2)
題目：	KCLアルゴリズムにおける因果の方向付けについて [pdf]
概要：	統計的因果推論とは，変数集合内の変数間の因果関係をデータから推定するための方法論を指す．その手法の一つに，ある2つの原因の共通の効果を表す合流点を，（条件付）独立性によって導くというものがあるが，Sun(2008)で提案されているKCLアルゴリズムでは，カーネル法によって構成される kerneldependence measureを用いて依存性の強弱を捉え，独立性からは得られない合流点の導出を試みている．しかし，実際には一般にそのような構造を得られるわけではなく，また誤判別が多く発生するという問題点がある．本研究では，これらの問題点をkernel dependence measureに関する計算を行なうことで確認した．そしてKCLアルゴリズムをもとに，より正確に因果関係の方向を得るための新たな手続きを提案した．更に，シミュレーションを用いてkernel dependence measureの推定量の挙動を確認し，手続き上で用いられるチューニングパラメータの適切な値についての検討を行った．

第22.4回（K）：	北條新太郎 (M2)
題目：	Effect of Distribution Violation in Normal-theory MI and ML for the Analysis of Incomplete Data [pdf]
概要：	代入法とは欠測のあるデータを解析する手法であり，モデルから代入値を生成して欠測部分に代入することで疑似的な完全データを作る方法であるが，特に疑似完全データの組を複数作る場合を多重代入法という．通常，多重代入法を適用するときには，データは正規分布に従っていることを前提とした推定量（Normal-thoery estimator）を用いるが，データの分布が未知であるときのNormal-theory Estimatorの挙動はほとんど解明されていない．本研究では，データの分布が未知であるときのNormal-theory estimatorの漸近分布を算出した．また，シミュレーションによって，サンプル数が有限であるときと漸近的な理論結果との相違点を検討した．

1月25日

第23回（K）：	磯崎郷平・森川耕輔・田辺竜ノ介・中矢徹 (B4)
題目：	磯崎：シンボリックデータ解析森川：単調な欠測データの一般化線形モデルと潜在曲線モデルによる解析 [pdf] 田辺：ゼロトランケートとゼロ修正モデルの解析中矢：初婚ハザードのコーホート分析 [pdf]
概要：	卒業論文の最終結果に関する報告．

2月1日

第24.1回（T）：	鎌田亜美・土田友里恵 (M1)
題目：	鎌田：Lindeberg-Fellerの中心極限定理 [pdf] 土田：基礎ゼミ報告会（リベンジ）
概要：	鎌田：リンドバーグの中心極限定理の証明を紹介する. 土田：TBA

第24.2回（K）：	高木義治 (D3, 社会人)
題目：	生存時間データにおける観測打切りの推定への影響について
概要：	TBA．

狩野研究室トップページへ