データ科学特論 I

はじめに

理工系,生命系,経済・社会系等,多くの学問分野で実証研究が行われている.修士論文や博士論文においても適切なデータ解析が求められる.データ採取の方法や実験・調査のデザインは個々の学問分野や研究対象に依拠することも多いが,データ解析の方法とそのための基本的な考え方には普遍性がある.

本講義では,実質科学においてデータ解析を研究の道具として実際に使う学生を対象に,具体的な分析の手順・方法とそれらの数理的基礎,そしてそれらを適用する際の注意事項等を講述する.統計学から見たデータの採取方法を理解すること,及び,分析技法の正しい理解の下でデータを適切に解析できることを目的とする.

なお、本講義は、文科省大学間連携共同教育推進事業における取組「データに基づく課題解決型人材育成に資する統計教育質保証」の活動の一環として実施される.

講義基本情報

科目名称データ科学特論 I
単位数2
担当教員狩野 裕,内田雅之,西田 豊(世話教員)
開講学期第1学期(2015年8月27日(木)~9月1日(火) 集中)
会場大阪大学 基礎工学研究科 B棟 3F B300
豊中キャンパス,基礎工B棟 3F B300へのアクセスマップ
受講要件学部1年次レベルの統計学を履修または自習した者
単位認定出席とクラス内活動,レポート課題により総合評価

履修方法

  • 大阪大学の大学院生
    • KOANから履修登録をしてください。
    • 履修登録期間:4月1日~4月21日
      (基礎工学研究科の登録期間.所属部局の登録期間はこれより短いことがあります)
     
  • 同志社大学 大学院文化情報学研究科の大学院生
    • 部局間協定により,特別聴講学生として受け入れます。当該授業科目を履修し考査に合格したときに,所定の単位が与えられ,必要に応じて成績証明書が交付されます。単位互換については,所属大学にお問い合わせください。
    • 受講申請先:同志社大学 文化情報学部 事務室
    • 受講申請期間:上記事務室にお問合せください
     
  • 大阪府立大学 大学院理学系研究科の大学院生
    • 部局間協定により,特別聴講学生として受け入れます。当該授業科目を履修し考査に合格したときに,所定の単位が与えられ,必要に応じて成績証明書が交付されます。単位互換については,所属大学にお問い合わせください。
    • 受講申請先:大阪府立大学 教育推進課 教務グループ(A3棟)理学教務担当
    • 受講申請期間:上記教務担当にお問合せください
     
  • その他
    • 本講義は大学間連携共同教育推進事業の公開講義として統計教育に係る教員や他大学大学院生等に公開します。無料で受講できますが単位認定や修了証等はありません。受講人数に制限があります。
    • 公開講義申込書: こちらのwebフォームから申し込んでください 申し込みは終了しました
    • 公開講義申込期間: 4月8日~4月30日
    • 受講可否: 5月31日までに連絡します
     
  • 問合せ先
    • 西田 豊(nishida@sigmath.es.osaka-u.ac.jp)(@は半角文字に変換してください)

講義計画と内容

日程 担当教員講義題目
講義内容
8/27(木)
3限~5限
(13:00-17:50)
柳川 堯 (久留米大学 バイオ統計センター) 観察データの多変量解析(3コマ)

ヒトを対象とする観察研究, 特に2群比較問題に焦点をあてて講義を行う. 数理統計学は母集団からの無作為抽出やランダム化割り付けを前提としたデータを対象とするが観察研究で対象とするデータはこれらを前提としない. さらに, 人体実験が出来ないなどの制約がある. 同じヒトはいない. 両群間には遺伝的・環境的因子の分布のインバランスがあるのが当たり前である. 第1コマでは, その結果生じるゆゆしいバイアスについて, 第2コマでは. 両群の比較可能性や研究結果の再現性を保証する観察研究のデザインについて, 第3コマでは, その解析法について解説する.

8/28(金)
2限~4限
(10:30-16:10)
服部 聡 (久留米大学 バイオ統計センター) 比例ハザードモデル(3コマ)

生存時間解析は関心のある事象が生起するまでの時間を解析する方法論で、臨床腫瘍学などにおいて非常に重要な役割を果たしている。打ち切りを受けるというデータの性質からモデルの同定が困難となり、仮定の少ないセミパラメトリックモデルによる推測が中心的な役割を果たしている。本講義では代表的なセミパラメトリックモデルである比例ハザードモデルを中心として、統計的推測の考え方、モデル同定の方法などについて解説を行う。

8/29(土)
2限~4限
(10:30-16:10)
西山 陽一 (早稲田大学 国際学術院) マルチンゲール理論による統計解析の基礎(3コマ)

マルチンゲール理論は,計量経済や臨床統計において実用化されているさまざまな手法の基礎を与える数学的理論である. 本講では,同理論にもとづく統計解析を,厳密さを損なうことなくなるべく平易に解説する.具体的には,マルチンゲール理論のうち統計学の研究のために必要な部分のわかりやすいサーベイを与えること,および,統計的漸近理論のうち,特に Z-推定量の一致性および漸近正規性の明快な解説を与えることを主目標とする.

8/31(月)
3限~5限
(13:00-17:50)
岩崎 学 (成蹊大学 理工学部) 統計的因果推論の基礎(3コマ)

因果関係の確立は,ほとんどすべての科学研究の目的である.因果推論にはいくつかのアプローチ法があるが,本講義では,潜在的結果 (potential outcomes) に基づくRCM (Rubin Causal Model) の観点を紹介する.これは,反事実モデル (counterfactual model) とも呼ばれ,創始者のD. B. Rubinによると,欠測の問題とも捉えられる.傾向スコア(propensity score) の利用,マッチングや層別,重み付け推定,操作変数法などについて,分かりやすく解説する.

9/1(火)
2限~4限
(10:30-16:10)
阿部 貴行 (慶應義塾大学 医学部) 欠測データの統計解析(3コマ)

多くの研究で欠測データは不可避であり,データ解析の際,研究者がその対処に悩む問題となっている.欠測データの統計解析では,観察されたデータを最大限活用しバイアスが少なく効率の高い手法を選択することが重要である.本講義では,欠測データの統計解析の枠組みを定式化し,研究目的や欠測が生じるメカニズムごとに適切な統計手法を整理する.臨床試験のデータ解析事例を用いながら,混合効果モデル,multiple imputation,重み付け解析,EMアルゴリズム,選択モデル,パターン混合モデルなどについて解説する.

事情により講義内容等を変更する可能性があります。 なお、各講義時間は下記の通りです。

 2限 10:30-12:00
 3限 13:00-14:30
 4限 14:40-16:10
 5限 16:20-17:50