データ科学特論I
はじめに
理工系、生命系、経済・社会系等、多くの学問分野で実証研究が行われています。修士論文や博士論文においても適切なデータ解析が求められます。データ採取の方法や実験・調査のデザインは個々の学問分野や研究対象に依拠することも多いですが、データ解析の方法とそのための基本的な考え方には普遍性があります。
本講義では、実質科学においてデータ解析を研究の道具として実際に使う学生(+研究者)を対象に、具体的な分析の手順・方法とそれらの数理的基礎、そしてそれらを適用する際の注意事項等を講述します。 講義に出席し必要な課題を提出し合格した受講生へは単位認定を行います。
なお、本講義は、文科省大学間連携共同教育推進事業における取組「データに基づく課題解決型人材育成に資する統計教育質保証」の活動の一環として実施されます。
講義基本情報
科目名称 | データ科学特論I |
---|---|
単位数 | 2 |
受講対象 | 全国の大学院生 |
担当教員 | 狩野 裕、内田 雅之(世話教員) |
開講学期 | 第1学期(2013年8月26日(月)~8月31日(土) 集中) ただし,8/31は予備日 |
会場 | 大阪大学 基礎工学研究科 B棟 3F B300 (豊中キャンパス,基礎工B棟 3F B300へのアクセスマップ) |
受講要件 | 学部1年次レベルの統計学を履修または自習した者 |
単位認定 | 出席とクラス内活動,レポート課題により総合評価 |
履修方法
- 大阪大学の大学院生
- KOANから履修登録をしてください。
- 大阪大学以外の大学院生
- 特別聴講学生として受け入れます。履修を希望される方は、予め附則事項をお読みください。
- 履修科目届(xlsx形式)をダウンロードして必要事項を記入し、西田 豊 宛(nishida@sigmath.es.osaka-u.ac.jp)(@は小文字に変換してください)にメールで送付してください。申込期間は 2013年4月1日(月)~4月26日(金)です。
- その他
- 問合せ先(西田 豊、nishida@sigmath.es.osaka-u.ac.jp)(@は小文字に変換してください)にご相談ください。
講義計画と内容
日程 | 担当教員 | 講義題目 |
---|---|---|
講義内容 | ||
8/26(月) 3限~5限 (13:00-17:50) |
狩野 裕 (大阪大学 基礎工学研究科) | データ科学の基礎(2コマ) |
科学的な研究において何故データを分析する必要があるのか,データ分析で何が分かるのか,何故確率分布を考える必要があるのか等,データ科学の根源的な内容を解説する.統計的推測に関する知識を整理すると共に正確な理解を促す.また,確率的な現象の意味,推測の過誤,検出力とサンプルサイズの設計,そして,適切な統計分析のための3つのS (statistical significance, practical significance, theoretical significance)等についても講述する. | ||
熊谷 悦生 (大阪大学 基礎工学研究科) | データ解析環境Rの基礎(1コマ) | |
データ解析環境Rはフリーのソフトであり,実際のデータ解析に用いられるだけでなく,統計手法や確率的現象の理解を助けるためにも用いられる.本講義全体においてRが利用されるため,基本的な利用方法を解説する. | ||
8/27(火) 2限~4限 (10:30-16:10) |
久保 拓弥 (北海道大学 地球環境科学研究院) | 一般化線形(混合)モデル(3コマ) |
データ解析では「このデータはどのように発生したのか」を説明する.統計モデルが使われることが多い.ここでは,もっとも基本的の統計モデルのひとつである一般化線形モデル(GLM) について解説する.「0 個,1個,……」と数えられるカウントデータの解析には,離散確率分布であるポアソン分布・二項分布を部品とする GLM が適当であり,Rを使ってそのパラメーターを最尤推定する方法を示す.また現実のデータ解析では GLM を強化した一般化線形混合モデル (GLMM)が必要になる.階層ベイズモデルとの関連にもふれながら,GLM から GLMM に拡張する過程を説明する. | ||
8/28(水) 2限~4限 (10:30-16:10) |
坂本 亘 (岡山大学 環境生命科学研究科) | ノンパラメトリック回帰(3コマ) |
回帰関数の形状を規定せず,より柔軟に回帰関数を推定する方法をノンパラメトリック回帰という.工学分野では平滑化とも呼ばれ,様々な方法が開発されている.本講義では,スプライン平滑化を中心に,罰則付き推定(正則化法)の方法,および滑らかさを制御する平滑化パラメータの選択方法を概説する.説明変数が複数ある場合への拡張,基底関数や節点をデータから選択するための方法などにも触れる.統計計算環境 R を用いて,実際のデータ解析事例も紹介する. | ||
8/29(木) 3限~5限 (13:00-17:50) |
今泉 忠 (多摩大学 大学院経営情報学研究科) | 判別分析,クラスター分析,MDS(3コマ) |
従来のクラスター分析や判別分析では群の数が少ない場合を扱ってきた。しかし,より多くの群が想定される場合や階層的な群の構造などを想定するのが適切な場合が増えてきた。また,MDS(多次元尺度構成法)でも少ない個体間(もの間)を扱ってきたが多くの個体の連関行列や非対称な関係をも扱う場合が増してきた。 | ||
8/30(金) 3限~5限 (13:00-17:50) |
金森 敬文 (名古屋大学 情報科学研究科) | 正定値カーネルによるデータ解析(3コマ) |
機械学習の分野で近年注目されているカーネル法について講義を行う.最初に,カーネル関数を用いた統計的推論について概観し,次にカーネル法の理論的背景としての再生核ヒルベルト空間論について簡単に解説する.さらに,大量のデータを効率的に処理するための計算アルゴリズムや統計的性質についても講述する.Rを用いたプログラムの実例を示しつつ,理論と実装の両面について解説することを予定している. |
事情により講義内容等を変更する可能性があります。 なお、各講義時間は下記の通りです。
2限 10:30-12:00 | |
3限 13:00-14:30 | |
4限 14:40-16:10 | |
5限 16:20-17:50 |