医療データ科学実習(Practice of Biomedical Data Science)
講師 |
松井茂之,松井孝太,江本遼,西田一貴 (医療統計学) |
日程 |
火曜日3,4限 |
概要
この演習では,医療データ科学(コア)の講義で学んだ医療データ科学の考え方を実際に実践することでその理解の定着を図ることを目的とします.フリーのデータ解析のソフトウエアとして今日幅広く使用されている「R」を用いた実習を中心に行います.後半は様々な実データを解析し,結果を整理してプレゼンテーションするグループ実習を行います.本実習の受講にあたり,各自のノートパソコン(Windows,Mac)を持参してください.
到達目標
- 医療データ科学の考え方,基本的なデータ解析法についての理解を深める.
- データ解析ソフトを用いて,データ読み込みからデータ解析までを適切に行い,解析結果を適切に解釈できるようになる.
成績評価
- 数回の個人レポートとグループによるプレゼンテーションと質疑応答を評価します.
- 配分はレポート70%,グループ実習でのプレゼンテーションと質疑応答30%相当とします.
準備
- RおよびRStudioを各自のパソコンにインストールします(インストールについては初回の講義時に説明します).
- Rは統計を含むデータ解析に特化したオープンソースのプログラミング言語であり,医学・生物学研究をはじめ多くの領域で広く用いられています.
- RStudioはR用の主要な統合開発環境 (Integrated Development Environment, IDE) です.多くの人がRStudioを使ってRのコーディング,実験管理を行います.
- 講義中のRコードの共有にはGoogle Colabを利用します.利用にはGoogleアカウントが必要となりますので,持っていない場合は作成をしてください(アカウントの作成は無料でできます).
講義スケジュールとコンテンツ
凡例:📖 スライド資料,💻 Google Colab,💡 slido (質疑応答フォーラム)
第1回(4/8): データ解析ソフト「R」事始め, インストール, 環境設定
- Rのインストール方法 📖
- RStudioのインストール方法 📖
- R言語で何ができるか?📖
- R言語事始め 📖
第2回(4/15): データセットの作成 💡
- R言語事始め(続き)📖
- Rにおけるデータテーブルの作成
- R上のデータテーブルの外部ファイルへの書き出しと外部データのRへの読み込み
- Rの組み込み関数
- 外部パッケージのインストールとインポート
- Rによる擬似乱数生成 💻
- ベクトル演算 💻
- 乱数生成とプロット 💻
- Microsoft Excelで作られたデータの取り扱い 📖 データセット
- Rに正しくデータを読み込むための前処理
- Excel上でのデータ作成,データテーブルの修正とCSVファイルへの変換
- よくあるExcelやCSVの問題点と対処法
- 適切なデータセットとは
- Rへの読み込みとR上でのデータチェック
250418更新:
- R言語事始め(続き)スライドp14 Rによる数値計算とベクトル演算の演習問題を正しいものに差し替え
- R言語事始め(続き)スライドp18 乱数生成とプロットのサンプルコードを追加
第3回(4/22): データの集計 📖 💡
- ベース機能を使っての表作成 📖 演習問題(発展)
- 一変数:離散変数の頻度集計,連続変数の頻度集計
- 二変数:離散変数のクロス集計
- 要約統計量算出(連続変数の平均,中央値,分散,標準偏差など)
- 層別の集計,要約統計量の計算 💻
- 外部パッケージを使ってのデータ集計
- dplyrとjanitorを使ったデータ操作・集計,クロス集計や頻度表の作成
- 組み込み関数を用いた集計と外部パッケージを用いた集計の違い
第4回(5/13): グラフの作成1 💡
- ベース機能を使ったグラフの作成
- 一次元の連続変数の経験分布(相対頻度,累積頻度,生存頻度),多群の重ね描き,ボックスプロット 📖
- 二次元の連続変数の散布図,多群の重ね描き,時系列 📖 💻
- タイトル,軸線,ラベルフォント・サイズ,プロット点の大きさ,凡例などの設定方法
250516更新:
- 一次元の連続変数のプロットのスライドに演習問題のサンプルコードと実行例を追加 📖
第5回(5/20): グラフの作成2
- パッケージを使ったグラフの作成
- 一次元の連続変数の経験分布(相対頻度,累積頻度,生存頻度),多群の重ね描き,ボックスプロット 📖
- 二次元の連続変数の散布図,多群の重ね描き,時系列 📖
- タイトル,軸線,ラベルフォント・サイズ,プロット点の大きさ,凡例などの設定方法
第6回(5/27): 記述統計
- 一次元の離散変数,連続変数に対する 📖
- 経験分布,要約統計量(平均,分散,標準偏差,パーセンタイル)
- 歪んだ分布の問題と対応
- 外れ値の影響
- 二次元の離散変数,連続変数に対する 📖
- 経験分布,要約統計量(平均,分散,標準偏差,パーセンタイル)
- 歪んだ分布の問題と対応
- 外れ値の影響
- qq-plot
- 相関計数
250603更新:
第7回(6/3): シミュレーション, 統計的推測の基本概念 前半 📖 後半 📖
- 興味あるパラメータの推定
- 推定量の分布,分散,標準誤差,信頼区間,被覆確率(一様分布,正規分布,指数分布,ポアソン分布,ベルヌーイ分布)
- 多数の独立なシミュレーションの実行
- リスク差,リスク比,オッズ比の信頼区間
- 二群の平均の差の信頼区間
250603更新:
- 前半のスライドの数式の崩れの修正,p66-67のサンプルコードのミスを修正
第8回(6/10): 統計的仮説検定の基本概念とサンプルサイズ設計
- 仮説検定の基本概念 📖, 検出力曲線のサンプルコード:💻
- 仮説検定のロジック,片側/両側検定
- 帰無仮説/対立仮説,有意水準,p値
- 第一種の過誤と第二種の過誤
- サンプルサイズ設計 📖
250613更新:
- 前半の最後の演習問題のサンプルコードを追加(真の反応率を変えたときの検出力曲線の描画)💻
第9回(6/17): グループ実習1: データ選択・収集, 解析計画書 💡
- グループワーク実施要項 📖
- 班分けはPandAにアップロードしてあるので各自確認の上班ごとの位置に着席する
第10回(6/24): グループ実習2: データ解析
- グループワーク実施要項 (更新) 📖
- 班分けはPandAにアップロードしてあるので各自確認の上班ごとの位置に着席する
第11回(7/1): グループ実習3: データ解析
第12回(7/8): コーディングテスト / グループ実習4: 報告資料の作成
コーディングテスト(3限目,13:15-14:45) 試験問題 📖
- 試験問題はPandAにもアップロードします
- 試験時間:60分(Exam duration: 60 minutes)
- 資料の持ち込みおよびweb検索は可.生成AIの能動的な使用と周囲との相談は不可(You can bring reference materials and perform web searches. Active use of generative AI and consultation with others are not allowed)
- 自身のR,RStudio,またはGoogle Colab環境で実施すること(You must complete the tasks using your own R, RStudio, or Google Colab environment)
- テキストエディタは自由(You can use any text editor of your choice)
- 各問題の出力は,指定された方法で問題ごとの提出フォームからアップロードしてください(Upload the output for each question using the designated submission form for that specific question)
グループワーク(4限目,15:00-16:30)
- データ解析の内容をfix
- 基本的にはこの時間までの内容をもとに最終プレゼンを作成する
- 時間外に追加の解析をしたりプレゼン資料を作成することは認める
第13回(7/15): 診断・予後解析研究におけるデータ解析,グループワーク実習5
診断・予後解析研究におけるデータ解析の実習(30分程度) 📖
グループワーク(150分程度)
- 発表資料の作成
- 余裕がある班は追加の解析などを実施しても良い
第14回(7/22): グループ実習6: プレゼンテーション
プレゼン資料投稿フォーム(google form)📮
© 2025 Kota Matsui