生成型AIの医学生評価への有効性：実験研究

🧠 生成型AIの医学生評価への有効性

近年、医療教育における評価方法が注目されています。特に、客観的構造化臨床試験（OSCE）は医学生の臨床スキルを評価するための重要な手段ですが、リソースを多く消費するため、実施が難しい場合があります。そこで、生成型人工知能（AI）、特にChatGPT-4がOSCEの補完的な評価者として有効であるかどうかを検討した研究が行われました。

📝 研究概要

この研究は、日本の医科大学で実施され、2023年4月から12月にかけて行われました。対象は、一般内科の実習を受けている5年生の医学生11名で、模擬医療面接を行い、患者ノートを作成しました。4人の医師が医療面接の動画と患者ノートを独立して評価し、ChatGPT-4には面接のトランスクリプトとノートが提供されました。

🔬 方法

評価は、患者ケア、コミュニケーション、病歴聴取、身体検査、臨床推論、管理の6つのドメインに基づいて行われました。各ドメインは、1（非常に悪い）から6（優れている）までの6段階のリッカートスケールを用いてスコアリングされました。中央値のスコアはウィルコクソン符号付順位検定を用いて比較され、ChatGPT-4と医師の間の一致度は、クラス内相関係数（ICC）を用いて評価されました。

📊 主なポイント

評価ドメイン	ChatGPT-4のスコア (中央値, IQR)	医師のスコア (中央値, IQR)	P値
身体検査	4.0 (4.0-5.0)	4.0 (3.0-4.0)	0.02
患者ノート	6.0 (5.0-6.0)	4.0 (4.0-4.0)	0.002
臨床推論	5.0 (5.0-5.0)	4.0 (3.0-4.0)	<0.001
管理	6.0 (5.0-6.0)	4.0 (2.5-4.5)	0.002
患者ケアとコミュニケーション	5.0 (5.0-5.0)	5.0 (4.0-5.0)	0.06
病歴聴取	5.0 (4.0-5.0)	5.0 (4.0-5.0)	>0.99

🔍 考察

研究結果から、ChatGPT-4は身体検査、患者ノート、臨床推論、管理の各ドメインで医師よりも高いスコアを付けましたが、患者ケアとコミュニケーション、病歴聴取のドメインでは有意な差は見られませんでした。また、ICC値は全てのドメインで低く、一致度は良好とは言えませんでした。これらの結果は、生成型AIがOSCEの一部のドメインで評価を補完する可能性を示唆していますが、さらなる研究が必要です。

💡 実生活アドバイス

医学生や教育者は、生成型AIを補助的なツールとして活用することを検討してみてください。
AIの評価結果を参考にしつつ、医師の評価も重視することが重要です。
今後の研究成果に注目し、AIの進化を医療教育に取り入れる方法を探ることが大切です。

🔒 限界/課題

本研究にはいくつかの限界があります。まず、サンプルサイズが小さく、一般化可能性に欠ける点が挙げられます。また、AIの評価が医師の評価と一致しない場合が多く、AIの信頼性や妥当性を確立するためには、さらなる研究が必要です。

まとめ

生成型AIは医学生の評価において一定の有効性を示しましたが、医師の評価との一致度は低く、さらなる研究が求められます。今後の医療教育におけるAIの役割に期待が寄せられています。

参考文献

原題	The Validity of Generative Artificial Intelligence in Evaluating Medical Students in Objective Structured Clinical Examination: Experimental Study.
掲載誌(年)	JMIR Form Res (2025 Dec 4)
DOI	doi: 10.2196/79465
PubMed URL	https://pubmed.ncbi.nlm.nih.gov/41343812/
PMID	41343812

書誌情報

DOI	10.2196/79465
PMID	41343812
PubMed URL	https://pubmed.ncbi.nlm.nih.gov/41343812/
発行年	2025
著者名	Yokose Masashi, Hirosawa Takanobu, Sakamoto Tetsu, Kawamura Ren, Suzuki Yudai, Harada Yukinori, Shimizu Taro
著者所属	Department of Diagnostic and Generalist Medicine, Dokkyo Medical University, Tochigi, Japan. / Department of Internal Medicine, Yamagata Prefectural Kahoku Hospital, Yamagata, Japan.
雑誌名	JMIR formative research

DOI	10.1007/s10143-025-04022-x
PMID	41423515
PubMed URL	https://pubmed.ncbi.nlm.nih.gov/41423515/
発行年	2025
著者名	Matsuo Kazuya, Aihara Hideo, Hara Yoshie, Morishita Akitsugu, Sakagami Yoshio, Miyake Shigeru, Tatsumi Shotaro, Yamashita Haruo, Sasayama Takashi, Muragaki Yoshihiro
雑誌名	Neurosurgical review

DOI	10.1186/s12880-025-02132-y
PMID	41580638
PubMed URL	https://pubmed.ncbi.nlm.nih.gov/41580638/
発行年	2026
著者名	Pan Xiao, Zou Yanni, Huang Xiaoxiao, Li Tao, Zhang Quan, Hu Jing, Zhao Wenhua, Peng Peng
雑誌名	BMC medical imaging

DOI	10.1016/j.numecd.2025.104487
PMID	41484024
PubMed URL	https://pubmed.ncbi.nlm.nih.gov/41484024/
発行年	2025
著者名	Abuqwider Jumana, Pasolli Edoardo, Scidà Giuseppe, Corrado Alessandra, Vitale Marilena, De Filippis Francesca, Ercolini Danilo, Annuzzi Giovanni, Rivellese Angela A, Bozzetto Lutgarda
雑誌名	Nutrition, metabolism, and cardiovascular diseases : NMCD

生成型AIの医学生評価への有効性：実験研究