医学生と大規模言語モデルの試験成績比較研究

🧠 医学生と大規模言語モデルの試験成績比較研究

近年、医療や医療教育において大規模言語モデル（LLMs）がますます利用されるようになっています。しかし、特に負のマークがある選択肢問題（MCQs）において、これらのモデルのパフォーマンスはまだ明らかではありません。本記事では、医学生と5つの現代的なLLMsの試験成績を比較した研究を紹介します。この研究は、スペインのミゲル・エルナンデス大学で行われ、感染症、神経学、呼吸器医学、心血管医学の4つの臨床コースにおける最終試験が対象となっています。

📊 研究概要

この研究は、2025年に行われた比較横断研究であり、医学生442人と5つの大規模言語モデル（OpenAI o1、GPT-4o、DeepSeek R1、Microsoft Copilot、Google Gemini 1.5 Flash）の試験成績を比較しました。各モデルは、2回の独立した試行で全てのMCQsに回答しました。

🔍 方法

試験はスペイン語で行われ、各コースの最終試験において、学生の成績は平均±標準偏差または中央値（四分位範囲）として要約されました。モデル間のペアワイズ差はMcNemarの検定を用いて調査され、学生とLLMの対比は記述的に示されました。

📈 主なポイント

コース	LLMの平均スコア	学生の平均スコア
感染症	8.75	4.28
神経学	9.00	5.50
呼吸器医学	9.88	6.10
心血管医学	7.46	7.32

🧐 考察

研究の結果、全てのLLMsは学生の中央値を上回り、いくつかのコースでは最高得点を記録しました。特に、OpenAI o1は3つのコースで最高の平均スコアを達成し、Microsoft Copilotは心血管医学でのテキストのみのサブセットでリードしました。全体として、LLMsは8.75の平均スコアを記録し、学生は5.76でした。これらの結果は、LLMsがMCQ評価の補助ツールとして慎重に使用されるべきであることを示唆しています。

💡 実生活アドバイス

医療教育においてLLMsを利用する際は、教員の監督の下で行うことが重要です。
負のマークがある試験においても、LLMsのパフォーマンスを考慮することが必要です。
他の機関や言語、画像を含む形式での確認が求められます。
LLMsの教育的影響を評価することが重要です。

⚠️ 限界/課題

この研究にはいくつかの限界があります。まず、試験は特定の機関で行われたため、他の機関や文化における結果が異なる可能性があります。また、LLMsのパフォーマンスが教育的な影響を及ぼすかどうかは、今後の研究で確認する必要があります。さらに、画像を含む問題への対応能力についても評価が必要です。

まとめ

この研究は、大規模言語モデルが医学生の試験成績を上回る可能性を示しており、医療教育における新たなアプローチを提供しています。しかし、LLMsの使用には慎重な監視とさらなる研究が必要です。

🔗 関連リンク集

参考文献

原題	When AI models take the exam: large language models vs medical students on multiple-choice course exams.
掲載誌(年)	Med Educ Online (2025 Dec 31)
DOI	doi: 10.1080/10872981.2025.2592430
PubMed URL	https://pubmed.ncbi.nlm.nih.gov/41316903/
PMID	41316903

書誌情報

DOI	10.1080/10872981.2025.2592430
PMID	41316903
PubMed URL	https://pubmed.ncbi.nlm.nih.gov/41316903/
発行年	2025
著者名	Ros-Arlanzón Pablo, Gutarra-Ávila Renato, Arrarte-Esteban Vicente, Bertomeu-González Vicente, Hernández-Blasco Luis, Masiá Mar, Navarro-Canto Laura, Nieto-Navarro Juan, Abarca Javier, Sempere Angel P
著者所属	Neurology Department, Dr. Balmis General University Hospital, Alicante, Spain. / Department of Clinical Medicine, Miguel Hernández University, Alicante, Spain. / Department of Neurosurgery, Dr. Balmis General University Hospital, Alicante, Spain.
雑誌名	Medical education online

DOI	10.1186/s12913-026-14010-6
PMID	41547796
PubMed URL	https://pubmed.ncbi.nlm.nih.gov/41547796/
発行年	2026
著者名	He Yue, Zhang Francis Xiatian, Wu Xiaxia, Fang Meng, Zheng Sisi, Zhu Hong
雑誌名	BMC health services research

DOI	10.1016/j.oooo.2025.11.008
PMID	41456988
PubMed URL	https://pubmed.ncbi.nlm.nih.gov/41456988/
発行年	2025
著者名	Wasserman Gilad, Grinberg Nadav, Peleg Oren, Shuster Amir, Ianculovici Clariel, Hurvitz Ayelet Zlotogorski, Kleinman Shlomi
雑誌名	Oral surgery, oral medicine, oral pathology and oral radiology

DOI	10.1186/s12951-026-04351-z
PMID	41937211
PubMed URL	https://pubmed.ncbi.nlm.nih.gov/41937211/
発行年	2026
著者名	Guo Yadong, Du Wenbo, Cheng Shuguang, Li Yongshan, Xiao Siwen, Yang Lan, Wang Liping, Pathak Janak Lal
雑誌名	J Nanobiotechnology

医学生と大規模言語モデルの試験成績比較研究