医学生と大規模言語モデルの試験成績比較研究

🧠 医学生と大規模言語モデルの試験成績比較研究

近年、医療や医療教育において大規模言語モデル（LLMs）がますます利用されるようになっています。しかし、特に負のマークがある選択肢問題（MCQs）において、これらのモデルのパフォーマンスはまだ明らかではありません。本記事では、医学生と5つの現代的なLLMsの試験成績を比較した研究を紹介します。この研究は、スペインのミゲル・エルナンデス大学で行われ、感染症、神経学、呼吸器医学、心血管医学の4つの臨床コースにおける最終試験が対象となっています。

📊 研究概要

この研究は、2025年に行われた比較横断研究であり、医学生442人と5つの大規模言語モデル（OpenAI o1、GPT-4o、DeepSeek R1、Microsoft Copilot、Google Gemini 1.5 Flash）の試験成績を比較しました。各モデルは、2回の独立した試行で全てのMCQsに回答しました。

🔍 方法

試験はスペイン語で行われ、各コースの最終試験において、学生の成績は平均±標準偏差または中央値（四分位範囲）として要約されました。モデル間のペアワイズ差はMcNemarの検定を用いて調査され、学生とLLMの対比は記述的に示されました。

📈 主なポイント

コース	LLMの平均スコア	学生の平均スコア
感染症	8.75	4.28
神経学	9.00	5.50
呼吸器医学	9.88	6.10
心血管医学	7.46	7.32

🧐 考察

研究の結果、全てのLLMsは学生の中央値を上回り、いくつかのコースでは最高得点を記録しました。特に、OpenAI o1は3つのコースで最高の平均スコアを達成し、Microsoft Copilotは心血管医学でのテキストのみのサブセットでリードしました。全体として、LLMsは8.75の平均スコアを記録し、学生は5.76でした。これらの結果は、LLMsがMCQ評価の補助ツールとして慎重に使用されるべきであることを示唆しています。

💡 実生活アドバイス

医療教育においてLLMsを利用する際は、教員の監督の下で行うことが重要です。
負のマークがある試験においても、LLMsのパフォーマンスを考慮することが必要です。
他の機関や言語、画像を含む形式での確認が求められます。
LLMsの教育的影響を評価することが重要です。

⚠️ 限界/課題

この研究にはいくつかの限界があります。まず、試験は特定の機関で行われたため、他の機関や文化における結果が異なる可能性があります。また、LLMsのパフォーマンスが教育的な影響を及ぼすかどうかは、今後の研究で確認する必要があります。さらに、画像を含む問題への対応能力についても評価が必要です。

まとめ

この研究は、大規模言語モデルが医学生の試験成績を上回る可能性を示しており、医療教育における新たなアプローチを提供しています。しかし、LLMsの使用には慎重な監視とさらなる研究が必要です。

🔗 関連リンク集

参考文献

原題	When AI models take the exam: large language models vs medical students on multiple-choice course exams.
掲載誌(年)	Med Educ Online (2025 Dec 31)
DOI	doi: 10.1080/10872981.2025.2592430
PubMed URL	https://pubmed.ncbi.nlm.nih.gov/41316903/
PMID	41316903

書誌情報

DOI	10.1080/10872981.2025.2592430
PMID	41316903
PubMed URL	https://pubmed.ncbi.nlm.nih.gov/41316903/
発行年	2025
著者名	Ros-Arlanzón Pablo, Gutarra-Ávila Renato, Arrarte-Esteban Vicente, Bertomeu-González Vicente, Hernández-Blasco Luis, Masiá Mar, Navarro-Canto Laura, Nieto-Navarro Juan, Abarca Javier, Sempere Angel P
著者所属	Neurology Department, Dr. Balmis General University Hospital, Alicante, Spain. / Department of Clinical Medicine, Miguel Hernández University, Alicante, Spain. / Department of Neurosurgery, Dr. Balmis General University Hospital, Alicante, Spain.
雑誌名	Medical education online

DOI	10.3760/cma.j.cn441530-20250428-00173
PMID	41566193
PubMed URL	https://pubmed.ncbi.nlm.nih.gov/41566193/
発行年	2026
著者名	Yuan Z Y, Zhuang Z H, Su J R, Liu C S, Zhang Y, Chen D Z, Huang C Z, Yao X Q
雑誌名	Zhonghua wei chang wai ke za zhi = Chinese journal of gastrointestinal surgery

DOI	10.1111/1750-3841.71085
PMID	42062791
PubMed URL	https://pubmed.ncbi.nlm.nih.gov/42062791/
発行年	2026
著者名	Debbarma Samson, Kaur Harsimranjeet, Subburamu Karthikeyan, Fiore Alberto, Debbarma Saima, Jothiprakash Gitanjali, Giridhari Veeranan Arun, Debbarma Salswkang, Debbarma Evarin
雑誌名	J Food Sci

DOI	10.1038/s41598-025-34282-y
PMID	41484189
PubMed URL	https://pubmed.ncbi.nlm.nih.gov/41484189/
発行年	2026
著者名	Rahdar Abbas, Fathi-Karkan Sonia
雑誌名	Scientific reports

医学生と大規模言語モデルの試験成績比較研究