わかる医学論文
  • ホーム
新着論文 サイトマップ
2025.11.30 医療AI

医学生と大規模言語モデルの試験成績比較研究

When AI models take the exam: large language models vs medical students on multiple-choice course exams.

TOP > 医療AI > 記事詳細

🧠 医学生と大規模言語モデルの試験成績比較研究

近年、医療や医療教育において大規模言語モデル(LLMs)がますます利用されるようになっています。しかし、特に負のマークがある選択肢問題(MCQs)において、これらのモデルのパフォーマンスはまだ明らかではありません。本記事では、医学生と5つの現代的なLLMsの試験成績を比較した研究を紹介します。この研究は、スペインのミゲル・エルナンデス大学で行われ、感染症、神経学、呼吸器医学、心血管医学の4つの臨床コースにおける最終試験が対象となっています。

📊 研究概要

この研究は、2025年に行われた比較横断研究であり、医学生442人と5つの大規模言語モデル(OpenAI o1、GPT-4o、DeepSeek R1、Microsoft Copilot、Google Gemini 1.5 Flash)の試験成績を比較しました。各モデルは、2回の独立した試行で全てのMCQsに回答しました。

🔍 方法

試験はスペイン語で行われ、各コースの最終試験において、学生の成績は平均±標準偏差または中央値(四分位範囲)として要約されました。モデル間のペアワイズ差はMcNemarの検定を用いて調査され、学生とLLMの対比は記述的に示されました。

📈 主なポイント

コース LLMの平均スコア 学生の平均スコア
感染症 8.75 4.28
神経学 9.00 5.50
呼吸器医学 9.88 6.10
心血管医学 7.46 7.32

🧐 考察

研究の結果、全てのLLMsは学生の中央値を上回り、いくつかのコースでは最高得点を記録しました。特に、OpenAI o1は3つのコースで最高の平均スコアを達成し、Microsoft Copilotは心血管医学でのテキストのみのサブセットでリードしました。全体として、LLMsは8.75の平均スコアを記録し、学生は5.76でした。これらの結果は、LLMsがMCQ評価の補助ツールとして慎重に使用されるべきであることを示唆しています。

💡 実生活アドバイス

  • 医療教育においてLLMsを利用する際は、教員の監督の下で行うことが重要です。
  • 負のマークがある試験においても、LLMsのパフォーマンスを考慮することが必要です。
  • 他の機関や言語、画像を含む形式での確認が求められます。
  • LLMsの教育的影響を評価することが重要です。

⚠️ 限界/課題

この研究にはいくつかの限界があります。まず、試験は特定の機関で行われたため、他の機関や文化における結果が異なる可能性があります。また、LLMsのパフォーマンスが教育的な影響を及ぼすかどうかは、今後の研究で確認する必要があります。さらに、画像を含む問題への対応能力についても評価が必要です。

まとめ

この研究は、大規模言語モデルが医学生の試験成績を上回る可能性を示しており、医療教育における新たなアプローチを提供しています。しかし、LLMsの使用には慎重な監視とさらなる研究が必要です。

🔗 関連リンク集

  • Medical Education Online
  • PubMed
  • AAMC (Association of American Medical Colleges)

参考文献

原題 When AI models take the exam: large language models vs medical students on multiple-choice course exams.
掲載誌(年) Med Educ Online (2025 Dec 31)
DOI doi: 10.1080/10872981.2025.2592430
PubMed URL https://pubmed.ncbi.nlm.nih.gov/41316903/
PMID 41316903

書誌情報

DOI 10.1080/10872981.2025.2592430
PMID 41316903
PubMed URL https://pubmed.ncbi.nlm.nih.gov/41316903/
発行年 2025
著者名 Ros-Arlanzón Pablo, Gutarra-Ávila Renato, Arrarte-Esteban Vicente, Bertomeu-González Vicente, Hernández-Blasco Luis, Masiá Mar, Navarro-Canto Laura, Nieto-Navarro Juan, Abarca Javier, Sempere Angel P
著者所属 Neurology Department, Dr. Balmis General University Hospital, Alicante, Spain. / Department of Clinical Medicine, Miguel Hernández University, Alicante, Spain. / Department of Neurosurgery, Dr. Balmis General University Hospital, Alicante, Spain.
雑誌名 Medical education online

論文評価

評価データなし

関連論文

2026.01.18 医療AI

精神科医のAIに対する準備度:アクセス、自己効力感、信頼、期待の研究

Understanding psychiatrist readiness for AI: a study of access, self-efficacy, trust, and design expectations.

書誌情報

DOI 10.1186/s12913-026-14010-6
PMID 41547796
PubMed URL https://pubmed.ncbi.nlm.nih.gov/41547796/
発行年 2026
著者名 He Yue, Zhang Francis Xiatian, Wu Xiaxia, Fang Meng, Zheng Sisi, Zhu Hong
雑誌名 BMC health services research
2025.12.29 医療AI

AIと人間による歯科クリニックのトリアージ業績

Secretary or SecretarAI: assessing the triage performance of AI vs human staff in a specialized dental clinic.

書誌情報

DOI 10.1016/j.oooo.2025.11.008
PMID 41456988
PubMed URL https://pubmed.ncbi.nlm.nih.gov/41456988/
発行年 2025
著者名 Wasserman Gilad, Grinberg Nadav, Peleg Oren, Shuster Amir, Ianculovici Clariel, Hurvitz Ayelet Zlotogorski, Kleinman Shlomi
雑誌名 Oral surgery, oral medicine, oral pathology and oral radiology
2026.04.06 医療AI

細胞の死に関わる小胞が骨の治癒に果たす重要な役割

Apoptotic extracellular vesicles act as master regulators of the bone healing niche.

書誌情報

DOI 10.1186/s12951-026-04351-z
PMID 41937211
PubMed URL https://pubmed.ncbi.nlm.nih.gov/41937211/
発行年 2026
著者名 Guo Yadong, Du Wenbo, Cheng Shuguang, Li Yongshan, Xiao Siwen, Yang Lan, Wang Liping, Pathak Janak Lal
雑誌名 J Nanobiotechnology
  • がん・腫瘍学
  • メンタルヘルス
  • 免疫療法
  • 医療AI
  • 呼吸器疾患
  • 幹細胞・再生医療
  • 循環器・心臓病
  • 感染症全般
  • 携帯電話関連(スマートフォン)
  • 新型コロナウイルス感染症
  • 栄養・食事
  • 睡眠研究
  • 糖尿病
  • 肥満・代謝異常
  • 脳卒中・認知症・神経疾患
  • 腸内細菌
  • 運動・スポーツ医学
  • 遺伝子・ゲノム研究
  • 高齢医学

© わかる医学論文 All Rights Reserved.

TOPへ戻る