わかる医学論文
  • ホーム
新着論文 サイトマップ
2025.11.30 医療AI

医学生と大規模言語モデルの試験成績比較研究

When AI models take the exam: large language models vs medical students on multiple-choice course exams.

TOP > 医療AI > 記事詳細

🧠 医学生と大規模言語モデルの試験成績比較研究

近年、医療や医療教育において大規模言語モデル(LLMs)がますます利用されるようになっています。しかし、特に負のマークがある選択肢問題(MCQs)において、これらのモデルのパフォーマンスはまだ明らかではありません。本記事では、医学生と5つの現代的なLLMsの試験成績を比較した研究を紹介します。この研究は、スペインのミゲル・エルナンデス大学で行われ、感染症、神経学、呼吸器医学、心血管医学の4つの臨床コースにおける最終試験が対象となっています。

📊 研究概要

この研究は、2025年に行われた比較横断研究であり、医学生442人と5つの大規模言語モデル(OpenAI o1、GPT-4o、DeepSeek R1、Microsoft Copilot、Google Gemini 1.5 Flash)の試験成績を比較しました。各モデルは、2回の独立した試行で全てのMCQsに回答しました。

🔍 方法

試験はスペイン語で行われ、各コースの最終試験において、学生の成績は平均±標準偏差または中央値(四分位範囲)として要約されました。モデル間のペアワイズ差はMcNemarの検定を用いて調査され、学生とLLMの対比は記述的に示されました。

📈 主なポイント

コース LLMの平均スコア 学生の平均スコア
感染症 8.75 4.28
神経学 9.00 5.50
呼吸器医学 9.88 6.10
心血管医学 7.46 7.32

🧐 考察

研究の結果、全てのLLMsは学生の中央値を上回り、いくつかのコースでは最高得点を記録しました。特に、OpenAI o1は3つのコースで最高の平均スコアを達成し、Microsoft Copilotは心血管医学でのテキストのみのサブセットでリードしました。全体として、LLMsは8.75の平均スコアを記録し、学生は5.76でした。これらの結果は、LLMsがMCQ評価の補助ツールとして慎重に使用されるべきであることを示唆しています。

💡 実生活アドバイス

  • 医療教育においてLLMsを利用する際は、教員の監督の下で行うことが重要です。
  • 負のマークがある試験においても、LLMsのパフォーマンスを考慮することが必要です。
  • 他の機関や言語、画像を含む形式での確認が求められます。
  • LLMsの教育的影響を評価することが重要です。

⚠️ 限界/課題

この研究にはいくつかの限界があります。まず、試験は特定の機関で行われたため、他の機関や文化における結果が異なる可能性があります。また、LLMsのパフォーマンスが教育的な影響を及ぼすかどうかは、今後の研究で確認する必要があります。さらに、画像を含む問題への対応能力についても評価が必要です。

まとめ

この研究は、大規模言語モデルが医学生の試験成績を上回る可能性を示しており、医療教育における新たなアプローチを提供しています。しかし、LLMsの使用には慎重な監視とさらなる研究が必要です。

🔗 関連リンク集

  • Medical Education Online
  • PubMed
  • AAMC (Association of American Medical Colleges)

参考文献

原題 When AI models take the exam: large language models vs medical students on multiple-choice course exams.
掲載誌(年) Med Educ Online (2025 Dec 31)
DOI doi: 10.1080/10872981.2025.2592430
PubMed URL https://pubmed.ncbi.nlm.nih.gov/41316903/
PMID 41316903

書誌情報

DOI 10.1080/10872981.2025.2592430
PMID 41316903
PubMed URL https://pubmed.ncbi.nlm.nih.gov/41316903/
発行年 2025
著者名 Ros-Arlanzón Pablo, Gutarra-Ávila Renato, Arrarte-Esteban Vicente, Bertomeu-González Vicente, Hernández-Blasco Luis, Masiá Mar, Navarro-Canto Laura, Nieto-Navarro Juan, Abarca Javier, Sempere Angel P
著者所属 Neurology Department, Dr. Balmis General University Hospital, Alicante, Spain. / Department of Clinical Medicine, Miguel Hernández University, Alicante, Spain. / Department of Neurosurgery, Dr. Balmis General University Hospital, Alicante, Spain.
雑誌名 Medical education online

論文評価

評価データなし

関連論文

2026.01.22 医療AI

人工知能時代の大腸がん診断と治療:レビューと展望

[Diagnosis and treatment of colorectal cancer in the era of artificial intelligence: review and prospect].

書誌情報

DOI 10.3760/cma.j.cn441530-20250428-00173
PMID 41566193
PubMed URL https://pubmed.ncbi.nlm.nih.gov/41566193/
発行年 2026
著者名 Yuan Z Y, Zhuang Z H, Su J R, Liu C S, Zhang Y, Chen D Z, Huang C Z, Yao X Q
雑誌名 Zhonghua wei chang wai ke za zhi = Chinese journal of gastrointestinal surgery
2026.05.01 医療AI

最新技術を活用した雑穀発酵と食品安全への影響

Current Status of Smart Technology Applications and Food Safety Implications in Precision Millet Fermentation: A Critical Review.

書誌情報

DOI 10.1111/1750-3841.71085
PMID 42062791
PubMed URL https://pubmed.ncbi.nlm.nih.gov/42062791/
発行年 2026
著者名 Debbarma Samson, Kaur Harsimranjeet, Subburamu Karthikeyan, Fiore Alberto, Debbarma Saima, Jothiprakash Gitanjali, Giridhari Veeranan Arun, Debbarma Salswkang, Debbarma Evarin
雑誌名 J Food Sci
2026.01.04 医療AI

カーリーキュミンナノキャリアの物理情報機械学習

Physics informed machine learning for predictive toxicology and optimization of curcumin nanocarriers.

書誌情報

DOI 10.1038/s41598-025-34282-y
PMID 41484189
PubMed URL https://pubmed.ncbi.nlm.nih.gov/41484189/
発行年 2026
著者名 Rahdar Abbas, Fathi-Karkan Sonia
雑誌名 Scientific reports
  • がん・腫瘍学
  • メンタルヘルス
  • 免疫療法
  • 医療AI
  • 呼吸器疾患
  • 幹細胞・再生医療
  • 循環器・心臓病
  • 感染症全般
  • 携帯電話関連(スマートフォン)
  • 新型コロナウイルス感染症
  • 栄養・食事
  • 睡眠研究
  • 糖尿病
  • 肥満・代謝異常
  • 脳卒中・認知症・神経疾患
  • 腸内細菌
  • 運動・スポーツ医学
  • 遺伝子・ゲノム研究
  • 高齢医学

© わかる医学論文 All Rights Reserved.

TOPへ戻る