One Year On: Assessing Progress of Multimodal Large Language Model Performance on RSNA 2024 Case of the Day Questions.
研究背景
随着多模态大型语言模型(LLMs)快速发展,其处理图像和文本能力提升,尤其在医学影像学领域。本研究旨在评估和量化多模态LLMs在过去一年解释放射学测验案例的进展,并与放射科医生比较。
方法速览
- 数据收集:从2024年RSNA年度会议Case of the Day活动收集95个问题,2023年76个问题作基线对比。
- 模型评估:用OpenAI o1、GPT - 4o等模型回答问题并记录准确率。
- 统计分析:用McNemar检验评估模型差异,计算95%置信区间。
主要发现
- 多模态LLMs表现提升:OpenAI o1和GPT - 4o在2024年RSNA CotD问题上准确率分别为59%和54%,优于Google和Meta模型。
- 接近医生水平:OpenAI o1准确率与资深放射科医生相当,差异无统计学意义,潜力巨大。
- 亚专科表现不均:在妇产科成像等亚专科表现佳,在急诊放射学等亚专科表现差,可能与训练数据和架构有关。
- 模型一致性不同:OpenAI o1与其他ChatGPT模型一致性高,与Gemini 1.5 Pro和Llama 3.2 - 90B - Vision一致性低,反映不同模型策略和偏见。
总结展望
本研究首次系统评估多模态LLMs在放射学诊断表现并与医生对比,跨年数据展示显著进步。但存在零样本评估、幻觉问题和活动教育性的局限性。未来需进一步研究以提升模型在临床实践中的应用。