科研主页

科研头条

文献解读

文献转PPT

智能检索

智能选题

热点分析

申报书撰写

我的知识库

科研资讯

菁易科研 > 科研资讯 > 文献解析

医疗科研新进展 | 菁易科研解读多模态LLMs在放射学诊断中的表现

原创

One Year On: Assessing Progress of Multimodal Large Language Model Performance on RSNA 2024 Case of the Day Questions.

研究背景

随着多模态大型语言模型（LLMs）快速发展，其处理图像和文本能力提升，尤其在医学影像学领域。本研究旨在评估和量化多模态LLMs在过去一年解释放射学测验案例的进展，并与放射科医生比较。

方法速览

数据收集：从2024年RSNA年度会议Case of the Day活动收集95个问题，2023年76个问题作基线对比。
模型评估：用OpenAI o1、GPT - 4o等模型回答问题并记录准确率。
统计分析：用McNemar检验评估模型差异，计算95%置信区间。

主要发现

多模态LLMs表现提升：OpenAI o1和GPT - 4o在2024年RSNA CotD问题上准确率分别为59%和54%，优于Google和Meta模型。
接近医生水平：OpenAI o1准确率与资深放射科医生相当，差异无统计学意义，潜力巨大。
亚专科表现不均：在妇产科成像等亚专科表现佳，在急诊放射学等亚专科表现差，可能与训练数据和架构有关。
模型一致性不同：OpenAI o1与其他ChatGPT模型一致性高，与Gemini 1.5 Pro和Llama 3.2 - 90B - Vision一致性低，反映不同模型策略和偏见。

总结展望

本研究首次系统评估多模态LLMs在放射学诊断表现并与医生对比，跨年数据展示显著进步。但存在零样本评估、幻觉问题和活动教育性的局限性。未来需进一步研究以提升模型在临床实践中的应用。