科研主页

科研头条

文献解读

文献转PPT

智能检索

智能选题

热点分析

申报书撰写

我的知识库

科研资讯

菁易科研 > 科研资讯 > 文献解析

医疗科研新突破 | 菁易科研解析图检索增强模型助力罕见遗传病诊断

原创

Graph retrieval augmented large language models for facial phenotype associated rare genetic disease.

研究背景

罕见遗传疾病有可识别的面部表型，对诊断很重要。但大型语言模型（LLMs）在医疗应用中有幻觉和缺乏特定领域知识的问题。为解决这些，研究者构建面部表型知识图谱（FPKG），结合检索增强生成（RAG）技术，提高LLMs诊断准确性和一致性。

方法速览

知识图谱构建：基于Human Phenotype Ontology（HPO）构建FPKG，含6143个节点和19282个关系。
检索增强生成：实现Cypher RAG和Vector RAG两种方法，分别通过生成Cypher查询和向量相似性检索增强LLMs性能。
基准数据集构建：构建域知识问答集、Publication set和GMDB set三个基准数据集评估LLMs性能。
实验设计：通过域知识问答、诊断测试、温度分析和一致性评估四个实验评估八种LLMs性能。

主要发现

关联查询准确性提升：在面部表型与疾病、基因与面部表型、疾病与基因关联查询任务中，RAG LLMs的BertScore和覆盖率均显著高于Vanilla LLMs。
同义词查询准确性高：在面部表型同义词查询任务中，RAG LLMs的BertScore和覆盖率也远超Vanilla LLMs。
诊断测试性能提升：在诊断测试的选择题和非选择题中，RAG LLMs准确率显著提高。
稳定性和一致性增强：温度分析中，RAG LLMs标准差显著降低；一致性评估中，RAG LLMs自一致性更高。

总结展望

本研究首次将面部表型知识图谱与LLMs结合，建立四维评估框架，知识图谱还能动态更新。不过，Cypher RAG依赖LLMs生成Cypher查询能力，知识图谱覆盖范围待扩展，部分数据集含私有数据影响训练效果。总体而言，该研究为罕见遗传疾病诊断提供了新方法和思路。