Graph retrieval augmented large language models for facial phenotype associated rare genetic disease.
研究背景
罕见遗传疾病有可识别的面部表型,对诊断很重要。但大型语言模型(LLMs)在医疗应用中有幻觉和缺乏特定领域知识的问题。为解决这些,研究者构建面部表型知识图谱(FPKG),结合检索增强生成(RAG)技术,提高LLMs诊断准确性和一致性。
方法速览
- 知识图谱构建:基于Human Phenotype Ontology(HPO)构建FPKG,含6143个节点和19282个关系。
- 检索增强生成:实现Cypher RAG和Vector RAG两种方法,分别通过生成Cypher查询和向量相似性检索增强LLMs性能。
- 基准数据集构建:构建域知识问答集、Publication set和GMDB set三个基准数据集评估LLMs性能。
- 实验设计:通过域知识问答、诊断测试、温度分析和一致性评估四个实验评估八种LLMs性能。
主要发现
- 关联查询准确性提升:在面部表型与疾病、基因与面部表型、疾病与基因关联查询任务中,RAG LLMs的BertScore和覆盖率均显著高于Vanilla LLMs。
- 同义词查询准确性高:在面部表型同义词查询任务中,RAG LLMs的BertScore和覆盖率也远超Vanilla LLMs。
- 诊断测试性能提升:在诊断测试的选择题和非选择题中,RAG LLMs准确率显著提高。
- 稳定性和一致性增强:温度分析中,RAG LLMs标准差显著降低;一致性评估中,RAG LLMs自一致性更高。
总结展望
本研究首次将面部表型知识图谱与LLMs结合,建立四维评估框架,知识图谱还能动态更新。不过,Cypher RAG依赖LLMs生成Cypher查询能力,知识图谱覆盖范围待扩展,部分数据集含私有数据影响训练效果。总体而言,该研究为罕见遗传疾病诊断提供了新方法和思路。