7月23日-27日,人工智能领域智能信息检索方向最权威的国际会议“第46届国际计算机学会信息检索大会”(SIGIR 2023)在中国台湾省台北市举行。大会公布了投稿论文入选名单,由深兰科学院多名科技研发人员合力撰写的论文《MDKG:基于图的医学知识引导对话生成》(Graph-Based Medical Knowledge-Guided Dialogue Generation)被大会收录并发表。
ACM SIGIR(International ACM SIGIR Conference on Research and Development in Information Retrieval)是由美国计算机协会(ACM)发起主办,始创于1971年,是中国计算机学会(CCF)推荐的A类国际学术会议,也是展示信息检索新的系统、技术和研究成果的国际舞台。今年的会议,一共收到来自全球的822篇论文投稿,其中有165篇论文被录用,录用率仅有20.1%。本次深兰科学院被收录的论文《MDKG:基于图的医学知识引导对话生成》(Graph-Based Medical Knowledge-Guided Dialogue Generation)是围绕医疗领域对话问答生成问题展开探索。这代表着现有医疗对话系统(MDS)的最优研究结果被刷新,通过快速学习和完善医学知识图谱来推理新的疾病症状的问诊方法的出现,将进一步推动AI医疗技术的发展。
图1 MDKG模型框架
医疗对话系统(MDS)旨在通过与患者交谈,来获取自我报告中不存在的其他症状并进行自动诊断。它不仅能够简化诊断过程并降低从患者处获取信息的成本,而且其产生的初步诊断报告,还能帮助医生做出更有效地诊断。这引起了深兰科学院研究员的广泛关注。现有的医疗对话系统(MDS)虽然具备了像人类医生一样通过与患者的对话进行诊断的能力,但系统大多基于序列建模,没有考虑医学知识自主学习。这使得系统在信息有限的疾病情况下更容易误诊。为了克服这个问题,深兰提出了MDKG,一种用于医学对话生成(MDG)的端到端对话系统,专门设计用于通过快速学习和发展元知识图来适应新疾病,依靠医学知识图来提取疾病-症状关系,并使用基于动态图的元学习框架来学习如何进化给定的知识图来推理疾病-症状相关性。因为这种方法结合了医学知识,因此减少了大量对话的需要。如表1,深兰在CMDD和春雨数据集上评估了MKDG模型,相关数据集在以往的类似研究中被广泛使用。
表1:春雨和CMDD数据集的详细定性结果
本次评估使用了BLEU和Entity-F1两个自动度量来评估该方法的性能。BLEU分数用来评估生成响应的质量,而Entity-F1分数用来衡量实体预测任务的成功率。根据以上两个数据集评估的结果,将SLAKE知识图集成到框架中可以提高医疗对话系统(MDS)的性能。数据显示,深兰科学院开创性提出的MDKG模型,在基于BLEU和Entity自动度量的评估中刷新了这两项的最高得分记录。在“春雨数据集”的BLEU和Entity自动度量评估中,深兰方案较原有最佳方案得分分别高出1.7和4.32分;在CMDD数据集中,则较原有最佳方案得分分别高出0.97和3.42分。
图2:采用了MDKG模型的肝硬化诊断对话案例
本次论文的研究成果除了已经被应用于医疗对话系统(MDS)之外,未来还有望被应用到深兰AI医疗板块其他产品中去。