新冠病毒还在世界范围内传播肆虐,对医疗资源提出巨大挑战。许多医院都建议医生取消不必要的出诊,以防止发生交叉感染的情况。这样一来,大量的患者就涌入了远程医疗应用程序和服务。
如何让程序更懂新冠病毒,从而帮助病人进行有意义的医疗对话?
加州大学圣地亚哥分校、卡内基梅隆大学和加州大学戴维斯分校研究人员提出了利用人工智能聊天机器人来解决这个问题。目前他们的研究已经发表在预印本网站上。根据他们的研究,该聊天机器人可以对患者就有关新冠病毒的问题做出回应。
“在这项工作中,我们首次尝试开发可以提供有关新冠病毒的医学咨询对话系统。实验结果表明,这些经过训练的模型有望就新冠病毒产生具有临床意义的高质量咨询。”研究人员在论文中称。
据悉,整个团队用英语和中文数据集训练了支持这些聊天机器人的算法模型。数据集内容包含医生与患者之间谈论新冠病毒的对话,研究人员称实验证明这个模型对进行有益的医学对话很有希望。
具体来说,研究人员在CovidDialog数据集训练了集中对话模型,模型则来自在线医疗论坛。整个数据集包括603次英文数据,1088次中文数据。每次对话均以简短描述患者的医疗状况开始,然后是患者与医生之间的对话,并且视情况提供医生给出的诊断和治疗建议。
论文合作者称,他们基于谷歌的Transformer架构、OpenAI的GPT、BERT-GPT三方面来训练模型。由于在相对较小的数据集上直接训练模型会导致结果的泛化性,所以该团队利用了转移学习技术。即先在大型语料库上对模型进行预训练,然后再在CovidDialog数据集上进行微调。预训练的语料库则主要来自Reddit用户、维基百科、中文聊天机器人、新闻、书籍、故事和其他网络文本。
经过训练后,对三种方法下训练模型进行测试,来评估机器的表现。评估标准包括混乱程度,用来判断机器人响应的质量和是否流畅;熵和距离,用来衡量词汇的多样性。最后结果显示,利用BERT-GPT框架来悬链的模型,能对患者的问题进行回答,提供的答案更具相关性、信息量和人性化,并且语法和语义表达正确。
目前,研究人员已经将数据集和代码在网上进行开源。