7月9日,2021年世界人工智能大会,竹间智能成功举办了AI智简|认知智能创科技未来分论坛。论坛上,竹间智能创始人兼CEO简仁贤先生发表了题为《认知智能赋能企业转型》的演讲。他重点探讨了认知智能的基石——知识图谱,环环相扣地阐述了知识图谱的定义、优势、独特能力与构建原理,接着围绕产业界极重视的大规模落地问题,结合具体例证及经验心得,描绘了跨越众多行业的不同应用,最后针对企业在创新进程中易陷入的两难境地,为Buy or Build这个经典难题给出了一个耐人寻味的答案。事不宜迟,立刻来品读一下本次演讲中最精华的部分。
演讲要点
1.认知智能的重要性
2.知识图谱是认知智能的基石
3.知识图谱的突出优势
4.知识图谱的四大能力
5.知识图谱的构建原理
6.认知智能的实际应用
7.洞悉未知,收获意外之喜
8.企业科技创新的两难之境
01 认知智能的重要性
人工智能简单来讲分三个领域:一是机器视觉;二是ASR跟TTS,也就是语音识别;第三个部分是NLP相关领域,包括自然语言处理、意图理解、情绪识别、对话交互和知识推理,还有自动阅读理解,这部分是今天我要讲的重点。
竹间智能一直以来关注的便是NLP自然语言处理。人跟人之间的对话基本都要靠语言,让机器理解人类的自然语言表达,就叫做自然语言处理技术。前面说的机器视觉跟语音辨识更多是属于感知,而自然语言处理偏向于认知。
大家为什么要学认知智能?其实它在全世界各个高校的研究里面都是非常艰深的一个课题。我们这个世界现有的信息非常复杂,人们生活的方式也非常复杂,如果把整个世界当做一个模型,会是什么样的模型?假如没有认知智能与情感智能,你无法了解这个模型的运作,无法理清人跟人之间的关系,无法把握人跟人之间共通的以及相互连接的部分。
对企业来说,随着时代的发展,互联网已经变成了一个很常见的模型,是大家所生活的这个世界的一种表现方式。未来,个人的知识资产会决定个人的价值,企业的知识资产也将决定企业的价值。认知智能可以帮助企业在未来的数字化变革潮流当中加速业务发展,如果现在就开始积极采用认知智能,那企业在三五年之后获得的红利,将远远超过那些没有采用认知智能的企业。如果你今天不行动,企业未来的盈利和运营能力很可能会大大降低。
02 知识图谱是认知智能的基石
在认知智能领域,知识图谱是非常关键的技术。知识图谱,顾名思义,就是用图谱的形式对知识进行表达和表示。能够把知识图谱技术开发好、应用好,就可以产生更高的价值。
我用一个简单的例子来解释知识图谱。先问大家一个问题:大熊猫有没有尾巴?对这个问题,人会怎么回答?第一种,可能会回答:我去四川见过大熊猫,看到它有尾巴——这是感性记忆;另外一种回答可能是:由于大熊猫是哺乳动物,所以它有尾巴,这是理性推导;还有一种是说,我以前回答过这个问题,所以答案应该是怎样的——这是断言式的。以上这些是我们人类的回答,有多种逻辑,有不同的思考方式。
那如果是机器人,它会怎么回答?机器人没见过大熊猫,除非你给他植入机器视觉。描述大熊猫有很多信息,这些信息都是非结构化数据,你写出来的文字、你读过的文档都是非结构化数据,若没有经过处理和整理,你要花很多时间去读、去看、去理解才行,但我们用知识图谱将其转变为概念化的表示方式,就会变成下面这个样子:
然后,机器人就可以根据这个图谱来回答你:很简单,大熊猫有尾巴。如果各位用搜索引擎去解答这个问题,你可能找到很多文章,但你要自己去看内容,才会知道大熊猫有没有尾巴。有时候搜索引擎给你的还是不正确的信息。经过语义理解和知识图谱,你可以确认大熊猫有尾巴,这是可追溯而且是可解释的,是基于事实来回答的。这是知识图谱可以做到的很简单但很重要的事情。
03 知识图谱的突出优势
知识图谱能协助企业迎接形形色色的业务挑战。第一,它可以帮助采集知识,包括业务知识、商业知识在内的任何知识。IT行业发展了几十年,我们囤积了巨量的非结构化数据,以PDF、Word、PPT等多种形式存在。这里面蕴藏着丰富的知识,如果不挖掘出来,就毫无价值;如果能挖掘出来,就可以产生极大的作用——知识图谱可实现这一点。
第二,知识图谱有助于发现、整合和使用数据。它将结构化和非结构化数据进行连接,整体利用起来,能够找出一些以前不为人知的知识。而且知识图谱会持续性地发生改变,随着知识的变化而变化。不同的时间段,有些知识会不一样,我们称之为时序知识图谱。建立起这种时序性,才能更准确地描述事实及使用知识。
另外一个是,知识图谱能简洁快速地回答复杂的业务问题。过去,企业积累了很多知识,知识跟知识之间存在直接或间接的关联,你可能要翻查多个系统或大量文档才能解决问题,或者根本无法查到,如今,通过统一的知识图谱的推理能力加上自然语言理解能力,可以更快地找到答案。
第四,知识图谱技术可以让AI更加高效。因为它可以把实体和实体之间的关系特征都梳理好,在机器学习和深度学习方面减少很多不必要的数据标注以及训练,让深度学习模型具备可解释性,也可以辅助多任务的机器学习,从而提升整体效率。这是知识图谱的一大主要优势。
04 知识图谱的四大能力
知识图谱有四项重要能力,第一个是可推论,第二个是可关联,此外还有可解释和可交付这两大能力。
什么叫可推论呢?首先,知识图谱可以从大量的数据中发掘出新的insights和patterns,发现信息之间的关联性,这靠人力是做不到的。过去没法形成大规模商业应用,正是因为很多企业都是借助人工来构建知识图谱,没办法自动去发现和挖掘知识,导致它们处于冷封状态。其次,知识图谱可以用最自然的方式来挖掘珍贵数据,而无需凭借关系型数据库,这在是以前也是做不到的。你不用去总结一个关键词来搜索,只要自然而然地发问就行了。此外,可推论能力有利于加速相关的调查研究流程,让搜索范围更大。
第二是可关联,这非常关键。知识图谱用数据和概念的方式去呈现实体及实体间的关系,相当于我们用自然语言的方式,将整个世界变成一个超大的模型。所有的图谱里的所有实体,上下文中的内容和内涵,都是可关联的,因而能够找到一些平常难以发现的隐藏信息或连接。
第三是可解释。知识图谱的很多特征可以用到深度学习上面,使其变得可解释。大家知道深度学习中的非监督机器学习,要一层一层抽丝剥茧地去训练,是不可解释的,但是知识图谱可以让它变成可解释的。而且图谱具有丰富的特征数据,能够联结各种数据,从而将整个流程变得更大。
最后,知识图谱是可交付的。它不像传统数据库,数据如孤岛般分散,它可以将零散的数据连接起来,用简单的方式,在中台完成元数据的交付,我们称之为Knowledge Fabric。
05 知识图谱的构建原理
2005年,我第一次接触到RDF(Resource Description Framework,资源描述框架),深深受到了Tim Berners-Lee的影响。从那个时候起,我就认为世界可以变成一张宏大的知识图谱。一直到现在,我们有了机器学习和深度学习,能够处理大量的非结构化数据,才有办法让新一代的认知技术适应各种文档和数据,可以进行交互。没有自然语言处理与理解NLP与NLU,就没有办法做交互,那你纵使有知识也是无法利用的。
我们所说的多源异构数据,涵盖PDF、PPT、Word、纸质文档,还有网络上的信息。知识抽取主要是指抽取关系、抽取属性、抽取事件,抽取完了以后进行知识融合。知识融合方面,一个是做实体消岐,一个是做实体链接,另外还要做实体融合。先看是不是有一样的实体可以对齐,如果有,那就将它们融合起来,继而进行消岐,再创建链接,然后去补全、校正这些知识,这就形成了知识图谱。这是一个循环的过程,整个知识图谱会一直演进,越来越大,不断更新。加上时间维度,它就变成了时序知识图谱。
自监督的实体消岐技术非常重要,我们通过已知的知识图谱去学习不同实体之间的特征,可以自动构建训练集、测试集,让训练更快,如此一来人工标注量会大大减少,甚至于不需要。另外一个焦点是推理的生成,我们通过NLP技术能够抽取信息,从文本中构建实体间的关系。
就自动构建方面而言,NLP可以把任何的句子和词都拆解成很小的元素,以此去构建各种实体与属性,从语义方面进行解析,去发现他们之间的关系,解析完以后也可以建立一幅知识图谱。
06 认知智能的实际应用
认知技术该怎么落地?如果把它应用到企业中?首先是看在当前的业务流程里,可不可以找出一个清晰的四元组模型,囊括人、实体、地点、事件这四大元素。如果有,那这就是你落地的一个选择。其次,要关注复杂有难度的业务,不要考虑太简单的业务,挑选那些需要花很长时间、人力难以企及的场景,知识图谱可以立竿见影取得极佳的效果。比如我们曾帮很多企业去实现文档的查重、比对和抽取,靠人力是无法完成的。接着,找到合适的业务场景之后,就可以开始构建MVP,分多个步骤,逐渐迭代,不要一次性把业务系统全部换掉。知识图谱用不着推翻企业内部结构,它是以企业知识为中心,将数据孤岛统统连接起来。
未来,企业的实力取决于科技。竞争力强的企业,经过业务重构之后会成为一家认知智能企业,享受认知技术的便捷,而ERP、OA之类的平台都只是工具罢了。竹间智能钻研了6年,取得了一系列突破,如今,从原始文档自动构建知识图谱,到对话机器人自动回答,只需要一个小时,就可以达到过去花6个月也无法达到的预期效果。
比如,在我们的产品界面上,先输入一篇类风湿免疫疾病的文档,里面讲了风湿病的特征、症状、治疗方式,然后经过我们的平台,自动生成标签,把关系、属性、事件都抽取出来,建立三元组,随后便可形成可视化的知识图谱。如果有一万篇文档,那这幅图谱就会变得相当大。通过图谱,你可以查询、问答,找到自己想要的答案。它就如同一个大脑,不光是能开展简单的QA。机器人马上就可以调用这幅图谱,直接回答你的提问。你查搜索引擎是没法找到这样的答案的,因为机器人是用自然语言理解的技术加上整个知识图谱来进行解答。
竹间已经将自动构建知识图谱的技术产品化了,这个产品叫做Gemini,并可以大规模应用。上面这个例子是落地在医药医疗行业的,你可以想象,制造、金融、保险、公共安全、城市管理等领域,亟待解决的问题有多少?而且,知识图谱给出的答案都是正确的,不存在模棱两可的现象,所以知识图谱+语义理解,机器人把短文本NLP和长文本NLP结合起来,实现自动化应用,即将颠覆常规的搜索引擎,来赋能于企业。将来,企业和人都不需要搜索引擎了,我们只需要一个载体——将知识图谱跟对话输出融合为一的载体就够了。
07 洞悉未知,收获意外之喜
刚才秀的只是一个小应用,认知智能的用途极其广泛。比方说产品导购,可以让你精确搜到自己想要的产品,而不是广告。假设分析,就是如果怎么样,会怎么样?的问题,也能根据图谱来回答。再是追踪预警,采集人和事件之间的关系,看看能不能找出一些异常之处,然后提前预警。反欺诈也是一样的,去监测交易中是否存在欺诈行为,以降低损失。还有提供个性化的商品推荐,如今主流的逻辑是——你买过或者浏览过什么产品,商家就一天到晚给你推相似的东西,但在购物时最开心的其实是遇到惊喜,不远的未来,知识图谱技术完全可以做到这一点。
360度绘制客户画像更是一个强大的应用,可以全方位分析客户的爱好、行为和反馈等。最近我们为一家非常大的无人机公司定制了360度客户画像应用,收集全网、全世界对于产品的反馈和使用情况,打造一个全方位的Voice Of Customer分析和洞察模型,据此找出产品的瑕疵和优点,扬长避短,以便改进产品与服务。
接下来,我们谈一谈各行各业的大规模落地情况。在保险业,围绕保单和保险人,有很多场景,全部可以用到知识图谱。在房地产行业,从地产开发到销售到运营,各环节日渐繁复,知识图谱能够大显身手。在医疗行业,前面已经展示过,患者即用户,从治疗方案到疾病诊断,知识图谱都有用武之地。在物流业,通过图谱的计算能够找到最短路径、最低成本和最有效的方案。至于制造业,是人工智能产值最高的行业,所有的制造企业都在寻求智能化转型,知识图谱可以帮助解决生产、销售、人员、流程、产品反馈等方方面面的问题,整合产业链的上中下游,填补断层,直到触达终端用户。
知识图谱可以清晰显示数据之间的关系,它的最大价值是帮助人类发现未知,从大量的数据中发掘出你不知道的关联——这就是惊喜,这就是我们目前所需要的。我们有太多重复性的信息,还有很多不知道的信息,都被锁起来了,当你把知识图谱构建起来后,就可以解锁前所未见的景象。
08 企业科技创新的两难之境
我们探讨这些技术,也非常希望把这些技术落地,唯有落地以后,才能看到它们产生的价值,看到它们可以创造收入、降低成本、提高营业效率,这样才会吸引更多人把资金投入到学术研究中,然后开发出更多的技术。我觉得,竹间智能和其他一些人工智能公司所肩负的责任就是把所有技术都落地,营造一个认知科学和NLP的产业生态圈,去刺激更多的投资。
然而在落地过程中,所有企业都会碰到创新的两难困境。什么两难困境呢?首先,我必须说,我对未来是满怀希望的。竹间在过去几年接触了很多客户,大约有300家大型标杆客户,我们发现绝大多数客户项目负责人都是90后和85后,他们都非常有理想,渴望用科技创造真正的改变。不过他们往往会碰到一些古老的选择难题——是该买(Buy)还是该自研(Build)?该用这家还是那家的产品?实施时是基于标准化软件还是从零代码起步打造?该用云服务还是用低代码开发平台?
碰到这些不同维度的问题,我总结了三个要素来帮大家做出判断:第一个是AI平台——什么样的AI平台才能让你快速享受到技术带来的红利?此外,数据运营也非常重要,好的技术、产品和平台,只需要很少的人力来进行运营,达到低运营的水准,让人工不再是人工智能的绊脚石。第二个是场景定制。找到对的场景,才会看到效果,看到价值。你以前做不到的事,借助认知技术,马上就能做到。人工智能是要颠覆过往,而非取代,是站在传统的技术和系统上去创造新事物。还有就是价格。人工智能平台不是越便宜就越好,对于成本和收益,企业要做一个评估,弄清楚自己的投入能不能得到充足的回报。
我们竹间智能的技术,听上去似乎很简单,但实际上是很艰深的。有些企业觉得自己能独立研发,于是花大笔经费,召集了一大群人,做了一两年,最后却发现没办法做出好的效果来,错失了创新的契机。如果你只想用传统的系统,那部署RPA就够了,我们也能帮企业提供RPA解决方案;然而,如果面对的是需要复杂信息、专业知识、快速决策的业务,或者非常耗时耗力难以实现的,那就必须求助于认知技术和NLP技术了。比如,你的数据分散在很多系统里,没有办法整合,只有靠知识图谱才能解决。知识图谱就像是一个企业的超级大脑,加上NLP就是一个企业级的操作系统。
所以,买还是自研?最后的答案就在这里。对于复杂且多样的AI能力,特别是NLP这样艰深、高门槛的技术领域,企业是没有办法从零开发的,难度非常高,何况底层平台、能力平台和场景解决方案现在都有人提供,有人帮着做了。那什么地方是需要企业自研的呢?我认为是用户体验。这不能假手于人,企业应该花最多的时间,至少80%的时间在用户体验上,去重构业务,实现定制化。发展新业务,需要新技术支撑。有很多企业,从上到下都要别人做,这是错的,还有很多企业,从上到下都想自己做,这也多是以失败告终。
归根结底,所有的技术和产品最终都是要落地经受检验的,不断地验证积累才能大规模商用。以后,我们会将认知科学和技术做进一步的推广,希望结合中外学术界及产业界,一起完善NLP行业和认知智能行业!