9月9日,以共驱AI,赋能未来为主题的第一届中国—东盟人工智能峰会在南宁成功举办。捷通华声作为人工智能技术产业化的开拓者和领先者,受邀出席中国-东盟(华为)人工智能及软件开发技术交流会。
捷通华声副总经理于智彬发表5G+AI:共建智能化产业互联网主旨演讲,以下为演讲内容:
现在AI已成为家喻户晓的名词,大家都知道人工智能,就是模仿人的各种能力的技术。让机器能说会听、能看会认,能思考、会判断,能行动是AI追求的目标,也是我们捷通华声2000年建立时的初衷和愿望。
在2010年前,人工智能已经过几起几落。1950年,ATT推出Audry,实现首个可以识别10个英文数字的系统;1997年IBM推出VIAVOICE——首个语音识别产品。当时大家很兴奋,大呼语音识别时代到来了,但当试用之后发现识别效果不好,又大失所望。此后,直至2010年前,因为计算力有限、数据量不足、算法演进缓慢等原因,导致语音识别、图像识别等AI技术一直未能产业化。
2000年成立之初,我们主要是做TTS和手写识别技术。当时的TTS有些机械音,但它能代替人日日夜夜的辛苦重复工作。例如,全国各地高铁站广播、汽车站广播、医院叫号广播等,都用了捷通华声的TTS产品。手写识别技术效果比较好,用在很多手机输入法上,还卖给了日本的手写板生产厂商,欧美的各种高端轿车车机。
2008年,个人电脑开始大规模应用,2010年,互联网快速发展,随之产生了大量的数据。此时,高性能计算、机器学习也发展到了新的水平,开始可以支撑语音识别、图像识别等人工智能技术的发展了。
第一次转型:抓住机遇,发展全方位AI技术
当发觉到这个机遇时,捷通华声下定决心,果断转型,准备发展全方位AI技术。
2011年,捷通华声推出国内外首个全方位AI开放平台—灵云,致力于让机器能说会听、能写会看、能辨音会认人、能思考会判断。
在发展AI技术的路上,很多前沿计算理论,需要与学术界共同研究。2012年,我们开始与清华大学联合研发AI算法。我们应用AI技术,对接市场需求,开发产品,并用产业应用中产生的数据,去训练提升AI水平,形成产学研用的良性循环。
随着与清华大学AI技术联合研究的深入,2013年,清华大学产业基金入资捷通华声,成为捷通华声第二大股东,并共同确立灵云科技源自清华的战略合作。2014年,捷通华声与清华大学共同创建清华灵云人工智能研究中心,中国科学院院士、清华大学人工智能研究院院长,张钹院士担任研究中心首席科学家。2015年,捷通华声与清华大学海峡研究院在厦门共同创建清华灵云人工智能研究中心。通过与清华大学的科研合作,灵云AI技术学术研究保持全球领先,各项技术快速进步。
灵云AI技术,快速产业化应用
随着AI技术的不断提升,各种产业需求爆发式增加,AI技术开始快速产业化。
最经典的一个应用场景,就是客服中心。银行、保险、航空等大型企业,有海量的客户,需要建立大型客服中心来提供业务咨询、业务办理等服务。为了控制客服中心人力成本,减少客户咨询长时间排队等情况,农行、中信银行、邮储银行、太平洋保险、国航、深航等,纷纷引进捷通华声的智能客服。
以中信银行为例,在微信公号、和官网接入智能客服,可以为用户提供借记卡、信用卡、养老金等全业务的智能咨询、办理服务。智能客服问答准确率超90%,从2014年上线至今,日均访问量50万+,人工坐席节省125人/年。
此外,客服中心的电话服务热线,承载着大量用户咨询,人工服务压力和成本巨大,客户打电话经常打不进来、或长时间等待。
北京国税当时找到我们,看如何在不增加坐席人数的情况下,提供通畅的税务咨询服务。捷通华声给税务局开发了电话客服机器人、微信智能客服,和营业厅实体服务机器人。税收政策、税务登记、一证通、优惠政策、营改增问题、三证合一等问题都可以向机器人咨询,为纳税人提供永不占线、方便快捷的税务咨询服务。
银行、电信公司的服务热线,刚打进去是IVR按键导航,层级深,选项多,很多人进去直接按0转人工,导致人工服务压力巨大,而85%的客户咨询,都是常见问题。我们给光大银行95595热线做的智能语音导航,客户打电话进去后,常见的业务问题,机器人可以直接回答;需要转人工的咨询,机器人会反问补全,确认好业务种类后,精准转接给对应的坐席组。目前光大银行智能语音导航,日接听量20万通,回答准确率91%,转人工比例下降至20%,转人工等待时长下降30%,转人工坐席接起率提升至99.78%,取得了良好的业务效果。
类似地,手机银行APP,也有很多功能项,菜单层级深。为了方便用户使用,招商银行引进捷通华声智能语音技术,为招商银行掌上生活APP打造智能语音助手,查账单、转账、买理财,说出来即可,还可以咨询金融知识。这在提升用户使用体验和粘度的同时,大幅降低了中老年人等群体使用APP难度。
除了承接用户咨询,客服中心还有大量的外呼工作。例如银行的信用卡逾期催缴、贷款业务推广等。2016年,我们做了国内第一个智能语音外呼机器人产品,某大型股份制银行信用卡催收智能外呼机器人:2016年上线,成都分公司率先使用机器人,催收回款率提高30%,排名全国第一。月均节约人力成本120万,截止2018年12月底,累计节约人力成本4500万,节省了巨大的人力成本。
在近期给某知名互金公司上线的催收机器人,上线30天后,外呼回款率与纯人工催收效果一致,即机器人催收达到真人水平。
随着AI的深入应用,客服中心想用AI技术来督促坐席提升服务质量。某大型国企,引进捷通华声智能语音分析系统,将通话全量转写为文字并用规则进行自动打分,质检覆盖率从3%提升至100%,全面督促坐席提升服务质量,有效提升客户服务满意度。与此同时,对客服大数据进行挖掘与分析:业务热点、业务发展趋势,可视化展现;通过重复来电分析、关联分析、异常分析等,挖掘客户投诉、多次来电原因。
在质检客服的同时,灵云智能语音分析系统还可以辅助坐席的实时通话。2016年,捷通华声为某大型保险公司做了国内首款实时智能语音分析系统。近万名坐席,通话实时语音转写,坐席侧语音识别率超90%;如果坐席出现未按流程对话、保单免责条款未说明、诋毁同业、假冒促销等情况,系统会实时发出违规提醒;系统也会实时分析客户说话内容,给予坐席产品类型建议、险种内容、挽回话术、常见业务知识等话术辅助。
系统上线后,有效规范了保险电销服务,降低了新人成单难度,提升了整体电销成单率。
除了客服中心,物联网场景也对智能语音交互技术有巨大的需求,如大家熟知的智能音箱、儿童智能陪伴机器人等。我们给机顶盒厂商做智能语音助手,换频道、搜电影,可以直接说出来,为用户创造体验更友好、更高效的人机交互方式。
在提供方案产品的同时,我们给众多合作伙伴、政企客户提供基础人工智能能力平台,助力其打造智能化的业务应用。灵云全智能能力平台-AICP,提供语音识别、语音合成、声纹识别、OCR、人脸识别、视频分析、语义理解、机器翻译、数据挖掘等全方位AI技术能力,是灵云AI技术赋能百业的关键。
AI技术产业应用,给企业减少了巨大的人力成本,实现了业务的跨越式升级。AI已成为推动产业智能化升级的关键动力。
AI技术产业化的思考
下面分享一些我们捷通华声在AI技术产业化中的思考:
第一,AI技术的发展,计算理论的演进,算法的升级是关键;体量大、分布合理、干净的数据模型是基础;给客户提供学习训练,例如NLU、ASR等的数据训练,能有效提升AI技术在产业内的应用效果。另外,AI技术的发展,离不开产业界的包容,即客户对技术发展阶段性水平的理解,这为AI公司的成长进步提供了土壤。
第二,AI技术融合应用趋势已非常明显。例如我们推出的车载输入法,用户可以用语音、手写、键盘输入,让车载输入更安全快捷;我们的灵云手机输入法,支持语音、手写、键盘输入,中英、中维翻译,OCR拍照输入、跨屏输入、语音速记等功能,满足用户多种场景的输入需求。
语音互译软件,除了综合应用语音识别、机器翻译、语音合成、OCR技术,各项技术还要求是支持多种语言的。银行大厅服务机器人,要求功能更广泛,智能语音交互,人脸识别、指纹识别验证,OCR拍照录入材料等,各项技术融合应用,为用户提供更便捷的服务。
同样的,我们在做的办案智能化笔录(中维双语)场景,需要语音识别(普通话、维吾尔语)、机器翻译(中翻维、维翻中)、语音合成(普通话、维吾尔语)、OCR拍照识别(中文、维吾尔文)融合应用,才能提供完整的服务。
AI技术融合应用的背后,就是人工智能的本质——模仿人的能力。从感知、认知、到行动,越多AI技术融合应用,发挥威力越强大。
第三,AI产品也趋于融合服务。例如,我们在客服中心推的灵云全智能客服解决方案(AICC),基于灵云全智能能力平台(AICP),运用行业领先的语音识别、语音合成、语义理解以及大数据分析等AI技术,为客服中心提供一站式的智能客服、智能语音导航、智能语音外呼、语音质检分析等智能解决方案。
●智能客户服务:智能客服、智能语音导航在微信、网页、APP、电话等多种渠道,为用户解答咨询、办理业务
●智能语音外呼:外呼机器人,快速完成海量电话的外呼,高效完成客户回访、金融催收、营销推广等工作
●智能语音分析:实现100%全覆盖的智能语音质检,督促坐席提升服务质量;对坐席通话进行实时话术辅助,助力提升电销成单率;对客服大数据进行挖掘分析,助力业务决策。
同样,在公检法办案语音笔录场景,通过共用基础AI能力平台,支撑多场景业务应用:为询问室提供讯问智录系统,实现双人对话转写;为会场提供智会系统,实现多人会议转写,和讲话实时上屏;在办公室,提供PC语音输入法,用语音快速录入文字信息;在外出执勤现场,用便携式讯问笔录一体机,快速生成讯问笔录,多项AI产品融合应用。
下一次转型:AI云服务
展望未来,下一次转型是什么?5G、云计算快速发展,政企单位接受公有云服务的意愿度渐渐提升。下一次转型,AI云服务,将是巨大的机遇。
之前做项目有很多难点。对供应商来说,大量POC、交付项目,在全国各地大量部署,部署、对接调试时间长,人力、差旅成本巨大,散点运维,无法统一;对需求方来说,需要准备硬件环境(如ASR用的大内存服务器,机器翻译用的GPU),需要投入人力配合部署、调试,部署拖长了项目周期,也间接性增加了采购成本。
2018年,灵云AI入驻华为云,为产业界提供AI技术能力与产品方案云服务。
我们开始了一个转变,从部署各种能力、系统产品,转为向客户提供AI能力与产品服务的快速调用,让每一家企业都能快速接入人工智能。
5G+云计算,天生助力AI云服务发展。5G传输,满足音频、图像、视频等传输量大,实时语音识别、OCR、视频识别等要求低时延的要求;云计算,更能好的运行深度学习算法,满足语音识别等模型库巨大,图像识别、机器翻译等需要GPU计算的需求。
例如,某大型保险公司项目,之前由于网络传输速率、延时,不能满足通话实时语音识别需求,超百台服务器,进行异地多活部署。有了5G后,可以转变为集中统一部署,这可以减少硬件计算资源空置,减少运维管理投入,降低整体建设成本。
某警务外出办案语音转写项目,以前都是需要大内存笔记本电脑,或便携式服务器部署ASR,成本高。换5G后,可以用5G调用公安云语音识别能力,普通笔记本联网即可应用。
某政府大规模翻译项目,5G,带宽大、低延时,满足办公实时传输大量语音、图像等数据需求;机器翻译、图像识别等需要的GPU计算资源,由云平台统一提供,提高硬件资源利用率。相较多点部署GPU服务器,大幅降低成本。
整体来说,用5G+云平台方式提供AI服务,具备诸多优势:客户接入快、成本低,计算资源利用率高、运维统一,供应商成本低,AI更易推广。
AI应用+云计算+5G,将构建一个更智能、更高速、算力更强大的智能化产业互联网,服务各行各业。
感谢大家的聆听,欢迎学习交流!