不久前,北京捷通华声语音技术有限公司在京召开的灵云”发布会引起了产业界的广泛关注,就智能人机交互(HCI)技术的发展和产品的落地应用展开了广泛探讨。作为智能人机交互(HCI)产业中重要的组成部分之一,并作为未来十年最重要的技术之一,语音交互技术得到了各界朋友的特别青睐。
回眸语音技术的发展,除语音合成(TTS)技术应用较早外,更多的语音技术并没有得到广泛的应用,即使到今日,通过语音技术实现的场景应用并不是很多。其实,语音技术一直在发展,以语音识别(ASR)技术举例,从1952年贝尔研究所成功研究了世界上第一个能识别10个英文数字发音的实验系统以来,到如今中文语音识别技术已实现了自由说输入,语音识别技术从算法到模型都有了强劲的蜕变和发展。
捷通华声公司从创立到如今,核心技术的研究也无时无刻的在创新发展。作为从事十余年的专业语音技术民营企业,捷通华声凭借在语音合成(TTS)技术上的自主创新和精湛技术,与国家扶持的科大讯飞公司几乎平分了中国语音合成市场。时至今日,全国超过八成的银行排队叫号服务和全部高铁站台语音播报系统仍使用捷通华声自主研发的语音合成TTS技术。在语音识别ASR技术上,捷通华声公司也专注研发,从无到有,从识别率一般到真实环境下普通话自由说语音识别准确率超过90%,达到国内一流的技术水平,实现了质的飞跃。近年,捷通华声顺应发展,推出了全球第一款人机交互(HCI)感知云:灵云!基于云技术的优势和特点,灵云的语音技术达到更好的实际效果,得到更广泛的应用。
从中文语音技术的发展现状看,复杂的环境和中国语言文化的博大精深影响着中文语音识别效果。仅从实际效果看,语音识别正确率能超过80%就已经是很不错了。灵云平台的诞生,将捷通华声语音识别技术与云计算有机结合起来,再整合捷通华声自身及合作伙伴的数据资源,让语音识别技术形成了可落地的实际应用。如国内首款能说会听、能写会识”的智能手机助手小唐龙就应用了灵云的各项智能交互技术和百度、电信、移动等数据资源,尤其语音技术让其在功能上实现了人与机器间的语音交互过程。
同样,作为智能人机交互(HCI)技术中重要的自然语言理解(NLU)也是灵云语音云中重要的一环。自然语言理解能力是实现语音识别和语音合成效果的保证,是实现人与机器的交互像人与人之间沟通的保障之一。灵云作为HCI技术交互平台,在自然语言处理、分析、理解上下足了功课,在能源、金融、电信、服务等多个领域做出了应用。
语音技术作为智能人机交互(HCI)技术的一种,与灵云的其他各项HCI能力进行了整合。如语音技术应用到灵云智能客服机器人中,实现了以自然语言理解和多种智能人机交互技术为核心,通过网页、即时通讯等多种展现形式,实时与用户进行交互的智能系统。灵云文档OCR识别技术,更是增加了NLU模型,提升OCR中文识别校对能力,识别正确率几近100%。
在发展语音技术的同时,捷通华声更看重与云平台企业的合作,灵云与中国电信开放平台的深入合作、与中国惠普云基地的协作共赢,通过合作的模式让灵云的语音技术得到更多的汲养,无论是云计算模式还是开发者对语音技术的开发应用,都为灵云语音技术开拓了无限视野。
智能人机交互(HCI)技术的发展仍有很多关键技术亟待突破,灵云HCI平台还有更多合作需要展开。灵云中的语音技术作为人机交互的核心之一,在复杂环境的语音识别和语义理解等能力上还需进一步探索完善。只有我们的核心技术不断提高,才能让人机交互更智能、更自然!更多信息请访问灵云网站(hcicloud.com)