11月28日晚间消息,北京捷通华声语音技术有限公司(简称捷通华声”)今日在北京中关村举行2012灵云发布会”。会上,捷通华声发布了语音识别、语义理解和光学字符识别三项HCI技术,其中语音识别准确率已达到90%以上。
此前,捷通华声一直以语音合成技术和手写技术闻名于业界。而如今其语音合成技术依然保持领先,有超过50%的市占率。而手写识别也占据了约35%的市场份额,且支持42种语言及手写/叠写识别,突破了用户叠写字迹无法识别的局限。
图1:参会嘉宾通过手写识别获取签到资料
除了已有HCI技术,捷通华声在发布会上又发布了语音识别、语义理解和光学字符识别三项新技术。语音识别是指机器对人声的识别,主要有所说即所点”、智能意图控制”、语音输入”三种应用场景。语义理解是机器对人类语言的理解,目前大多应用在智能问答场景中。光学字符识别,则是对印刷体文本资料中的文字和版面信息识别的过程。
在语音识别方面,捷通华声针对三种不同场景做了专门优化。所说即所点”是用人声来代替点击操作,解决了车载等无法便捷实现点击的场景局限。目前这方面的识别正确率已超过95%,识别响应时间从原来的2.7秒降到了0.3秒。
而智能意图控制”是人通过语音控制周围环境,执行一系列命令操作的过程,比如人与智能手机客户端小唐龙的互动,成功实现了人机互动的便捷生活。第三大场景语音输入”则是将人的声音转换成文字,目前捷通华声这一技术在微博短信中的语音输入正确率已超过90%。
图2:灵云输入法与小唐龙下载区
至今,灵云已拥有语音合成(TTS)、语音识别(ASR)、手写识别(HWR)、光学字符识别(OCR)、人工智能(AI)等多项HCI核心技术。通过捷通华声工程师团队的努力,这些技术被成功放置到灵云平台上,且其客户端程序被大大缩减至3M。通过这3M大小的应用程序,客户可以调用所有的灵云能力,从而为不同领域、行业企业提供了多种HCI解决方案,包括无纸化办公方案、电子签批方案、电子表单处理方案、语音技术方案、智能客服系统方案等。
除了支持多项HCI技术,灵云还可以挂接第三方的HCI能力,力求将多样化的HCI技术加载到灵云平台上,服务服务广大的用户。而云+端”的方式,使得灵云性能更优化,响应速度更快,极大地方便了用户的使用。而作为一个开放性平台,灵云定制化的目标更加明确,满足各种场景应用和需求。捷通华声董事长张连毅表示,通过灵云以及各项HCI技术的不断创新,捷通华声希望能达成让人与机器的交流像人与人一样自然”的愿景。