微软透过大量口语资料的深度学习,让电脑具备的语音识别能力比美人类水准。在一项口语测试中,电脑与专业听打员测试比较,在其中一项子测试中,电脑的语音识别错误率由先前的6.3%降到5.9%,大约等同于人类识别的水准。
微软周二公布一项报告,指出微软开发的语音识别技术在一项测试中,首度达到错误率和人类相去不远的识别能力。
微软人工智能研究中心(Microsoft Artificial Intelligenceand Research)公布的报告中研究人员及工程师运用业界常用的电话口语对话测试集NIST 2000 CTS,针对微软自有技术及专业听打员进行测试比较。其中在Switchboard子测试集中,微软技术的字词错误率由上个月的6.3%降到5.9%。
微软表示,这个成绩大约等于识别同一组对话的人类成绩,也是Switchboard语音识别测试历来最低的错误率。这表示电脑辨识对话口语字词的能力,首次达到人类相同水准。
主管微软人工智能研究中心的执行副总裁沈向洋也指出,他们去年立下使电脑语音识别能力达到人类水准的目标,不到一年就达到了,也出乎他们意料之外。
微软研究团队运用该公司电脑视觉专家开发的深度神经网路,以大量资料训练电脑识别出图像或语音中的模式。为达到和人类相仿的辨识能力,他们使用名为Computation Network Toolkit(CNTK)的深度学习系统。这套系统透过在多台搭载专用绘图处理器的电脑上快速处理执行深度演算,并大幅提升研究能力,最终拉高到人类水准。微软去年也将此工具组开源于GitHub释出。但微软也指出,一如人类会犯错,电脑也不是所有字都能识别无误
微软表示,这项研究结果将对消费及商用产品有深远影响,包括Xbox游戏机、身障辅助工具,如口语听写,并使Cortana成为真正的个人数位助理服务。
除了微软,Google、脸书、IBM及百度也都积极投入人工智能为基础的语音识别,用以作为人机的自然语言互动界面。