刚刚结束的全国两会,不仅是人大代表繁忙的时刻,更是让广大媒体记者忙碌了起来。历时两周的两会,各大媒体记者需要整理上百个大大小小的会议、几千名人大代表的各种会议精神和发言内容,确保新闻的时效性。若是没能速记到一字不差,便只得老老实实通宵整理会议录音,费时费力。
为了方便更多媒体记者快速整理访谈、会议新闻稿件,捷通华声在灵云语音云上线最新ASR引擎的基础上,推出党政会议专业领域语言模型,面对两会发言、政府报告、党团会议等相关录音实现了超高的转写识别准确率,获得媒体记者一致好评。
党政专业领域模型优化 成就超高识别准确率
“我的天!这语音云也忒牛了!本打算熬夜整理两会录音的,没想到等了几分钟,录音内容就变成了文字,太省事了!”一位刚刚结束两会工作的记者用了灵云乐识转写录音后惊叹道,“而且这准确率太高了,党政相关的专业词汇几乎全转写对了!”
两会政府报告转写结果,准确率近99%
近期,有不少记者使用了灵云语音云转写了两会相关内容的录音后,纷纷表示识别准确率大幅提高,像“第十三个五年规划纲要草案”、“全面建成小康社会”、“户籍人口城镇化率”等等党政领域的专业词汇都转写的十分准确。
如何造就变态准的识别率?
本次识别准确率提升明显的良好体验,得益于捷通华声针对语音云灵云乐说的语音识别技术,在核心ASR引擎的升级和语言模型的定制领域训练优化。
语音识别系统结构框图
从语音识别原理来讲,影响语音识别准确率很重要的因素在于语音识别系统的模型,一般包括声学模型、语言模型两部分,捷通华声通过领先的人工智能技术,在两方面针对党政会议的录音均进行了针对性的优化。
声学模型是从语音信号中抽取的特征到音节概率的计算。作为语音识别系统的重要组成部分,它占据着语音识别大部分的计算开销,决定着语音识别系统的性能。捷通华声通过将最新推出的全新一代灵云语音识别引擎,对建模单元粗粒度、模型训练方法、解码帧率进行创新优化,有效提升了语音识别引擎的执行效率、鲁棒性,增强了口音、语速适配能力,大幅提升了声学模型的效果,识别率得以实现跨越式提升。
语言模型是音节到字概率的计算。捷通华声近期通过对语言模型进行定制场景训练优化,推出了专门针对党政会议的语言模型,该模型将大量关于党政会议、报告的语音及文本语料放入其中进行了训练优化,面对涉及党政相关的领域词汇,实现了更好的匹配度,从而面对专业领域的录音,有了更好的识别效果。
除了党政会议领域,灵云语音云还拥有新闻媒体、会议办公、情感写作、IT科技、影视娱乐、医疗保险、法律法院务等多种领域的语言模型以供用户选择,满足不同领域的音频转写,帮助各行各业的用户实现高效记录和信息输入。
在线转写编辑 边听边改更高效
语音转写为文字后,为更好地提高文字整理效率,语音云还拥有在线分音频节点编辑功能,用户可以点击任意需编辑的文字,系统会定位到该处文字的音频节点,然后边听该段音频边即时修改文字,哪里文字转写不准,可以随时点击定位到相应录音上进行修改。
通常一段一小时的采访录音需要花三四个小时才能整理完,而有了这个强大功能,通过边听边校对,一小时的录音听完也就整理完了。并且,完全避免了整理录音时听着录音手动按下暂停,在word上敲打文字后再回来点击继续播放的复杂操作。
语音云直达链接
用户可直接输入网址:speech.aicloud.com即可进入语音云网站,另外也可以登录灵云平台(www.aicloud.com)点击语音云服务按钮进入。