AI的“黄金时代”已来!那离我们比来的AI是什么呢?地图里的语音入口,机器翻译、拍照识图、无人超市,还是比来大热的智能音箱,好比正式开售的可语音购物的xx精灵。但这些真是能解决痛点的AI吗?
近日,在AI领域博得先机并明确将赴美上市的搜狗,,推出了一款小众的免费产品——“搜狗听写”,目的是为了解决会议、采访、写作等场景下长语音内容转写难,可以将语音实时转酿成文字,并能标注重点、边写边改进行文字编纂。
“听写”和“转写”为文字工作者减负
采访一小时,整理录音三小时,写稿两小时……这是机器人圈记者的工作常态,相信也是大量同行的日常,并且除了记者编纂,包孕职业写作者、会议记录整理者在内的不少文字工作从业人员都有相似遭遇。
当然,“人肉”速记能够解决部分难题,但一有专业性的门槛,有些速记记录的术语实在不忍多看;二是时间上需要排期,费用上也需要考虑,并不是所有的“扒速记”工作都能如愿“转包”出去。当然,市面上也有类似的工具,提供付费的转写办事,只是准确率仍差强人意。
再看“搜狗听见”这款免费的APP,确实是击中了部分人的需求。从功能上看,提供包孕“听写”和“转写”在内的两种模式:“听写”模式可在录音的同时给出实时识别结果;“转写”模式则可在离线状态下录音,录音完成后一次性获取文字结果。
它还提供边听边改(生存录音后,可以边听录音边修改文字)、按照语义自动添加标点、支持文本/语音标重点、多客户端同步、信息分享等功能,而且在人的说话音量低至 30 分贝时,依然可以识别。
值得一提的是它的“大杀器”功能,可以按照记者、作家、自媒体等文字工作者的需要,连接搜狗输入法的个人词库,引入个性化词汇,好比机器人圈的昵称“圈圈”估计就属于独门。
此外,“搜狗听写”还将推出Windows版,专注大会场景的实时速记。
“喂”数据才能更强大
对于有着强大需求的机器人圈记者,在现场已经迫不及待的试用了一下产品。
记事写作比访谈录音呈现出来的准确性更高
对此,机器人圈记者也采访了搜狗公司语音交互技术中心总经理王砚峰,他体现所有的搜狗语音类产品背后都是知音引擎,不过,一般面向具体的场景会有优化,有专门的语音模型。在演讲、聊天的场景下,和车载、会议以及手机近场说话的语音模型都是不尽相同的。
搜狗语音交互技术中心技术总监陈伟还介绍,搜狗听写使用了搜狗知音引擎的长时语音转写技术,从立项到现在,错误率已经下降30%。在声学模型方面,采用了端到端深度神经网络技术Deep
LC-CLDNN+CTC技术,转写模式则使用了Deep CNN+CTC的方式,语言模型基于T级海量输入法文本数据使用神经网络进行建模。
此外,影响准确度的还有硬件降噪,手机的降噪能力是比较弱的,尤其手机上在远场的识别率不高,原因就在硬件上手机并没有面向远场识另外麦克风阵列。
还有一个重要的原因是数据的不足,“喂”数据训练模型提高准确度已经是产业界公开的奥秘,实时语料数据也将成为这一领域的真正“壁垒”,所以希望准确度提高,也离不开每个用户的支持。
“自然交互+知识计算”的技术路线图
当语音领域的队友们都在“刷音箱”,为什么搜狗却做了一款“小众”的转写APP呢?稍微回顾一下,搜狗在语言领域的布局。在 2016 年 6 月的搜狗输入法十周年上,搜狗CEO王小川就提出了将人工智能定位搜狗输入法的下一阶段战略发展的新标的目的,搜狗CTO杨洪涛则首次透露了搜狗输入法的快速分享、聪明回复和妙笔修饰等目前正在研发的三个能够增强用户表达能力的人工智能新技术;而在 7 月的奇点创新者峰会上,王小川更是直接邀请一名现场不雅观众上台直接演示完全通过自然语音来发送一段短信息。