搜狗语音交互技术中心总经理王砚峰
搜狗推出语音转写文字工具“搜狗听写”,基于搜狗知音引擎的长时语音听写技术,可实现小时级文字转写功能,文本语音同时生存。现已上线Android、iOS移动端和Web版本,提供“听写”和“转写”两种模式,办事免费,主要面向记者、编纂、作家等文字工作者。
活动现场,搜狗方面体现,后期将重点推进人工智能技术的落地,并透露将在可穿戴、车载、客厅等场景领域自主研发硬件。搜狗方面透露,搜狗将于近期推出一款面向家庭和儿童的机器人产品。
据介绍,搜狗语音输入法错误率已经下降到3.8%,语音识别办事每日请求PV为2. 6 亿次,每天产生语料 22 万小时。基于规模性的用户语音数据,听写产品将搜狗的语音识别、自然语言理解等技术进一步延展落地。
传统语音转录产品主要包孕两大类,录音类、语音输入法+备忘录。前者只能录音不能实现文字转写,不能标注重点;后者无法长时语音输入,可能被打断,无法生存原始录音。搜狗认为语音转录产品具备刚性需求。基于上述痛点,搜狗听写提供听写和转写模式,听写模式可边收音边展现识别结果,转写模型支持离线上传文件给出识别结果。
在功能设计上,搜狗听写提供语音和文字无缝对齐,便利重点内容定位;支持重点标注,对应的文本和语音可同时标注。产品可在手机端边听边写,实现手机端和网页端内容同步。此外,搜狗听写还提供外接蓝牙键,与手机配对,便利用户录音过程中实时标注。搜狗听写还可按照语义自动添加标点,标点正确率高达96%,标点类型在满足逗号、句号、问号、叹号的基础上,还率先扩充了书名号。
在应用场景上,搜狗听写针对用户的使用场景,如开会,写小说等场景进行优化。识别效果较通用效果提升15%以上;还针对未便于大声说话而又有使用语音的场景,提供了耳语识别技术,在人的说话音量低至 30 分贝以下的情况下,依然可以准确识别。
相较于此前的输入法语音识别,搜狗听写的使用场景更加复杂,在算法模型层面,搜狗进行了优化。据介绍,听写模式采用业内领先的端到端深度神经网络技术Deep LC-CLDNN+CTC技术,转写模式使用了Deep CNN+CTC的方式,语言模型基于T级海量输入法文本数据使用神经网络进行建模,语音识别准确率高达97%。
在语音文字转写工具领域,,科大讯飞已经推出录音宝、讯飞听见等产品。当谈到搜狗听写的差异性,搜狗语音交互技术中心总经理王砚峰认为,搜狗听写的优势在于可支持长时录音,转写办事免费。在功能设计上,搜狗更看重垂直场景的体验提升,好比加入蓝牙键,提供改写、标注、发摘要等在线编纂功能。(侯迪憬)