语音识别、语音合成、声纹识别技术,可以将一个人的声音转化为另一个人的声音,将其变成另一个人。而智能语音平台作为声音处理的硬件平台,是智能语音技术落地应用的重要载体。目前常见的智能声学模型需要开发者进行专业训练,后生成对应的音频流产品或音频数据;对于非声学模型来说,需要对开发者提供的原始音频进行专业处理,生成相应音效库。而这些都无法直接应用于智能语音平台之上;我们需要一个质检系统来帮助开发者们监督及反馈训练质量。
我们推荐使用第三方服务进行质检。对于第三方服务,我们提供了两种质检方式;一种是直接从录音文件中提取质检数据进行处理,一种是从平台上传语音文件到第三方服务进行识别分析。
1、数据采集
采集的音频文件包括了从设备端到服务端的所有音视频数据。
包括:
A、本地设备录制的音频文件;
B、云服务器保存的音频文件;
2、质检分析
质检分析结果可在质检系统中直接查看,并支持导出数据。
通过对声音进行识别后,系统会根据用户上传的声音文件,结合文本检测技术,对录音文件的内容进行检测;然后结合文本检测技术与文本识别技术形成音频检测报告。
该部分报告将详细介绍音频文件中各声学部分的内容及缺陷、语音部分的信息等内容。
同时可对该音频文件进行评分,并在后台统计得出对应评分结果及其占比,从而提供相应的反馈及建议。
另外还可以提供针对某一特定领域产品训练时用到的特征词、特征词组、特定领域等关键词进行相关统计分析和可视化输出,方便开发者更好地理解模型训练结果及提高训练效果。
3、结果输出
输出结果包含三种:
标准输出:可供开发者进行训练时使用,例如测试数据或检测结果等;
标准输出:供产品提供方进行分析时使用,例如根据声音参数、声压级等进行相关参数的优化等。
4、平台管理
管理服务:
包括对系统的维护,修改及删除等;
包括对设备的监控和故障诊断的功能;
支持对系统中的所有功能进行监控。
管理方式:平台端管理方式,可使用管理工具或软件等进行添加、删除及修改服务列表;
5、其他功能
支持离线使用,可远程调用离线语音识别功能;
(文章转载于天润融通)