现如今,智能语音技术在移动终端上的应用极为热门,语音对话机器人、语音助手、互动工具等应用层出不穷,那么智能语音技术是什么?其发展过程有哪些难点?发展过程中要注意哪些问题呢?
首先,我们以车载语音系统为例展开讨论:
这个过程是怎样实现的?首先,车载语音系统把听到的声音转化成文字,然后理解内容,最后做出响应策略,并把响应策略转化成语音。
上述过程体现了以下核心能力:
音转字,也就是自动语音识别(ASR),让机器通过识别和理解过程把语音信号转化为相应的文本或命令的技术。
字转音,即从文本到语音(TTS),是把计算机中任意出现的文字转换成自然流畅的语音输出。
自然语言处理(NLP),用计算机来处理、理解以及运用人类语言,让人与计算机之间进行有效通讯。所谓自然乃是寓意自然进化形成,是为了区分一些人造语言,如C、C++、Java等人为设计的计算机语言。
ASR是让机器实现听的能力,而TTS是让机器实现说的能力,结合自NLP的思考运算,理解并处理文本,即组成了人机交互的基本能力。
语音交互的基本模型
智能语音技术除了基本的语音技术,还主要依托于信息系统技术和文本处理技术。如果缺乏强大的计算能力以及更高级算法模型的前提条件,语音识别及分析技术终究是实验室以及小众场景领域的理论成果。
在过去的几年,硬件技术以及云计算快速发展,计算机算力一直在提升,加上人工神经网络算法的支持,让语音的训练变得越来越容易和高效。以往可能需要数周甚至数月时间的训练过程被缩短到数天乃至数小时,使得各种语音应用变得随用可取,极大加速了智能语音应用的蓬勃发展。
语音识别技术由来已久,但在很长一段时间都没有很成熟的应用出现。在技术上要准确地识别一段语音,其实是件非常困难的事情,除了不同语种的区别,方言口音各异、新词新语的涌现等也对识别准确率造成较大的影响。
许多国外英语环境下非常优秀的智能语音厂商,其技术应用表现在英语环境下非常不错。但对于中文环境,一开始有点水土不服,其实就是中文语音的数据训练太少导致。很多同事在调研或了解某个实际语音应用产品时,发现其方言识别能力逐渐增强,为什么会有这样的结果呢?其实是训练了大量的数据。
随着互联网的快速发展,以及手机等移动终端的普及应用,各AI语音公司可以从多个渠道获取大量文本或语音方面的语料,这为语音识别中的语言模型和声学模型训练提供了丰富的资源,使得构建通用大规模语言模型和声学模型成为可能。在语音识别中,训练数据的匹配度和丰富性是推动系统性能提升的最重要因素之一。
相对十年前的情况来看,目前绝大部分语音识别技术的翻译准确率都已达较高水平,在噪音处理、语气语调、语义理解等方面均已大大提升,而最终能力上的差异关键在于:一,是否拥有核心的专利技术与能力;二,是否有足够多的商业落地场景和实施经验。
人工智能时代,智能语音已经脱离简单的信息查询功能,通过与内容服务的深度融合,拓展出各种新产品、新应用和新服务,进而带动智能语音向垂直行业更深入地拓展。
语音交互作为人机交互的重要演进方向,正逐步渗透到人们的日常生活与应用当中,构建一种全新的信息生活方式。
普强多年来一直以语音为中心,专注金融大数据、AI芯片、智能汽车领域。回过头来看普强的成功经验,语音在产品化的过程中,必须与真实使用场景紧密贴合,符合不同目标群体对于语音产品实时性和准确性的需求。同时,由于不同的环境具有不同的声音特质针对化处理,普强在降噪、方言、远场所需要的解决方案也颇有建树。
智能语音在行业及商业上的落地需要脚踏实地做实际的事情,解决真实业务上的痛点。
关于智能语音技术的应用和落地,我们将进一步进行讨论。