电话机器人是近两年兴起的人工智能产品,主要通过电话群呼叫潜在客户,通信选择信息,帮助企业选择意向客户。企业使用电话机器人可以降低人工成本,提高运营效率。
电话沟通也是信息沟通的一种方式。对于人类来说,这是一件非常简单的事情,但对于机器来说,这并不是一件容易的事情,它涉及到主动语音识别技术。
语音识别,又称主动语音识别(AutomatichSpeechRecognition、ASR),是指计算机主动将人类的语音内容转换成相应的文本。
语音识别技术已经有50多年的历史近年来仍被广泛使用。随着移动设备、可穿戴设备、智能家居设备和车载系统的日益普及,对话交互逐渐成为人机交互的重点。
语音识别主要由以下基本模块组成:信息处理和特征处理、声学模型(AM)、语音模型(LM)、发音词典和解码器。
信号处理和特征提取。它是语音识别系统的部分,其主要使命是接收最原始的音频信号,为后面的声学模型提取合适的代表性特征向量。它还包括一些信号处理技术,如尽可能降低环境噪声、信道失真、说话人等因素对特征的影响。
普通语音识别系统多采用隐马尔科夫模型对词、音节、音素等基本声学单元进行建模,生成声学模型。可以简单理解为发声的建模,可以将语音输入转换成声学表示的输出。
正则语言,包括上下文和文法在内的各种语言模型都可以作为语言模型。目前,大多数语音识别系统仍然选择基于计算的N元(N-gram)模型及其变体。它可以通过练习学习单词和单词之间的联系来估计假设单词序列的可能性。
发音词典包括系统可以处理的单词的调整和发音。发音词典获得了声学模型建模单元和言语模型建模单元之间的映射连接,并将它们连接起来,形成一个搜索状态空间,用于解码器进行解码操作。
解码器是语音识别系统的中心之一,其使命主要是读取和输入语音信号的特征序列,然后根据声学模型、语音模型和发音词典解码以更大概率输出信号的词串。
语音识别是先编码后解码的过程,信号处理和特征提取是编码的过程,从原始语音获得语音向量。后面是语音向量的解码,解码需要上面提到的声学模型和言语模型。
与计算机视觉不同,语音识别只有一个中心使命——将人类的语音转换成文本。简单描述一下机器识别语音的过程:单词由单词组成,单词由音素组成。假设我们把一段语音的声波按帧切开,用帧组成状态,用状态组成音素,然后用音素组成单词,语音就变成文字了。
音素:音素是最小的语音单位,一个发音动作构成一个音素。音素构成音节,音节构成不同的单词和短语。音素分为元音和子音。
情况:这里可以理解为比音素更详细的语音单位。一般一个音素分红三种情况。
虽然语音识别技术仍有许多亟待进步的地方,如方言语音识别、高噪声环境语音识别等。但不可否认的是,随着信息技术的不断发展,语音识别技术将不断被打破,发展空间越来越大。