任务型电话机器人的断句机制分析,电话机器人与纯文本机器人最大的不同是需要经过语音端点检测(VAD),即是对输入的音频流进行分析,确定客户说话的起点和终止点的处理过程。一旦检测到客户开始说话,语音开始流向语音识别引擎(ASR),直到检测到客户说话结束。这种方式能够使得识别引擎在客户说话的同时开始进行识别处理,做到最大限度的即时处理。同时,在实际应用中至少会有以下5个方面的问题存在:
过于敏感的VAD的容易产生误警,将非语音信号传输给ASR,导致较多的识别失败。
过于保守的VAD的容易延迟触发,在语句的开头漏掉一些有用的数据,如“不是”变成了“是”。
提前错误断句会造成抢话,在语句的结尾漏掉一些有用的数据。
延迟断句会造成响应慢,容易使得一些干扰音进入到识别语句中,导致文本数据存在噪声。
语音信号的不完整性很可能会使识别率降低,如某个字的一部分音频片段丢失,易造成该字识别错误,进而影响语言模型(LM)的马尔科夫链。