TS是Text To Speech的缩写,即从文本到语音,是人机对话的一部分,让机器能够说话。是一种将输入的文本转换成语音的技术。
TTS输入的文本包括两部分:纯文本和标记。纯文本指的是语音的内容,而标记可以用来改变语音的声调、速度、重读等。TTS引擎的处理过程如图:
其中,文本处理是通过语音模型进行分词,消除单词的多义(如确定多音字的发音),并处理标记。而合成是把单词转换成语音。合成主要有两种,一种是基于规则的合成,主要是计算参数的轨迹,形成规则,完成语音的合成,采用的参数包括发音器官参数和声道模型参数;另一种是基于拼接的合成,合成器按照语音规则把预先录制的语音单元进行拼接,预先录制的语音单元的集合叫作音库,合成语音的音质与录音员的音质是一样的。语音合成技术主要有以下发展方向。
(1)提高合成语音的自然度
提高合成语音的自然度仍然是高性能文语转换的当务之急。就汉语语音合成来说,目前在单字和词组一级上,合成语音的可懂度和自然度已基本解决,但是到句子乃至篇章一级时其自然度问题就比较大。
(2)丰富合成语音的表现力
目前国内外大多数语音合成研究是针对文语转换系统,且只能解决以某种朗读风格将书面语言转换成口语输出,缺乏不同年龄、性别特征及语气、语速的表现,更不用说赋予个人的感情色彩。
(3)多语种文语合成
语言是人们交流的工具,不同民族有自己不同的语言,不同语言之间的交流在今天开放的信息社会和网络时代显得十分重要,多语种的文语合成有着独特的应用价值。
TTS是语音合成应用的一种,它将储存于电脑中的文件,如帮助文件或者网页,转换成自然语音输出。TTS不仅能帮助有视觉障碍的人阅读计算机上的信息,更能增加文本文档的可读性。现在的TTS应用包括语音驱动的邮件以及声音敏感系统,并常与声音识别程序一起使用。
现在有很多TTS的产品,包括语音合成助手,PDF Markup Cloud,PDF 大师 ,Read Please 2000, Proverbe Speech Unit,以及Next Up Technology的TextAloud。朗讯、 Elan、以及 ATT都有自己的语音合成产品。 特别是在智能
呼叫中心IVR导航起作重要的作用!