0514-86177077
9:00-17:00(工作日)
图:科大讯飞董事长刘庆峰介绍语音云概念
科大讯飞在本次发布会上推出全球首个同时提供语音合成、语音搜索、语音听写等智能语音交互能力的移动互联网智能交互平台——“讯飞语音云”。 以下为刘庆峰现场讲演实录: 尊敬的各位领导和嘉宾,大家下午好。感谢周光召先生和柳传志先生的精彩演讲,让我们对我们民族语音产业的发展更是充满了斗志和昂扬的信心。就像刚才两位领导所说的那样,语音作为沟通和获取信息最便捷的手段和方式,具有广阔的应用前景。而今天伴随着语音核心技术的不断突破,伴随着移动互联网终端的不断升级,以及后台大规模服务并发文件的不断升级,在当前这个时代,应用新的架构,让客户能够用到最好的语音技术,我们觉得时机已经成熟。那么今天,科大讯飞在业界率先发布的包含语音的移动互联网的应用和平台,我们相信一定会对中国语音产业乃至移动互联网的发展起到非常重要的推动作用。 下面我首先给大家汇报一下语音产业最新的一些概括,我们这里所讲的语音技术,简单来说就是使得信息时代的各种机器,都能够像人一样能听会说,那么它包括了语音合成,让机器开口说话;语音识别,让它能听懂人讲话,比如说命令控制,语音搜索等等。那么随着社会的信息化,网络化和智能化的发展趋势,语音技术的应用可以深入到社会生活的几乎所有行业,那么目前已经在电信、银行等等越来越多的行业得到了深入的应用。 除此以外,语音技术还在国家的信息安全以及汉语国际推广领域都有着非常重要的应用,因此语音技术和产业历来是世界各国竞争的热点和焦点。那么2000年以前,中国语音产业几乎全部由国外公司主导,98,99年,微软,英特尔等等,都在中国成立了专门的语音研究机构,应该是产业形势非常地危急。就是在这种背景下,以科大讯飞为代表的民族语音产业,在联想投资,在科学院以及国家各部委的关心和支持下,我们勇于亮剑,经过十年的发展,目前中国语音主流市场的80%已经重新回到中国企业手中。 那么科大讯飞不仅在中文领域获得了国际领先的成果,而且在英文技术领域方面也取得了国际领先的成就,科大讯飞现在已经发展为中国语音产业唯一上市的公司,为下一轮更快更好的发展奠定了很扎实的基础。那么今天,我们的语音产业又面临着更加广阔的巨大的发展机遇,这个机遇就是刚才我们柳总提到的全球已经进入高速发展的移动互联网时代,那么作为产业界共同公认的,作为移动互联网,作为计算机整个产业发展的第五次浪潮,它将带来产业的整体规模将是在桌面互联网十倍以上速度的递增,那么在这个过程中,会诞生一大批伟大的公司。那么在互联网时代,由于我们的社会越来越小,经常在开车走路的移动状况下使用,因此语音技术在这个时代就有更加广阔的前景。我们的移动互联网正在以飞快的速度扑面而来,目前我们的8亿手机用户中,已经有将近2亿的移动互联网用户,到2012年,我们的3G用户也将超过2亿以上,如此巨大规模的用户群,一定会为中国移动互联网的发展提供源源不断的动力和持续成长的舞台。 在这个大的发展趋势中我们可以看到,对语音技术的投入力度和市场关注的步伐应该说是前所未有的,我们从IBM,微软,到现在的苹果和Google都可以看出明确的趋势,比如说IBM提出要把他的语音技术推向市场,微软在多种场合下提出来,他未来看好的三大产业第一就是语音技术。那么微软即将推出来的Window7,也已经把语音作为非常重要的一部分,苹果也正在研发语音识别技术等等。应该说国际IT巨头在中文语音领域,在全球范围内的对语音产业的高度关注,既促进了这个产业的更快的发展,也为我们中国语音企业提出了更大的挑战,使我们感到更大的发展的紧迫性。 在这种背景下,我们科大讯飞要发布我们的讯飞语音云各个,应该说当今的互联网发展,社会各界都已经明显看到,互联网已经发展到了成年阶段,就是越来越表达和反应了一个国家和民族的核心力。所以说各国跟互联网时代的网上的话语权和控制力的争夺越来越激烈,而语音作为文化的基础和民族的象征,我们认为中国的民族语音企业,一定要在这场竞争中拿出我们的气魄,做出我们的成果来。那么今天,科大讯飞我们要发布的讯飞语音云平台,就是面临这样一种产业竞争的激烈的格局,以及巨大产业发展的空间,我们提出来。 那么我们讯飞语音云平台的总体架构,大家可以看这个图,我们封装了包括语音识别,语音合成等等战略的各种智能语音技术,通过我们云计算平台接口,统一实现资源管理,存储管理等等,那么像开发伙伴提供便捷的开发环境和高校的语音服务。 下面给大家介绍并做一些相应的演示,我们在讯飞云平台中的一些核心技术。首先给大家介绍一下我们语音合成技术的发展和最新的成果。语音合成技术就是让机器和各种设备开口说话,最关键的指标我们的设备,在车上收到一条短信,我们能够马上读出来,那么读的效果好坏是一个非常的指标,根据国际比赛,那么有五分的主观评价标准,如果机器念的声音跟我们播音员一样,就是五分,像普通人一样就是四分,我们请大家看一看我们语音合成在各个历史阶段的项目。 首先可以请大家听一下我们在95年的技术。听起来很像电影里面机器人的声音,这说明技术难度很大。 看到98年,我们在业界率先达到了可使用门槛的水平。那么这是以这个系统为基础,科大讯飞的创业团队创办了讯飞公司,这对我们未来产业发展起到了巨大的推动作用。今天非常高兴告诉大家,我们的语音合成已经做到4.5分,是业界唯一超过4.0分的系统,也就是说播音员是5分,普通人是4分,计算机是4.5分,我们下面听一下。 那么刚才大家听到的,这是863比赛的原文,谢谢。那么目前应该说对基本任意文本我们都可以有这种水平,今天上午,我们针对今天的发布会,专门合成了一段文章,现在语音已经可以由男声,女声,童声,还有方言,请大家听一下,谢谢。 那么这都是现场合成的,应该说我们对几乎任意文本都能做到这样一个水平。那么除了包括中文的多语言多方言的情况之外,我们加大了国际多语种的研发,我们参加了由美国和日本联合发起的国际英文大赛,这是全球最权威的语音合成比赛,06年科大讯飞成为业界最大的一匹黑马,当时包括了参加的有微软公司等等,那么2006年,又连续比了四年,我们非常高兴地告诉大家,讯飞已经不但是黑马,所有关注讯飞的情况下,我们连续四年蝉联全球第一名,下面请大家听一下我们英文合成的效果。 这一段英文合成应该是非常地道,可以给大家看看这张图,这是2001年国际比赛的结果,科大讯飞是唯一超过4.0分的英文合成系统,4.9分是参考对方的美国的播音员的水平。那么4.2是科大讯飞的,应该说我们在英文合成上面的核心技术已经是远远领先竞争对手,那么在未来几年我们还会陆续推出其他全球最主要的语种。 下面再给大家介绍一下在移动互联网时代非常有意义的应用,就是发音模拟技术,通过这个技术,就可以准确分析他的声带特征等等,可以把一个人的声音变成另外一个人说话,这个我们也做了一个案例,因为涉及到非商业的,我们这个不是一个商业的宣传,因此我们用了我们中央台著名播音员李瑞英的声音,请大家听听。我们来看看我们模拟的声音像不像,谢谢。 应该说这样一种发音模拟技术和我们语音合成技术相结合,未来在无线互联网时代的网络游戏、网络教学、乃至于虚拟主持人等等都有非常广阔的应用。 前面给大家介绍的是语音合成技术,下面再给大家介绍一个,我觉得对语音识别非常有意义和价值的口语评测技术。这个技术简单来讲,就是使得计算机能够对我们的普通话或者英语发音等等进行打分,评价和反馈指导。这项技术最早的需求来源是国家语委和教育部,所有的年轻人要想当老师,必须要考普通话等级证书,以前都是人工考,三个老师考一个学生,十分钟结果才能出来,效率很低,成本很高,让计算机代替人工来进行测试,这国家语委多年的目标。我今天告诉大家,科大讯飞是唯一的一个能做到的,我们的技术在2009年测试人数已经超过了100万人,那么今年国家语委正式下文,大家有兴趣可以登录到我们的网站自己去体验,不仅可以对你的发音进行打分,还可以告诉你错的地方在哪些地方。这些同样在我们的英语教学,在我们少数民族教育都有非常重要的应用。同时对我们将要发布的我们的语音听写和搜索起到了很重要的优势,应该是我们非常强的一个核心优势。 那么在相应的技术基础上,我们科大讯飞在2008年,又开始参加国际上最权威的说话识别和语种识别的大赛,是NIST主办的,那么这个组织从1996年开始,每两年一次举行说话人和语种的比赛,2000年以后是隔年进行,09年是语种识别,语种识别就是一说话我们知道你是哪个国家哪个地区的人。我们可以看到,我们的所有指标都在全球前三名。我们在通用语种上获得了全球的亚军,那么更难的,高混淆方言,我们是全球第一名。这些国际历史上大赛的频繁的获奖,充分的确立了科大讯飞在国际语音技术领域,从合成到识别的全面的领先技术。 那么围绕上述这些核心技术,我们讯飞面向产业推出来的命令式识别和语音搜索技术,正在日益广泛的进入我们日常生活中。比如说在通讯领域,讯飞以音乐搜索为代表,我们的语音搜索业务已经覆盖了46个升级运营点,用户数超过1亿人,拥有上千万的稳定活跃的用户。此外,电信,移动和联通推出了一些典型业务。另外我们这个技术还从电信延伸到了金融、教育等越来越多的行业,而且在世博会上也发挥了重要的作用,包括语音识别,大家还看到可爱的海宝,能听会说的海宝就是我们做的,你说白日依山尽,它就回到黄河入海流,非常聪明。那么在这个基础上,我们随着现代的实际应用的发展和应用中对核心技术提出了越来越高的要求,技术不断的发展和进步。 下面请大家看几个非常典型的演示,第一个演示是在移动的客服电话呼叫导航中的演示,这是一个实际上线的系统,请大家看一下。 好,那么大家看到,最早我们在查询各种各样呼叫中心的时候,必须要简单按键,那么我们这个语音云技术就非常方便了。相信随着这个技术从电信往社会生活各个领域的延伸,会对我们整个社会信息的服务起到一个极大的提升。刚才是我们呼叫导航,下面再给大家看两个非常有趣的演示:一个是在互联网电视领域,大家知道现在三网合一成为一个信息产业发展非常重要的战略,这就是我们三网合一的实际的电视机,这个电视机可以通过机顶盒,或者说现在互联网电视直接安装我们的软件,这是我们配套的一个摇控器,非常低成本的在摇控器上增加一个摁键,就可以用语音来控制了。 那么应该说,它对互联网电视,对三网合一最大的价值在什么?有了语音识别,我们可以随意说了,准确率都非常地高。刚才看到的是在电视用的应用,下面在具体的手机中的应用,这是一个智能手机,这个手机中间,我接了一个线,这个线主要的目的是为了投影到上面,唯一的作用就是传输我们的屏幕,所有的运算都在我的手机中进行。下面给大家看一个就是在手机中我们实现的搜索,只要在手机中,用户获得了我们讯飞语音云平台的注册通行证,他在手机中任何的浏览器,各种搜索都可以用语音来完成,下面来给大家安装这个语音浏览器,起动了一个,这个是屏幕,我们点击进入到搜索以后,这是我们讯飞的输入法,我们在网上已经发布了,点击输入法中的麦克风,我们就可以直接说话了,它的所有运算都是在后台。 应该说通过这种语音搜索,可以极大的提升我们用户的使用,刚才给大家看到的就是我们的语音所有刚才的计算全在后台的云计算平台来支撑的。我们看到的了我们的搜索的演示以后,有很多的合作伙伴,包括领导要问,如果我们要在移动互联网终端要使用语音技术听写,就有更大的难处,因为有很多局限,但是我们非常高兴。
腾讯科技
标签:石嘴山 佛山 双鸭山 南京 新余 承德 扬州 毕节
上一篇:呼叫控制简述
下一篇:浙江移动呼叫中心服务稳定性提升最佳实践