未来| 展望前沿新技术
5700 字 / 15 分钟
本文首发于航通社,原创文章未经授权请勿转载。航通社(ID:lifeissohappy)微博 @lishuhang
在第二届百度AI 开发者大会上,一切似乎都在传达这样电话手表小度机器人的印象:陆奇走后,百度在AI方面的进展一切如常。
外界对于“阿波龙”无人车量产,以及AI芯片的推出更感兴趣,这使得李彦宏讲话中提及的另一点——“Everyone can AI”(人人都能AI)似乎被忽略电话手表小度机器人了。
“Everyone can AI”既意味着让更多人用上AI相关的成果,也意味着让普通人都能学会一些开发技能,定制自己的AI产品。
AI向大众的普及,也是商汤、阿里、腾讯、微软、谷歌等几乎每个AI公司都想做的。是什么让百度觉得自己有信心做得最好呢?
李彦宏提到了一颗运算能力更强的芯片,一位援藏医生,和一位小学生开发者。但是,他讲得相对没那么多的DuerOS,其实才是实现“Everyone can AI”的“关键先生”。
1 | 人人用AI:“贴牌”加铺货
DuerOS经常被拿来和Siri、Cortana(小娜)、Alexa等语音助手并排比较,但百度官方坚持将其定义为一款“操作系统”。
百度智能生活事业群组(SLG)总经理景鲲说:“操作系统核心三要素是什么?第一是交互的变革;第二是全新的应用生态;第三率先打通商业模式的闭环。”
如果电话手表小度机器人你搜索“操作系统核心要素”,只会找到“内核、系统程序、编译环境、API”这样的词汇。但百度如上的定义,至少说明“应用生态”和“商业模式”成为对DuerOS的首要考量。
截至2018年6月的官方数据显示,DuerOS合作伙伴超过200家,硬件落地产品超过110款,智能设备激活数突破9000万台,月活跃设备数超过2500万台,在商业模式的探索方面可谓相当进取。
DuerOS 生态版图。图/百度
不仅是一些规模较小的智能硬件厂商,连曾经的“网红”Vinci头机和汪峰代言的FIIL耳机,也都投入了DuerOS的怀抱。
在这些设备制造商因为种种原因,要减缓甚至停止自己开发AI引擎和交互的脚步时,DuerOS充当了拯救者的角色。
然而,DuerOS的合作伙伴中,还有一些正在自己开发AI产品,或有自己的AI助手品牌。那么,他们与百度AI的合作,是否会跟他们的自研产品冲突呢?
小米生态链旗下的米兔插卡智能故事机就是一例。该机器跟孩子互动的时候,使用的技术就来自DuerOS。
小米也曾与微软签署协议,在销往海外市场的小米智能音响中,植入Cortana(小娜)而不是“小爱同学”。不过,在面向国内的产品中并没有这么做。
小米在招股书中说,他们用硬件销售来推动自己互联网服务的落地,那么理应在每一台设备上都启用他们的“小爱同学”才对。
但雷军早在2017年11月就和陆奇“同框”公布了小米物联网产品和百度AI的合作,主要内容是将来自DuerOS的一些先进的算法和能力应用到小米全线的AI产品中。
(http://tech.sina.com.cn/it/2017-11-28/doc-ifypceiq4500105.shtml)
根据36kr的报道,“DuerOS可让小米电视、小米手机甚至扫地机器人,更加智能,听得懂用户的发号施令”。
(https://36kr.com/p/5105367.html)
这并不意味着小米放弃对自家“小爱同学”的研发,而是将自身不一定擅长,或者自研性价比较低的部分开放出去,直接采用百度已经准备好的技术,并不妨碍小米向硬件用户销售增值服务。
同时,百度还找到OPPO、vivo和华为,在vivo X21、NEX、华为P20、P20 Pro、OPPO Find X等多款旗舰机型中植入DuerOS。
这些手机厂商其实有各自的语音助手服务品牌。vivo的语音助手叫Jovi,在央视的世界杯广告当中也没少抢镜。华为的助手叫Hi Assistant,OPPO就叫“小欧”。它们的界面和唤醒词也各不相同。
但是,这些助手的问答、对话技能,都少不了手机芯片提供商高通的帮助。据资料显示,高通为使用骁龙系列处理器的手机提供了人工智能引擎AI Engine,而高通和百度基于DuerOS共同发展了终端侧的关键词检测和自然语言处理技术,为云端服务提供补充。
(http://www.c114.com.cn/news/1761/a1045934.html)
这就使得DuerOS最擅长的自然语言处理技术,得以出现在小米、华为、OV这些手机品牌上。这样的合作,与Alexa、Cortana、Google Assistant和第三方厂家的合作是有区别的。
百度允许厂商使用除了自己“小度小度”之外的唤醒词和自有的品牌,DuerOS方面则是输出底层技术,为厂家“贴牌”做语音助手,这种相对灵活的合作方式更受到厂家的欢迎。
然而,归根结底,百度还是希望通过一些自家产品和非“贴牌”产品,直接打出DuerOS和“小度”的品牌,以对外界起到标杆和示范作用,正如Surface系列产品线给微软带来的巨大收益一样。
百度现在重点扶持“小度在家”音箱和“小度智能音箱”,坚定走低价普及的路线,与天猫精灵、小米小爱音箱等展开一场混战。
小度在家音箱。图/航通社
即使在混战中,百度的产品仍然在性价比上有着相当的优势,历次放货均秒速“售罄”。
航通社曾在《“小度在家”是“AI智能音箱”,但视频通话才是它的最大亮点》中提到,小度在家的前两代产品售价分别为2999元和1699元。在第二代音箱上市一年后,成本基本没降的小度在家音箱售价定为599元,百度从中提供了大量的补贴。
(https://mp.weixin.qq.com/s/Pnk7JzNV0AsnQ-P6SP8ExA)
有自媒体透露,百度这一轮智能音箱的补贴预算约为5000万元至1亿元,而小度在家单款产品就有希望冲击100万台销量。在百度、阿里、小米集体“甩货”的情况下,其余几十家销量少于10万台的智能音箱厂家“基本上要凉了”。
(https://www.huxiu.com/article/237772.html)
目前为止,低价策略是成功的:只要有越来越多的终端,都能采用“小度小度”作为唤醒词,这就越发有利于帮助用户形成一个稳定的品牌印象。
2 | 人人开发AI:“搭积木”型开发者
“95后的黎英明同学,他综合利用多种AI技术打造无人政务机,也完成了自己从实习生到产品总监的蜕变;中科院在读的研究生任家强同学,他利用百度的AI技术开发用于污染场地的风险管理模型;还有梁佳同学的盲人导航系统、王志勇和罗鹏同学的智能船舱温控系统、李连伟、赵岳、童谣同学的自动驾驶轮椅……”
李彦宏在讲话当中特意点出了一些非常年轻的AI开发者。不过,值得注意的是,他们使用的是包括语言识别能力、计算机视觉能力、自然语言理解能力、用户画像能力在内的整个“百度大脑”的能力,因此这些少年英豪们相对来说“段位”都已经比较高了。
实际上,关于图像识别、自动驾驶等高阶功能,相关的程序编写及算法训练过程,在看不懂的人看来是如同天书一般的。仅仅依靠这些较高阶的能力,是无法做到在开发方面“Everyone can AI”的目标的。
一个TensorFlow开发场景。图/Flickr
流行的Python、C等语言语法和自然语言相去甚远,基本告别了可视化界面,涉及机器学习的还必须掌握TensorFlow等框架。即使谷歌、商汤等公司都推出了所谓“零基础”甚至给中学生的编程课本,但前AI时代的大人们,完全掌握的是另一套思维模式,只能举白旗投降。
相比之下,去制作一个基于对话和语音识别的机器人交互场景,就不用管那么多了,能看懂、会动手做的人也一下子多了很多。
最简单的做法是,你把问题和答案编成一列一列的列表,以指定格式输入到相关源代码当中,这在上古时期的“小i机器人”时候就能做。
我想做一个自己的语音助手。图/航通社
至于DuerOS和微软的Bot Framework等新平台,之所以说加入了“智能”成分,就是说逐步消除了过往系统必须逐字定义和比对的弊端。
本次发布的DuerOS3.0在自然对话交互方面继续升级,将一次唤醒、多次交互的“极客模式”向全体用户推送,以免每次开口都要不自然的加上“小度小度”的前缀。
DuerOS3.0在多轮智能纠错,递进意图识别、有条件的意图识别,以及利用扩展特征理解用户行为等方面都有进展。在纠错方面,像“胡冰清是谁?国务卿的亲”这样的请求,都可以输出正确的结果,免去了编辑问答对时的后顾之忧。
合并同类问题可以给我省下很多时间和精力。图/航通社
语音助手的后台技术不断升级,但开发者们输入问答对、接入API和打包应用程序的过程,没有太大的改变,甚至越来越轻松,像搭积木一般。
这样的一问一答,能催生出多少想象力的火花?
在百度的一段演示视频中,有小孩对着没有屏幕的小度智能音箱在玩“我当宰相”——这是一款MUD文字游戏,大概20年前的网民想必会非常耳熟。
(https://dueros.baidu.com/dbp/botcup/index)
《我当宰相》游戏。图/百度
小度:“邻国首领送您珍贵礼物,您是否接受?”
孩子:“接受!”
小度:“您接受了该礼物,并上交了一部分给国库,民众觉得您很廉洁。”
这样的复杂对话应用程序,都是在不需要为用户的变种输入、口误、记忆错误等发愁的前提下,使用可视化界面协助编辑出来的。
航通社找到了一位开发者,在官方论坛中贴出了一个应用“钓鱼岛万事通”。据说它能“回答用户钓鱼岛归属问题,并以历史证明钓鱼岛从古至今都是中国领土”。
(https://developer.baidu.com/forum/topic/show/247307)
“意图”的编辑。图/百度开发者论坛
指向同一个目的的一系列查询词变种,被称为一个“意图”,如果一个“意图”包含了系统不太能理解的问法,可以通过补充自定义“词典”来完善。
通过百度云提供的存储空间,和系统提供的默认函数模板稍微修改,“照葫芦画瓢”地就可以实现基本的问答逻辑功能了。该“钓鱼岛万事通”的调试结果如下:
调试窗口。图/百度开发者论坛
正是依靠如此简单易懂的开发流程,百度允许任何人向自己的DuerOS开发板输入任何类型的新知识来训练它,然后再将这些开发好的程序提交上来,择优录取到“小度在家”等产品当中,推送给所有用户。
2017年11月至今,DuerOS技能开发平台上线技能500多个,控制的物联网设备数量达6000万台,汇集了超过16000名开发者。截止目前,累计有 24935 人次参加了百度开发者中心组织的线下沙龙、交流会、工作坊等活动。
(https://developer.baidu.com/activity/index)
这就是DuerOS最为倚重的草根开发者群体。
在百度开发者社区当中,可以看到很多人网购一块树莓派板子和一块DuerOS开发板,加上一个充电宝,几根数据线连在一起,开始了他们的开发者生涯。
“开发日志”。图/百度开发者论坛
这让航通社想起2014年前后,在深圳的众多“创客空间”内,火花的闪耀和3D打印机的嗡鸣。尽管智能硬件的热潮已经远去,同样的场景却在全国各地重获新生。
在论坛里一些资深开发者晒出自己的“开发日志”,手把手的教人们去怎样做,等于建立了关于DuerOS的“百度知道”。
百度在北京、深圳等地举办普通人也能听懂的开发者沙龙和工作坊,并举办“2018对话式AI技能大赛”,提供总值100万元的奖励。
对话式应用程序被DuerOS和亚马逊的Alexa音箱同样称为“技能”(Skills)。通过“技能商店”累积开发者生态,从而扩展可用性,赢得市场的手段,也是从Alexa真正开始的。
2018年3月,Alexa技能数量超过30000个,已经初步具备了成为语音界App Store的潜能。而在没有Alexa的中国,主流的语音交互平台都尚未完成对技能商店的搭建工作。
(https://voicebot.ai/2018/03/22/amazon-alexa-skill-count-surpasses-30000-u-s/)
面对这样的局面,百度加紧笼络“草根开发者”们,争取成为国内开发者生态做得最好的厂商。
3 | 夺回失去的入口
DuerOS为手机、家电等硬件厂商提供了“交钥匙”式的解决方案。与初期众多厂商采用的讯飞方案相比,DuerOS主攻交互体验的提升,让对话更像是发生在真人之间。
在招募开发者方面,DuerOS尽力降低门槛,用可视化编辑器简化开发过程。百度还宣布半年内不抽成,开发者可全额获得“技能”收入。
至于这些“技能”的应用范围也更广,除了推送给直接使用DuerOS的音箱、汽车和智能硬件,也可以应用于后端使用DuerOS技术的小米、OV、华为等语音助手,以增强它们的自然语言交互能力。
DuerOS并非只适用于百度自家产品,而且在与第三方合作过程中,不必在意对方是否属于“阿里系”、“腾讯系”或“雷军系”等。
在交互能力的改进、开发者的招募、平台商业化的推进三方面,DuerOS多管齐下。
无人汽车、机器学习等高端AI应用,撑起了百度AI研发的高度和门面;同时,DuerOS为代表的自然语言交互,也在积极寻找AI最贴近实际,最容易商业化的用途。
李彦宏的讲话带动百度和金龙汽车的股价直冲涨停。但长远来看,DuerOS如果能成功推开,它对百度股价的贡献可能会更大。
Alexa给亚马逊股价带来的提升,正是在于人们认为语音会是下一代人机交互的入口,取代PC搜索引擎和手机应用商店的地位。
(http://36kr.com/p/5062132.html)
如果资本市场对百度的未来想象,只是希望它作为自动驾驶领域的“扛把子”,那也无可厚非;但是,如果百度可以把握住信息流之后的下一个互联网入口,这显然就要好太多了。
作为第一代入口——PC搜索引擎的代表,又错过了第二代入口——移动互联网的时代,这样的百度最需要的,就是再一次抓住互联网入口,把握下一个时代的主动权。
关于智能音箱们,你需要了解……
欢迎转发到朋友圈。受权转载航通社稿件时,请保留版权信息。寻求授权,请关注微信公众号航通社 (ID:lifeissohappy) ,并在后台留言输入关键字“转载”