9月24日,第25届美的科技月系列活动在美的创新中心展开。思必驰作为美的技术合作伙伴应邀参加,并协同举办了声动无限·共话未来的主题论坛。本次科技月活动,思必驰分别带来产品方向、技术路线方面的分享,进一步加深与合作伙伴的了解及增强双方互动。
以下内容由思必驰转写一体机记录并转写。思必驰智能会议转写系统,自从开会用上它,职场社畜早回家!
1、思必驰人工智能语音技术简介
分享环节中,思必驰商务总监申晓宇率先为参会人员介绍思必驰公司概况及主要产品技术、解决方案。思必驰一直以来专注于语音交互核心技术不断升级以及AI+行业的商业落地,同时也拥有产业基金来孵化不同行业场景下的商业化应用,以扩大思必驰在整个行业里的布局。
思必驰目前为合作伙伴提供全渠道的智能服务,主要集中在IoT、智能家居、智能车载、智能电子、机器人等领域。同时,思必驰业务范围也逐渐覆盖智慧金融、智慧医疗、智慧物流、智慧酒店等场景。
目前,在整个IoT场景及车载场景市场占有率里,思必驰以亮眼数据占据了行业领先地位;同时,智慧城市、智慧政务、智能客服等也是思必驰所尝试的战略发展新方向。细化AI+行业,以AI赋能全行业,是思必驰一直以来的用心所在。
2、端侧专用芯片——AI算法的理想载体
思必驰全资子公司——深聪智能芯片总监查亮则对思必驰端侧专用AI芯片做出了更详细的阐述。
根据IDC预测,2021年全球AI生态市场规模将超过520亿美金。基于2021年全球AI生态系统的发展态势,AI芯片迎来了新的发展机遇及挑战,软件定义芯片的时代已经来临。在传统通用芯片市场上,芯片可匹配的应用场景很多,对算力要求不高,可以适配多种产品,但是通用性强可能导致芯片的专业性较弱。此外在市场层面,从最初的产品定义到软件功能、硬件设计,及最后的用户体验,能够给用户带来一套完整芯片方案是当前比较刚性的需求。所以软硬件的结合,是更符合市场趋势的一个产品方向。
深聪智能自研发的TH系列芯片作为思必驰语音算法与芯片的完美结合,令客户在选择对传统产品进行智能化改造时拥有了更多样化、更灵活的软硬一体解决方案。深聪智能第一代芯片TH1520已量产上市并落地诸多案例,下一代芯片在开发中针对算法、架构、物理实现了IP优化,多模态视觉识别也在规划中。
3、语音前端信号处理技术
在全链路语音技术分享环节中,思必驰前端信号处理负责人周强认为,语音交互仍面临着远场拾音、多声道同步采集、回声消除、去混响、平稳噪声降噪、自动目标侦听和唤醒、目标声源波达方向估计、目标声源波束形成和干扰抑制等诸多声学场景挑战。信号处理可以提升语音的可懂度和信噪比,用来提升人人交互和人机交互的性能。
思必驰在远场语音通话、远场语音唤醒识别等方面都有自己的一套处理算法,在不同的系统中做好降噪量和失真的权衡问题也有着比较充足的实战经验。在谈到思必驰所掌握的核心基础技术时,周强着重介绍了波束成形技术及盲源分离技术的技术原理及关键指标。
技术终将凝练成产品再系统形成成熟方案,基于过硬的全链路语音技术,周强也简要介绍了思必驰的远/近场交互方案。近场交互方案多应用于智能客服终端、机器人、自动售卖机等案例中,它采用大阵列近场模型,对角度和距离进行建模,能有效去除范围外的噪声干扰。远场交互方案则广泛用于家居场景中,目前思必驰远场交互方案配合麦阵方案,可实现远场3~5米识别率在94%以上。
4、思必驰ASR(++)技术与平台化应用
思必驰语音识别技术总监薛少飞则从语音识别技术(ASR)、语音富信息技术(ASR++)以及语音技术平台化几个方向分享了思必驰的技术和产品思路。
卷积神经网络(CNN)应用到语音识别中由来已久,最早应用在图像识别领域,大约在2014年引入到语音识别领域。利用CNN将整个语音信号分析得到的时频谱当作一张图像一样来处理,采用图像中广泛应用的深层卷积网络对其进行建模;从实用性上考虑,CNN也比较容易实现大规模并行化计算。在深度学习领域,思必驰联合实验室推出极深卷积神经网络(VDCNN)在识别鲁棒性上展现出巨大的优势。产学研一体化之下,思必驰语音识别准确率高达98%,并具有反馈速度快、快速定制、强鲁棒性等优势,这得益于思必驰语音算法的行业前瞻性及先进性。
语音识别支持通用以及包括金融、教育、音视频等在内的领域场景,同时也提供语音识别自定制能力,赋能客户自主优化应用场景中的识别体验;即使在本地也可以支持普通话、方言以及外语小语种的识别。而语音副信息技术则在语音识别基础上加上了富信息识别,例如说话人、情绪、年龄、性别等。
目前思必驰语音富信息技术已落地至IoT、智能客服、金融安全、会议转写、国防安全等场景。作为对话式AI平台型公司,思必驰在语音技术平台化方面也做了很多工作,推出的DUI平台可面向物联网场景进行智能对话交互的定制化输出,会话精灵则作为企业虚拟机器人定制平台,帮助企业快速定制专属服务和解决方案。
5、全双工及多模态交互技术
思必驰全链路语音技术为各行各业智能交互添砖加瓦的同时,全双工交互贯穿始终。思必驰对话组负责人樊帅指出,在过去半双工状态下,用户的跨领域交互每次交互都需要重新唤醒,而现在,思必驰全双工技术方案可实现一次唤醒,在多个领域持续交互,跨领域指代消解。不仅如此,全双工语音交互可以结合专业领域知识库实现智能语义纠正、支持多领域的模糊信息确认、打破沉默主动交互、根据用户说话节奏和内容动态断句等。
全双工交互技术的提升涉及到对话系统的各个模块,不仅各个模块的功能性、稳定性需要提升,对各模块间的配合也提出了更高要求。思必驰专注人性化的智能语音技术,依托DUI平台,思必驰全双工与当前全链路语音技术全面兼容,客户可以选用思必驰全链路技术或采用云对云的方式接入全双工。
此外,樊帅提到多模态交互将极大提升人机交互体验,他现场演示了一段视频,展示多模态交互中的人脸拒识可以将非唤醒人的指令过滤,指令执行有条不紊。多模态交互可让全双工交互技术发挥更大的能量,配合声纹识别、图像处理等技术,过滤无用信息,人机交互会变得更加贴合人性,这也是未来思必驰发力的方向。
6、语音技术在IoT场景的应用
成立至今,思必驰以AI赋能多种IoT产品,覆盖了包括音箱、电视、穿戴、白电、故事机、厨电在内的多种IoT设备,为实现物联网的智慧互联而不懈努力。
思必驰IoT产品负责人于鹏伟从语音交互流程出发,简单系统解释全链路的概念。说话人说话通过阵列采集形成原始音频,进入到信号处理模块,包括回声消除、降噪等流程,然后获得一段相对纯净的音频。这时通过本地语音识别进入到本地语音播报并传达给说话人;或者通过云端语音识别进入到自然语言理解模块、对话管理、自然语言生成,最后再文字转语音传达给说话人。
基于关键全链路语音技术,思必驰的近/远场方案可以满足智能客服、家居等多样化场景需求。思必驰算法技术中的就近唤醒、声纹识别、方言识别、通话降噪、图像与多模态皆达到行业领先水平;此外,思必驰算法模型也已通过亚马逊验证标准测试,成为亚马逊前端软件推荐供应商,可协助合作客户通过AmazonAlexa实验室声学认证测试,将来可为本土厂商发展海外市场、优化多语言模型提供强大技术支持。
7、声动无限共话未来
美的科技月活动始于1996年,在美的集团内部素有科研奥斯卡之称,一直被美的视为科技创新实力和科技人员风采的内部展示与交流平台。
思必驰与美的集团的合作由来已久,近日更是与美的集团共同创立AI联合研究实验室,旨在携手打造全链路智能家居生态平台。未来,双方也将在创新研发、产品更新、市场拓展等方面不断深化合作,共建双赢格局,推进未来设备数字化与智能化升级。