贾磊智慧出行的自由语音交互,手机全双工语音交互
近日,百度举办 Create AI 开发者大会(下称"Create 大会")。作为首个"人机共创大会",AIGC(利用AI技术自动生成内容的生产方式)技术被深度应用,创造、搭建、连接了多个科技感爆棚的数字化演讲场景。Create 大会每年都会吸引全球开发者关注,不仅仅是中国的 AI 技术高地,也是全球新兴技术产业发展的"风向标"。
大会中,百度创始人、董事长兼 CEO 李彦宏、百度 CTO 王海峰先后发表主题演讲。李彦宏率先解密"增长从何而来",王海峰提出人工智能发展进入"深度学习+"阶段。
此外,百度最强科技天团携十大"黑科技" 重磅亮相。九位科技大咖分享了百度在人工智能、自动驾驶、智能交通、智能搜索、量子计算、人工智能科学计算等领域的最新进展与思考。
会上,百度语音首席架构师贾磊以《智慧出行的自由语音交互:手机全双工语音交互》为主题进行了分享。
▎分享实录
全文1689字
预计阅读5分钟
我是"百度技术"讲解人贾磊,我将为大家讲解如何打造智能出行的自由语音交互。
随着技术的发展和行业的进步,智能手机已经在我们的生活中扮演越来越重要的角色,人们使用手机的场景和频率都在不断提升。但在语音交互领域,传统的方案只能支持我们在与手机语音交互时,只能做到:它说你听,然后你说它听,这样的一个单次交互,而不能够你俩同时说同时听。因为手机 APP 在说话的时候又在听的话,它可能会把它自己说的话识别回去,这就乱了。
比如日常驾驶中,我们往往会用到手机导航 APP。我们都希望在驾驶汽车时,能够和手机实现实时顺畅的语音交互,比如在手机播放导航提示的同时,也能够听清我们的指令,甚至像真人对话一样可以被我们随时打断,并对新的语音指令给予反馈。这项技术,叫做 手机全双工语音交互 。而目前在世界范围内,还没有一个方案能普适的支持在手机上实现全双工的语音交互。
手机全双工:支持更自然的语音交互用户体验
因为它的实现存在很大的困难:首先,要实现全双工语音交互,必须先做回声消除,避免手机终端识别自己播放的声音。这在音箱、车载系统上比较容易实现,因为这些设备都是前装方案,可以通过硬件适配算法提前保证了回声消除的效果。但是手机 APP 属于纯软件后装方案,需要让算法适配不同型号的终端硬件。但手机终端款式多,硬件参差不齐,使得声音信号的处理普遍面临严重的非线性畸变以及参考时延抖动,导致手机回声消除效果难以保证。而且,手机硬件的迭代更新是非常快速的,这就使得这个风险被放大。
手机全双工语音交互方案
这是我们基于百度全新自主研发的端到端语音交互方案,结合引导澄清、拒识、置信度、纠错等技术综合决策来实现最佳的用户体验,并且可以支持快速适配新增机型。目前已经可以做到在手机端实现自然流畅的全双工语音交互,可以看这样一个实际在驾车过程中的效果的展示。
视频加载中...
驾车过程效果展示视频
针对这个问题,我们研发了两级 AEC 技术。这是 在世界范围内、在全行业,第一个能在手机上实现纯软件方案回声消除的技术。 我们融合传统信号处理和深度学习模型各自的优点,基于语音识别目标,端到端地进行回声消除和信号增强,解决了手机场景下的回声消除问题,即使手机音量开到最大,回声消除量也能达到40db,使得手机 APP 的语音识别功能能够正常工作。
手机的便携性也导致了另一个问题,那就是手机上语音交互的使用场景非常复杂,在交互中常常面临音乐、闲聊、环境噪声、内噪残余等与交互内容无关的其他信息干扰,语音识别难度增大。为了解决上述问题,我们也研发出了基于 SMLTA2 的多场景统一预训练模型。
基于SMLTA2的多场景统一的在线语音识别大模型
一个模型解决噪声、用户口音和回声消除残余吸收等难题,在各场景下识别率相对提升超过20%, 这在业界同类技术中,准确率是最高的,可以说实力遥遥领先 。同时配合语音语义一体化的置信技术,降低错误响应,并且支持交互过程中的引导和澄清,让人机交互更智能顺畅,更逼近人与人直接交互的体验。
想象一下,当我们在驾驶汽车的过程中,听着音乐、车内有同伴在聊天,还会从车外传来一些交通噪音,而我们仍旧可以在手机实时播放导航语音提示的同时,与手机导航实现高效精准的沟通交互。这无疑将对出行体验带来极大的提升。
遇到或听说过哪些搞笑的小故事?一年一度的寒衣节又到了,它是我国传统的鬼节之一。在我河南老家每逢每年农历十月初一,家家户户都要油炸一些油条(我老家叫油馍),然后带上火纸(给去世的人烧的专用黄色的纸),带上鞭炮,带
新款哈弗h6和现代ix35,哪个好?一款新车上市,好与坏只有生产他的企业知道,作为消费者几乎都是人云亦云,究竟如何分析一辆车的好坏,小编认为应该从以下几点第一点车企车企的实力,直接关系到他的核心技术,外表是很难甄别一
为什么大家不看好技术人员?这是怎么了?以前有人说搞导弹的科学家不如卖茶叶蛋的老太婆,现在又说做技术没前途?很简单,关键看你做的是什么技术,有怎样的技术水平,能为公司创造多少价值,有人只拿到34K月薪,也有拿
如何才能做好新媒体运营?个人认为,做好新媒体运营至少有如下几个方面一你很喜欢,你很热爱,因为如果你不喜欢,不热爱,仅仅把新媒体运营当作一份工作,那肯定是运营不好的二善于学习,新媒体运营包括方方面面,知识点
重装系统不装到硬盘装到优盘里,能正常开机吗使用吗?弄个读写速度快的U盘,用wintogo可以把win10装进u盘,行走的win10系统。把系统装进U盘,以后就可以用U盘来为电脑装系统了,或者你甚至可以有另一种想法,即把操作系统装进
考研被调剂到非全日制,还要去上吗?感谢悟空小秘书头条教育的邀请。近期,不少高校的老师应该都会收到考生的邮件,询问是否有调剂名额和招生名额。在一些朋友给小西分享的邮件中,就有看到调剂名额紧张,你愿意调剂到非全日制吗?
Oli6颖睿羊奶粉性价比高吗?我家小虎是喝的Oli6颖睿羊奶粉,从2段喝到了3段,奶源地是纯净的澳洲,天然牧场,原罐原装进口的,这点我很安心。羊奶粉中含有6大益生元维生素A钙镁维生素D天然珍稀磷脂Omega6果
拔罐真的有用吗?几年前偶尔腰疼,几天后把自己喝的酒倒一点到卫生纸上面点着放酒杯里扣在腰上,每次第二天腰不疼了。上次休假在家特意去医疗器械店里买了副扒罐器,更巧的是才两天,那天太热开着空调和爱人做完
如何看懂分时图?如何看懂分时图?20余年的炒股经历,看了太多的分时图,现教你三招看懂分时图引子先唠叨一下分时图。所谓分时图,望文生义,就是以时间分时为横轴,以股价波动为纵轴的二维平面图。分时图对超
如果农民领退休金最低该有多少才能顾上温饱?农民最低每月一仟五百块钱。农民退休金最低为每个月900元才能温饱度日。2000左右和城里退休人员一样,才能保障一般生活的温饱问题,农民领的退休金太少了不解决实际问题,太高了也攀不上
你觉得王者荣耀中哪个英雄的大招最没用?露娜的大招最废!没有之一!进团就死!说好的月下无限连呢?骗小学生的吧!大招根本连不起来!最废大招!没有之一!我觉得有三个英雄的大招都可以不要了,特别没用。第一是大小姐的大招,要伤害