范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文

亮剑INTERSPEECH2020,思必驰10篇论文被收录

  ​国际顶级的语音技术圈会议INTERSPEECH 2020于10月25-30日在中国上海举办,本次会议主题为"Cognitive Intelligence for Speech Processing"。思必驰作为国内领先的对话式人工智能平台公司参加该国际顶会,支持大会在这不平凡的2020年顺利举行,致力推进产学研用的一体化进程。
  思必驰-上海交通大学智能人机交互联合实验室
  10篇论文被INTERSPEECH 2020收录
  INTERSPEECH 2020共接收有效论文总数2100余篇,实际收录数量为1022篇。其中,思必驰-上海交通大学智能人机交互联合实验室10篇论文被正式收录,涉及说话人识别、语音识别及合成、多模态语音分离、口语语义理解等多方面的技术创新研究。
  10篇论文简要介绍如下:
  《用于单通道多说话人语音识别的上下文嵌入表示学习方法》
  Learning Contextual Language Embeddings for Monaural Multi-talker Speech Recognition
  端到端多说话人语音识别是近年来的热门话题。本文探讨了利用上下文信息来提升多说话人语音识别的性能。我们设计了嵌入表示学习模型来直接从多说话人混合语音中准确地提取上下文嵌入表示,同时进一步提出了两种高级的训练策略来改进该新模型,即嵌入表示采样和两阶段训练。实验结果表明,我们的方法在多说话人语音识别上取得了显著改进,与端到端多说话人语音识别的基线模型相比,本文提出的方法减少了相对25%的词错误率。
  图:基于上下文嵌入表示的多说话人语音识别模型结构
  《在鸡尾酒会中聆听、观察、理解:音频-视频-上下文的多模态语音分离》
  Listen, Watch and Understand at the Cocktail Party: Audio-Visual-Contextual Speech Separation
  多个说话人同时说话时,人类可以通过听混合语音,观看说话者并理解上下文信息,将注意力集中在感兴趣的语音上。我们尝试使用三种模态(视觉模态、语音模态以及上下文信息模态)来解决与说话者无关的语音分离问题。与以前的应用纯音频/音视频模态的方法相比,我们设计了特定模型来直接从语音混合中提取所有目标说话人的上下文语言信息,然后将这些提取的上下文知识通过适当的注意力机制进一步合并到基于多模态信息的语音分离体系结构中。实验表明,在新提出的基于上下文信息的语音分离模型上可以观察到性能显著改善。
  图:基于音频-视频-上下文的多模态语音分离示意图
  《多模态作用很大: Voxceleb数据集上的性能飞跃》
  Multi-modality Matters: A Performance Leap on VoxCeleb
  来自不同模态的信息通常相互补偿。我们在说话人嵌入特征级别探索了视听人员验证系统的不同信息融合策略和损失函数。我们在说话人嵌入特征级别上使用视听知识的最佳系统在VoxCeleb1的三个公开测试列表上达到了0.585%,0.427%和0.735%的EER,这是该数据集上报告的最好的结果。此外,我们基于VoxCeleb1数据集构建了一个嘈杂的测试集。我们在说话人嵌入特征级别使用数据增广策略来帮助视听系统区分噪声和干净的嵌入。通过这种数据增广策略,所提出的视听人员验证系统在嘈杂的测试集上取得了更好的效果。
  图:在带噪测试集上的性能比较
  《BERT联合编码词混淆网络和对话上下文的口语语义理解方法》
  Jointly Encoding Word Confusion Network and Dialogue Context with BERT for Spoken Language Understanding
  口语理解可以将自动语音识别得到的假设转换为结构化的语义表示,语音识别错误会使后续口语理解模块的性能严重下降。为了缓解口语理解不确定性的问题,本文提出一种新颖的基于词混淆网络(WCN)和BERT预训练模型的口语语义理解模型(WCN-BERT SLU),对话上下文中的上一轮系统行为也被用作附加输入。该模型对WCN和对话上下文进行联合编码,在BERT架构中集成了词混淆网络的结构信息和语音识别的后验概率。在口语理解的基准数据集DSTC2上进行的实验表明,该方法大大优于以前的最佳模型。
  图:与已发表结果在 DSTC2 数据集上的比较
  《将部分共享神经网络应用于基于对抗训练的说话人验证领域自适应》
  Adversarial Domain Adaptation for Speaker Verification using PartiallyShared Network
  我们使用领域对抗训练来研究具有不同语言的数据集之间的领域自适应策略。这种架构可以帮助嵌入特征提取器学习域不变特征,同时不会牺牲说话者辨别能力。在SRE16粤语和菲律宾语评估测试集上实现了约25.0%的相对平均等错误率(EER)的改进。
  《基于双重对抗领域自适应的泛化重放攻击检测》
  Dual-Adversarial Domain Adaptation for Generalized Replay Attack Detection
  我们提出了对偶对抗领域自适应的框架,通过使用两个领域鉴别器分别对欺骗数据和真实数据进行细粒度的对齐,从而提高欺骗检测的性能。实验表明:该框架对于通用的重放攻击检测更加地鲁棒和有效。
  《噪声环境下通过半监督音频事件检测模型训练的语音端点检测器》
  Voice activity detection in the wild via weakly supervised sound event detection
  我们提出了两种弱监督训练的通用VAD模型,GPV-F和GPV-B。在真实场景的测试中,GPV-F模型比标准VAD模型提升很多,GPV-B模型也获得和标准VAD模型可比的性能。
  《神经同态声码器》
  Neural Homomorphic Vocoder
  本文提出了神经同态声码器(NHV),一种基于源-滤波器模型的神经网络声码器框架,能够通过多分辨率 STFT 损失和对抗损失函数联合进行优化,计算效率高,可控性和可解释性好。
  《基于双编码器多专家模型结构的中英文语种混杂语音识别》
  Bi-encoder Transformer Network for Mandarin-English Code-switching Speech Recognition using Mixture of Experts
  我们研究使用一种崭新的端到端模型来进行中英文语种混杂语音识别。实验结果表明,相比于基线的Transformer模型,我们的结构可以取得大幅度的性能提升。
  思必驰拥有全链路的软硬一体化端到端语音交互系统能力,近年来不断加码源头技术的持续创新,通过思必驰-上海交通大学智能人机交互联合实验室、上交大苏州智研院合作的共同努力,在模型泛化及快速定制能力、变帧率语音识别解码技术、说话人识别技术、超高压缩比神经网络模型压缩技术、多模态感知及理解和表达技术等方面,均有显著突破。围绕对话式AI能力,思必驰会不断夯实"全链路智能对话"技术以及"高自由度定制"方案能力。未来也会持续加大对基础源头技术创新与核心产品能力升级的核心投入,持续提升AI+智能终端、AI+智慧服务的快速规模化能力,加速向更多行业场景纵深赋能。
  思必驰xiaochi获2020 AESR
  "口音种类识别"冠军和"口音英语语音识别"亚军
  2020 AESR,即"INTERSPEECH 2020口音英语语音识别挑战赛(Interspeech2020 Accented English Speech Recognition)",向参赛者开放八种口音英文数据,设置了"Track1-口音种类识别"和"Track2-口音英语语音识别"两个赛道。由思必驰组建的"xiaochi"队伍表现优异,分别获得"口音种类识别"第一名(全球共30个队伍参赛),和"口音英语语音识别"第二名(全球42个队伍参赛)。
  在"Track1-口音种类识别"技术挑战赛中,参赛队伍需要使用官方提供的各种口音英文的训练数据,训练语种分类模型。xiaochi队伍的准确率高出第二名11个百分点,最终摘得冠军。
  数据策略上,xiaochi对8种口音训练音频进行变语速数据增强,利用kaldi工具模拟噪声和远场,使用8种口音训练数据+librispeech数据训练TTS合成器,并生成8种口音训练音频,最后对测试音频采用sox变语速后与原始音频拼接。模型训练时,采用了多机多卡的并行训练策略,有效降低了模型迭代和实验速度。最终我们采用深层的TDNN模型,结合AAM loss等进行优化,来训练8种口音的8分类模型。
  经过多个不同策略组合的实验测试,最终发现,"利用PPG等特征,结合基于tts的数据生成,多嵌入多层联合优化"等方法,能够最高效快速识别不同口音种类。这也为未来业界进行多语种混合识别提供了很好的参考策略。
  思必驰语音应用负责人薛少飞
  参与INTERSPEECH工业论坛并在线分享
  今年INTERSPEECH 2020首次推出虚拟展会,以直播的方式举办在线论坛。思必驰高级技术总监、语音应用技术负责人薛少飞,10月29日(今晚)将在线分享思必驰在语音识别、语音唤醒、音频检测等语音交互关键技术方面的新进展。

如果5G信号覆盖以后,4G手机的网络还能正常使用吗?其实对于5G覆盖以后,4G手机能不能使用,答案是肯定的。能够用,不可能一下子就完全地封闭了无法用了,肯定是有一个时间段来缓冲的!而未来会不会被淘汰,那是有可能的,至少在5G完全覆盖iOS15界面曝光,安卓12发布,手机系统高效功能体验才是关键近日,iOS15的锁屏界面和桌面小组件设计被曝光。根据网友的曝光图来看,iOS15和iPhone一样,开始了返璞归真的设计,重新采用了拟物化的图标,看起来舒适感极强。另外,iOS1可以放心买的三款中端机,高刷屏大快充,内行人用过都说好我们都知道买手机最重要的是性价比,旗舰机虽然很好但价格太高,千元机很便宜但配置有短板,所以中端机才是实用党的最爱,今天笔者就给大家推荐一下,可以放心买的三款中端机,它们高刷屏和大快用户明明没有偿还能力,为何网贷平台还不断推销,甚至大量借钱?我和网贷打交道已经有很长的时间了,也看到过各种各样关于网贷的情况,网贷骗局套路贷暴力催收反催收等等,这些我都遇到过。然而我却忽略了一个最为本质的问题,在诸多用户之中,其实有很大一部乐视高调宣布回归,贾跃亭准备东山再起!网友还想割韭菜?乐视这个名字对于国内消费者可以说是既熟悉又陌生,早年凭借着生态补贴硬件的方式抢占市场份额。布局产业过多和公司管理能力不足导致集团中非上市公司猝死,最终乐视面临着26万人被割韭菜的惨全球首批!升级使用鸿蒙OS真实反馈评价出炉ampampquot差评好评ampampquot都很真实5月22日讯在最近一段时间,华为鸿蒙OS系统Bate公测版本也是开启了大规模推送升级,虽然距离正式版鸿蒙手机系统推出还需要等待一段时间,但目前也已经有超过30万用户用上了鸿蒙OS系袁隆平的水稻,举世皆知,杨振宁的成就是什么?袁隆平是我们乃至全球都认知的杂交水稻之父,可以说是居功至伟,解决了全世界人民吃饱饭的问题!至今已经90多岁高龄依然为解决全球粮食问题努力奋斗,可以说是中国的骄傲!我们应该觉得中国因人类如何遥控操作远离地球的太空探测器?太空探测器远离地球几亿公里,人类还能操控,距离如此之远如何能遥控?这个很简单,就像遥控无人机一样,这边一按,那边就有响应了。不过,飞得太远,就有延时而已。不但会有延时,还有发送接收如果你是一位摄影老手,你还没有升级你的全幅相机,尼康D850和Z7,你会选择哪款?视老手手里面有多少F卡口镜头?三十多年前从尼康FM2玩儿起。后来由机械相机转电子相机分水岭的尼康F801。数码后的尼康D700,D7100。F卡口镜头11只。再加上我属老派传统人物最好用PDF编辑器有哪些?主流的PDF编辑器也就只有三款,AdobeAcrobat福昕PDFPDFExpert,而能够作出解决方案的也就只有Adobe和福昕软件,基本上目前行业内也都是用的这两家企业的解决方有没有风景壁纸?当然有,但愿大家喜欢!这张海的收藏了很久青岛景色也美丽,谢网图。我发一组风景壁纸,请大家欣赏。(风景图片不少,只能发这么多)不请自来有没有好看的风景壁纸?肯定有哇,只不过你喜欢的是
全新配色亮相IFA,TheNewP30Pro新色再度开拓设计新风尚早在发布之时,华为P30系列手机带来了天空之境赤茶橘等时尚配色,赢得了广大消费者青睐。在IFA2019展会上,华为P30系列再次推出全新配色墨玉蓝和嫣紫色,再度诠释科技时尚主义。众华为Mate30RS保时捷设计高调发布,顶级旗舰,实至名归9月26日,华为新品发布会在上海举行,国行版华为Mate30系列终于与国内消费者见面了。华为每年的秋季发布会都会为我们带来很多重量级产品的更新,比如这次的Mate30系列手机华为W65W超级闪充90Hz电竞屏,OPPORenoAce真机图赏OPPO正式发布RenoAce,3199元起。RenoAce正面采用了一块6。55英寸水滴屏,90Hz的屏幕刷新率也使得屏幕在滑动的时候更跟手,每次的操作都无比的顺滑SuperVO杜比全景声智慧体验!华为平板M6高能版带你优享生活转眼间就到了10月底,距离年度购物盛典双11越来越近,趁优惠置办一台新设备,犒劳自己的闲暇生活正合适。现在,电子设备的使用场景高度细分,比如手机外出通讯电脑专注办公,平板则成为大家有关灵活用工的魔鬼细节就藏在这本书里文新经济沸点小新近几年,互联网平台经济的出现,衍生出许多新兴职业,例如外卖小哥网约车司机在线授课教师快递员等等,他们看起来工作比较灵活,却是在平台算法的控制下工作。另一方面,企业的官方通报五家社区团购被顶格处罚文国家市场监督管理总局2020年下半年,部分社区团购企业利用资金优势,大量开展价格补贴,扰乱市场价格秩序,引发社会各界广泛关注。市场监管总局根据价格监测线索,先后对橙心优选(北京)当黑胶唱片成为硬通货撰文新经济沸点小新春节期间我有个朋友无心沾了把茅台的光,ta在电商平台上幸运地抢到一瓶53度飞天茅台,转手以2300元转卖给另一朋友,净赚800元。茅台的出厂价在969元,14992021美股展望FANNG稳健,消费反弹文新经济沸点2020年的美股市场经历了史诗级的跌宕起伏,3月连续熔断还历历在目,9个月过去后,标普500已经触及3700点的历史高点。进一步展望2021年美股市场,走势将会如何?应跟谁学先定增,而后升级高途文新经济沸点小新12月28日,聚光灯下的跟谁学创始人陈向东爆料之前公布的8。7亿美金的定增不到一个礼拜就完成了交易。定增,为上市公司的融资手段之一,它通过发行折价获得收益,折价空间低代码开发,染发界的白转黑低代码开发效果远远没有达到人们的心理预期,就像白发转黑发的效果一样。文邢波涛低代码开发(LowCodeDevelopmentPlatform)和机器人流程自动化RPA(Roboti跳槽季,向钱看还是向前看?春季是就业市场的传统旺季,在疫情平稳可控新经济领域机遇涌现等多重因素的影响下,2021年春招人才活跃度再次猛增。来自职场社交平台脉脉的数据显示,今年2月在脉脉平台上的人才活跃度整体