范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文

未来十年,AI语音识别将朝着这五个方向发展

  作者 | Migüel Jetté
  编译 | bluemin
  编辑 | 陈彩娴
  在过去的两年中,自动语音识别(Automatic Speech Recognition, ASR)在商用上取得了重要的发展,其中一个衡量指标就是:
  多个完全基于神经网络的企业级 ASR 模型成功上市,如 Alexa、Rev、AssemblyAI、ASAPP等。
  2016年,微软研究院发表了一篇文章,宣布他们的模型在已有25年历史的"Switchboard"数据集上,达到了人类水平(通过单词错误率来衡量)。
  ASR 的准确性仍在不断提高,在更多的数据集和用例中逐渐达到人类水平。
  图源:Awni Hannun 的博文 "Speech Recognition is not Solved"
  随着 ASR 技术的识别准确度大幅提升,同时应用场景越来越丰富,我们相信:现在还不是 ASR 商用的巅峰,该领域的研究与市场应用还有待发掘。
  我们预计未来十年 AI 语音的相关研究和商业系统将重点攻克以下五个领域 :
  1 多语言ASR模型
  "在未来十年,我们将在生产环境中部署真正的多语言模型,使开发人员能够构建任何人都能理解任意语言的应用程序,从而真正向全世界释放语音识别的力量。"
  图源:Alexis Conneau 等人在 2020 年发表的"Unsupervised cross-lingual representation learning for speech recognition"论文
  如今的商用 ASR 模型主要使用英语数据集进行训练,因此对英语输入具有更高的准确性。由于数据可用性和市场需求,学术界和工业界对英语的长期关注度更高。法语、西班牙语、葡萄牙语和德语等商业流行语言的识别准确度虽然也较为合理,但显然存在一个训练数据有限且ASR输出质量相对较低的语言长尾。
  此外,大多数商业系统都是基于单一语言,这无法适用于许多社会特有的多语言场景。多语言可以采用背靠背语言的形式,例如双语国家的媒体节目。亚马逊最近推出了一款集成语言识别(LID)和ASR的产品,在处理这一问题上取得了长足进步。相比之下,跨语言(也称为语码转换)是个人使用的一种语言系统,该系统可以将两种语言的单词和语法结合在同一个句子中。这是一个学术界继续取得有趣进展的领域。
  正如自然语言处理领域采用多语言方法一样,我们将会看到ASR在未来十年也会效仿。随着我们学习如何利用新兴的端到端技术,我们将会训练可以在多种语言之间进行迁移学习的大规模多语言模型。Meta的XLS-R就是一个很好的例子:在一个演示中,体验者可以说21种语言中的任何一种,而不需要指定某种语言,模型最终都会翻译成英语。通过理解和应用语言之间的相似性,这些更智能的ASR系统将为低资源语言和混合语言用例提供高质量的ASR可用性,并将实现商业级别的应用。
  2 丰富的标准化输出对象
  "在未来十年,我们相信商业 ASR 系统将输出更丰富的转录对象,其中包含的内容将不止简单的单词。此外,我们预计,这种更丰富的输出将得到W3C等标准组织的认可,以便所有API都将返回类似构造的输出。这将进一步释放世界上每个人的语音应用潜力。"
  尽管国家标准技术研究院(NIST)在探索"丰富转录"方面有着悠久传统,但在将其纳入ASR输出的标准化和可扩展格式方面仍是浅尝辄止。丰富转录的概念最初涉及大写、标点和日记化,但在某种程度上扩展到说话人角色和一系列非语言性言语事件。预期的创新包括转录来自不同说话者、不同情绪和其他副语言特征的重叠语音,以及一系列非语言甚至非人类的语音场景和事件,还可以转录基于文本或语言多样性的信息。Tanaka等人描绘了一个用户可能希望在不同丰富程度的转录选项中进行选择的场景,显然,我们预测的附加信息的数量和性质是可指定的,这取决于下游应用。
  传统的ASR系统能够在识别口语单词的过程中生成多个假设的网格,这些已被证明在人工辅助转录、口语对话系统和信息检索中大有裨益。在丰富的输出格式中包含n-best信息将鼓励更多用户使用ASR系统,从而改善用户体验。虽然目前不存在用于构建或存储语音解码过程中当前生成或可能生成的附加信息的标准,但CallMiner的开放语音转录标准(OVTS)朝这个方向迈出了坚实的一步,使企业易于探索和选择多个ASR供应商。
  我们预测,在未来,ASR系统将以标准格式产生更丰富的输出,从而支持更强大的下游应用程序。例如,ASR系统可能会输出全部可能网格,并且应用程序可以在编辑转录内容时使用这些附加数据进行智能自动转录。类似地,包括附加元数据(如检测到的区域方言、口音、环境噪声或情绪)的ASR转录可以实现更强大的搜索应用。
  3 面向所有人的大规模 ASR
  "在这十年中,大规模的 ASR(即私有化、可负担、可靠和快速)将成为每个人日常生活的一部分。这些系统将能够搜索视频,索引我们参与的所有媒体内容,并使世界各地的听力受损消费者能够访问每个视频。ASR将是对每一个音频和视频都实现可访问和可操作的关键。"
  我们可能都在大量使用音视频软件:播客、社交媒体流、在线视频、实时群聊、Zoom会议等等。然而相关的内容实际上很少被转录。如今,内容转录已经成为ASR API的最大市场之一,并将在未来十年呈指数级增长,特别是考虑到它们准确性和经济性。话虽如此,ASR转录目前仅用于特定应用程序(广播视频、某些会议和播客等)。因此,许多人无法访问此媒体内容,并且在广播或活动结束后很难找到相关信息。
  在未来,这种情况将会改变。正如Matt Thompson在2010年预测的那样,在某种程度上,ASR价格廉价并被广泛普及,以至于我们将体验到他所谓的"演讲性"。我们预计,未来几乎所有音频和视频内容都将被转录,并且可立即访问、可存储、可大规模搜索。但ASR的发展不会到此停滞,我们还希望这些内容具有可操作性。我们希望消费或参与的每个音视频会提供额外的上下文,例如从播客或会议中自动生成的见解,或视频中关键时刻的自动总结等等,我们希望NLP系统可以将上述处理日常化。
  4 人机协同
  "到本世纪末,我们将拥有不断发展的ASR系统,它就像一个活的有机体,在人类的帮助或自我监督下不断学习。这些系统将从现实世界中的不同渠道学习, 以实时而非异步的方式理解新单词和语言变体,自我调试并自动监控不同的用法。"
  随着ASR成为主流并涵盖越来越多的用例,人机协同将发挥关键作用。ASR模型的训练很好地体现了这一点。如今,开源数据集和预训练模型降低了ASR供应商的准入门槛。然而,训练过程仍然相当简单:收集数据、注释数据、训练模型、评估结果、改进模型。但这是一个缓慢的过程,并且在许多情况下,由于调整困难或数据不足而容易出错。Garnerin等人观察到,元数据缺失和跨语料库表示的不一致性使得在ASR性能方面难以保证同等的准确性,这也是Reid和Walker在开发元数据标准时试图解决的问题。
  在未来,人类将通过智能手段高效地监督ASR训练,在加速机器学习方面发挥日益重要的作用。人在回路方法将人工审查员置于机器学习/反馈循环中,可以对模型结果进行持续审查和调整。这会使机器学习更快、更高效,从而产生更高质量的输出。今年早些时候,我们讨论了ASR的改进如何使Rev的人工转录员(称为"Revvers")能够对ASR草案进行后期编辑,从而提高工作效率。Revver的转录可以直接输入到改进的ASR模型中,形成良性循环。
  对于ASR,人类语言专家仍然不可或缺的一个领域是反向文本规范化(ITN),他们将识别的字符串(如"five dollars")转换为预期的书面形式(如"$5")。Pusateri等人提出了一种使用"手工语法和统计模型"的混合方法,Zhang等人继续沿用这些思路,用人工制作的FST约束RNN。
  5 负责任的 ASR
  "与所有人工智能系统一样,未来的ASR系统将坚持更严格的人工智能伦理原则,以便系统平等对待所有人,可解释性程度更高、对其决策负责、并尊重用户及其数据的隐私。"
  未来的ASR系统将遵循人工智能伦理的四项原则:公平性、可解释性、尊重隐私和问责制。
  公平性:无论说话者的背景、社会经济地位或其他特征如何,公平的ASR系统都能识别语音。值得注意的是,构建这样的系统需要识别并减少我们的模型和训练数据中的偏差。幸运的是,政府、非政府组织和企业已经着手创建识别和减轻偏见的基础设施。
  可解释性:ASR系统将不再是"黑盒":它们将根据要求对数据收集与分析、模型性能与输出过程进行解释。这种附加的透明度要求可以对模型训练和性能进行更好的人为监督。与Gerlings等人一样,我们从一系列利益相关者(包括研究人员、开发人员、客户,以及Rev案例中的转录学家)的角度来看待可解释性。研究人员可能想知道输出错误文本的原因,以便缓解问题;而转录学家可能需要一些证据来证明ASR为什么会这么认为,以帮助他们评估其有效性,特别是在嘈杂的情况下,ASR可能比人"听"得更好。Weitz等人在音频关键词识别的背景下,为终端用户实现可解释性采取了重要的初步措施。Laguarta和Subirana已将临床医生指导的解释纳入用于阿尔茨海默症检测的语音生物标记系统。
  尊重隐私:根据各种美国和国际法律,"语音"被视为"个人数据",因此,语音记录的收集和处理受到严格的个人隐私保护。在Rev,我们已经提供了数据安全和控制功能,未来的ASR系统将进一步尊重用户数据的隐私和模型的隐私。在许多情况下,这很可能涉及将ASR模型推向边缘(在设备或浏览器上)。语音隐私挑战正在推动这一领域的研究,许多司法管辖区,如欧盟,已经开展立法工作。隐私保护机器学习领域有望引起大家对技术这一关键方面的重视,使其能够被公众广泛接受和信任。
  问责制:我们将对ASR系统进行监控,以确保其遵守前三项原则。反过来需要投入资源和基础设施,以设计和开发必要的监测系统,并针对调查结果采取措施。部署ASR系统的公司将对其技术的使用负责,并为遵守ASR伦理原则做出具体努力。
  值得一提的是,作为ASR系统的设计者、维护者和消费者,人类将负责实施和执行这些原则——这是人机协同的又一个示例。
  参考链接:
  https://thegradient.pub/the-future-of-speech-recognition/
  https://awni.github.io/speech-recognition/

散文丨杨守知一个村庄的南北东西一个村庄的南北东西文丨杨守知南在故乡的南山上,我见到了远房的五婶。那个年过八旬的罗圈腿的矮女人,在五叔坟前无声哭泣。那是今年的中元节,多雨的夏季即将结束,墓地的荆棵密不透风。五婶捏AM新花样!高性能有机水凝胶致动器实现人造肌肉水凝胶致动器溶剂扩散引起的体积变化机制,大多存在致动强度弱和响应速度低的问题。近日,来自北京航空航天大学的刘明杰教授团队进行了高性能有机水凝胶人造肌肉,在微域限制下具有分隔各向异性韩国首个月球探测器Danuri拍摄到的地球美景你好,地球,你看起来很美。韩国的探路者月球轨道器航天器,即Danuri在月球上空向人类发回了一些礼物。该航天器最近进入月球轨道,并将一个高分辨率的相机转向家乡。韩国航空航天研究所本人类首次嫦娥四号登陆月背4周年已行驶1455米2019年1月3日,中国发射的嫦娥四号月球探测器在月球背面着落,这是人类首次在月球背面软着陆,迄今已经四周年,嫦娥四号还在工作中。截至目前,玉兔二号月球车在月背行驶达到1455米,超预期!2022年太阳爆发频现,2023年地球会更热吗?气候波动大万万没有想到,2022年的太阳活动情况变得如此凶猛,那这是不是意味着2023年会更加热?如果是这样的话,大家真的要做好相应的准备了。的确,来自对2022年的整个太阳活动周期之中的太年终盘点(二)2022中国航天,这些画面令人念念不忘2022年从天舟四号到天舟五号从问天舱到梦天舱从神舟十四号到神舟十五号我们一次次为中国航天激动不已今天我们一起回顾2022年中国航天有哪些时刻让你念念不忘1hr2022中国航天开门疯狂的新论文表明我们可以检测到外星巨型飞船的引力波更广阔的银河系中是否存在外星智慧生命的问题可以用引力波来回答。根据一个由科学家和工程师组成的名为应用物理学的国际小组撰写的新论文,激光干涉仪引力波天文台(LIGO)等地基探测器在理王亚平太空行走第一人,穿运动装健身保持一项记录,目前还是第一航天梦,是我国多少代科学家夜以继日的梦想,他们为了早日实现祖国的航天梦,大家都付出了百倍的努力,我国自古以来都是靠自力更生,奋发图强的干劲,才有了今天的航天梦想,自从首飞第一人杨利不准抢美国风头,NASA局长跳出来泼脏水,中国要殖民月球作者战忽速递全球第一个在月球行走的人阿姆斯特朗曾说过,这是我个人的一小步,却是人类迈出的一大步!这句话曾鼓励着无数能人志士,前赴后继的探索月球。如今中国经过多年发展,登月技术趋于成霍金的可怕预言其中1个正在上演,为何警告人类别惹外星人?史蒂芬霍金,这是一个非常有名的名字,一位曾在物理学界留下了浓墨重彩的明星。他的一生充满了传奇色彩。虽然霍金已经这个世界5年的时间了,但是人们并没有忘记他,因为他对人类和物理学界的贡火星无人机永远不会在地球上飞行的飞机火星上空的直升机图片(ImagecreditNasaJPL)2021年4月19日,一架名为机智号(Ingenuity)的小型实验无人机从火星地面起飞,这被载入史册。这台自动飞行器的
卸下你的累,何必太在乎人这辈子,总会遇到不如意的事,也会碰到不真心的人,如果计较,很难快乐,如果记恨,不会开心。唯有学会忘记,才能过得轻松。人生,总有失去,生活,总有痛苦,学会忘记是最好的修行。人生路漫RTX3090Ti将于3月29日晚发售RTX40系曝光RTX3090Ti在今年CES2022上发布之后就一直命运多舛,先是被爆料BIOS硬件都发现了问题,英伟达要求合作伙伴停止生产各自的非公版本,最严重可能需要重新设计。接下来新一代卡GalaxyS22Ultra拥有最新最好的高通毫米波,但在欧洲没有原文转自TechInsight迄今为止,三星GalaxyS22Ultra可能在手机中拥有最先进的射频技术,但不幸的是,欧洲人似乎将再过一年推出三星sub6旗舰产品。虽然所有主要运营消息称索尼计划3月末发布新品9500万全画幅相机有望登台去年10月索尼召开发布会,推出了包括7IV在内的多款采用E卡扣的产品,而根据SonyAlphaRumors爆料的消息,时隔五个月,索尼将再次召开新品发布会。据悉,此次发布会将在3月iPhoneSE3已失败,iPhone14Pro才是重点,库克的套路近日,苹果iPhone的热度相当高,但并不是因为iPhone13,而是因为众多国内用户相当期待的iPhoneSE3,该机已经正式来临,售价也全面公开。对于果粉来说,iPhoneSE险!7岁男童误食6枚磁力珠导致肠穿孔现代快报讯近日,盐城市儿童医院小儿外科接诊了一个7岁男孩,男孩因误食磁力珠,导致严重肠穿孔。经过医护人员奋力救治,其体内磁力珠已被取出,目前已康复出院。现代快报记者了解到,这名患儿二胎随母姓屡屡受阻?三大难题摆在妈妈面前,怎么抉择至关重要随着二胎政策的放开,很多家里面原本只有一个孩子,后来又有一个小的宝宝。但是现在女性的自我意识也比较强烈,就会觉得既然是男女平等,那么已经有一个孩子跟爸爸姓了,跟妈妈姓也是合理的。在人均年薪115万元,近一半员工是硕士,比华为腾讯工资还要高?华为全屋智能再升级,智慧交互面板有可能成为亮点。3月10日,华为宣布将举办2022年全屋智能及全场景新品发布会。在万物互联的时代,没有人会错过这个机会。智能办公智能家居和智能娱乐就预算2000左右,不会挑手机?不妨来看看这几款夏天马上就要到了,日夜陪伴你们的手机是否也在一天天的升温?随着华为麒麟芯片的短缺,并且搭载高通骁龙888和8Gen1的手机功耗和发热接连翻车,安卓用户在市场上的选择越来越少,搭载骁为什么安卓手机越来越卡,不是配置不给力,这两点才是主要原因安卓手机一直来都有一个严重的问题,那就是卡顿,特别是长期使用后,手机运行速度大不如前,而苹果手机却可以保持长久流畅,这让不少用户都感觉到奇怪,毕竟这些年安卓手机的进步还是非常大的,一文读懂BET测试常见问题(二)如何利用气体吸附原理分析比表面?固体多孔材料的单位重量的表面积(即比表面积)是重要的物理参数。真实表面包括不规则的表面和孔的内部表面。它们的面积无法从颗粒大小的信息中计算出来,但却