语音识别技术在B站的落地实践

　　前言
　　自动语音识别（Automatic Speech Recognition，ASR）技术目前已大规模落地于B站相关业务场景，例如音视频内容安全审核，AI字幕（C端，必剪，S12直播等），视频理解（全文检索）等。
　　AI字幕（中英文C端，必剪，S12直播等）
　　全文检索
　　本文将介绍在这一过程中，我们在数据和算法上所做的积累与探索。
　　高质量ASR引擎
　　一个适合工业化生产的高质量（高性价比）ASR引擎，它应该具有如下的特点：
　　说明
　　高精度
　　在相关的业务场景精度高，鲁棒性好高性能
　　工业化部署延迟低，速度快，计算资源占用少高扩展性
　　能高效支持业务迭代定制，满足业务快速更新需求
　　下面结合B站的业务场景在以上几个方面介绍我们相关的探索与实践。
　　数据冷启动
　　语音识别任务即从一段语音中完整识别出其中的文字内容（语音转文字）。
　　满足现代工业生产的ASR系统依赖大量且多样的训练数据，这里＂多样＂是指说话周围环境，场景语境（领域）及说话人口音等非同质数据。
　　针对于B站的业务场景，我们首先需要解决语音训练数据冷启动的问题，我们将碰到如下挑战：冷启动：开始只有极少量的开源数据，购买的数据和业务场景匹配度很低。业务场景领域广：B站音视频业务场景覆盖几十个领域，可以认为是泛领域，对数据＂多样性＂要求很高。中英文混合：B站年轻用户较多，且存在较多中英文混合泛知识类视频。
　　对于以上问题，我们采用了以下的数据解决方案：
　　业务数据筛选
　　B站存在少量UP主或用户投稿的字幕（cc字幕），但同时也存在一些问题：时间戳不准，句子开始和结束时间戳往往在首尾字中间或者数个字之后；语音和文字没有完全对应，多字，少字，注释或翻译，存在按意思理解生成字幕的情况；数字转换，比如字幕2002年（实际发音二千零二年，二零零二年等）；
　　为此，我们基于开源数据，采购的成品数据及少量标注数据训练一个筛选数据的基础模型，以投稿字幕文本训练子语言模型，用来做句子时间对齐及字幕筛选过滤；
　　半监督训练
　　近年来因数据，GPU计算能力大幅提升及大规模人工标注数据成本过高，业界涌现了大量无监督（wav2vec，HuBERT，data2vec等）[1][2]及半监督训练方法。
　　B站存在大量的无标注业务数据，同时我们也从其它网站获取了大量无标注视频数据，我们前期采用被称为NST(Noisy Student Training)[3]的半监督训练方法，
　　初期按领域及播放量分布筛选了近50万稿件最终生成约4万小时自动标注数据，加上初始1.5万小时标注数据训练后识别精度有相对近15%左右的提升，且模型鲁棒性改善明显。
　　图一
　　通过开源数据，B站投稿数据，人工标注数据及自动标注数据我们初步解决数据冷启动问题，随着模型的迭代，我们可以进一步筛选出识别比较差的领域数据，
　　这样形成一个正向循环。初步解决数据问题后，下面我们重点介绍模型算法相关优化。
　　模型算法优化
　　ASR技术发展历程
　　我们简单回顾下现代语音识别发展历程，大体可以分为三个阶段：
　　第一阶段是从1993年到2009年，语音识别一直处于HMM-GMM时代，由以前基于标准模板匹配开始转向统计模型，研究的重点也由小词汇量、孤立词转大词汇量、非特定人连续语音识别，自90年代以后在很长一段时间内语音识别的发展比较缓慢，识别错误率没有明显的下降。
　　第二阶段是2009年到2015年左右，随着GPU计算能力的大幅提升，2009年深度学习又开始在语音识别中兴起，语音识别框架开始转变为HMM-DNN，开始步入DNN时代，语音识别准确度得到了显著的提升。
　　第三阶段是2015年以后，由于端到端技术的兴起，CV，NLP等其它AI领域的发展相互促进，语音识别开始使用更深，更复杂的网络，同时采用端到端技术进一步大幅提升了语音识别的性能，在一些限制的条件下甚至超过了人类水平。
　　图二
　　B战ASR技术方案
　　重要概念介绍
　　为方便理解，下面简单介绍一些重要基础概念
　　建模单元
　　Hybrid or E2E
　　第二阶段基于神经网络的混合框架HMM-DNN相比比第一阶段HMM-GMM系统语音识别准确率是有着巨大的提升，这点也得到了大家的共识。
　　但第三阶段端到端（end-to-end，E2E）系统对比第二阶段在开始的一段时间业界也有争议[4]，随着AI技术的发展，特别是transformer相关模型的出现，模型的表征能力越来越强，
　　同时随着GPU计算能力的大幅提升，我们可以加入更多的数据训练， 端到端方案逐渐表现出它的优势，越来越多的公司选择端到端的方案。
　　这里我们结合B站业务场景对比这两种方案：
　　图三
　　图三是一个典型的DNN-HMM框架，可以看出它的pipeline 很长，不同的语言都需要专业的发音词典，
　　而图四端到端系统把所有这些放在一个神经网络模型中，神经网络输入是音频（或特征），输出即是我们想要的识别结果。
　　图四
　　随着技术的发展端到端系统在开发工具，社区及性能上优势也越来越明显：代表性工具及社区比较
　　混合框架（ hybrid ）
　　端到端框架（E2E）
　　代表性开源工具及社区
　　HTK, Kaldi
　　Espnet, Wenet, DeepSpeech, K2等
　　编程语言
　　C/C++, Shell
　　Python, Shell
　　可扩展性
　　从头开发
　　TensorFlow/Pytorch
　　性能比较
　　下面表格是典型的数据集基于代表性工具下的最优结果（字错误率 CER）：
　　混合框架（ hybrid ）端到端框架（E2E）
　　代表工具
　　KaldiEspnet代表技术
　　tdnn+chain+rnnlm rescoringconformer-las/ctc/rnntLibrispeech3.061.90GigaSpeech14.8410.80Aishell-17.434.72WenetSpeech12.83 8.80
　　总之，选择端到端系统，相比传统的混合框架，在资源一定的情况下，我们可以更快更好的开发出一个高质量的ASR系统。
　　当然，基于混合框架，如果我们也采用同等先进的模型及高度优化的解码器也是可以达到和端到端接近的效果，但我们可能需要投入数倍的人力及资源来开发优化这个系统。
　　端到端方案选择
　　B站每天都有数十万小时的音频需要转写，对ASR系统吞吐和速度要求都很高，生成AI字幕对精度也有较高的要求，同时B站的场景覆盖也非常广泛，选择一个合理高效的ASR系统对我们来说很重要。
　　理想的ASR系统
　　图五
　　我们希望基于端到端框架构建一个高效的ASR系统解决在B站场景的问题。
　　端到端系统比较
　　图六
　　图六是现在有代表性的三种端到端系统[5]，分别是E2E-CTC，E2E-RNNT，E2E-AED，下面从各个方面对比各个系统优缺点（分数越高越好）系统比较
　　E2E-AEDE2E-RNNT优化的E2E-CTC 识别精度
　　6
　　5
　　6　　实时（流式）
　　3
　　5
　　5　　成本及速度
　　4
　　3
　　5　　快修
　　3
　　3
　　6　　快速高效迭代
　　6
　　4　　5非流式精度比较（字错误率 CER）
　　2000小时15000小时 Kaldi Chain model+LM13.7
　　--E2E-AED11.8
　　6.6
　　E2E-RNNT12.4
　　--E2E-CTC(greedy)13.1
　　7.1
　　优化的E2E-CTC+LM10.2
　　5.8
　　上面是分别基于2000小时及15000小时视频训练数据在B站生活美食场景的结果，其中Chain及E2E-CTC采用了相同语料训练的扩展语言模型，
　　E2E-AED及E2E-RNNT没有采用扩展的语言模型，端到端系统都是基于Conformer模型。
　　从第二表格可以看出单一的E2E-CTC系统精度并不明显弱于其它端到端系统，但同时E2E-CTC 系统存在着以下优点：因为没有神经网络的自回归（AED decoder 及RNNT predict）结构，E2E-CTC 系统在流式，解码速度，部署成本有着天然的优势；在业务定制上，E2E-CTC 系统也更容易外接各种语言模型（nnlm及ngram），这样使得在没有足够数据充分覆盖的通用开放领域其泛化稳定性要明显优于其它端到端系统。
　　高质量ASR解决方案
　　高精度可扩展ASR框架
　　图七
　　在B站生产环境中对速度，精度以及资源消耗都有较高的要求，在不同的场景也有快速更新及定制的需求（比如稿件相关的实体词，热门游戏及体育赛事的定制等），
　　这里我们总体采用端到端CTC系统，通过动态解码器解决可扩展性定制问题，见图七。下面将重点分开阐述模型精度，速度及扩展性优化工作。
　　端到端CTC区分性训练
　　我们系统采用中文字加上英文BPE建模，基于AED及CTC多任务训练完以后，我们只保留CTC部分，后面我们会进行区分性训练，我们采用端到端的lattice free mmi[6][7]区分性训练：区分性训练准则
　　区分性准则-MMI
　　和传统区分性训练区别
　　1. 传统做法
　　a. 先在CPU上生成全部训练语料对应的alignment和解码lattice；
　　b. 训练的时候每个minibatch由预先生成的alignment和lattice 分别计算分子和分母梯度并更新模型；
　　2. 我们做法
　　a. 训练的时候每个minibatch直接在GPU上计算分子和分母梯度并更新模型；和kaldi基于phone的lattice free mmi区分性训练区别
　　1. 直接端到端对字及英文BPE建模，抛弃phone hmm状态转移结构；
　　2. 建模粒度大，训练输入没有近似截断，context 为整个句子；
　　下表是在15000小时数据上，CTC训练完成后，用解码置信度选取3000小时进行区分性训练的结果，可以看出采用端到端的lattice free mmi区分性训练结果要好于传统DT训练，除了精度上的提升，整个训练过程都能在tensorflow/pytorch GPU中完成。
　　B站视频测试集 CTC baseline6.96
　　传统DT6.63
　　E2E LFMMI DT6.13
　　相对混合系统，端到端系统解码结果时间戳都不是很准，AED 训练没有随时间单调的对其，CTC 训练的模型相比 AED 时间戳准确很多，但也存在尖峰问题，每个字的持续时长不准；
　　经过端到端区分性训练后，模型输出会变得更加平整，解码结果的时间戳边界更加准确；
　　端到端CTC解码器
　　在语音识别技术发展过程中，无论是基于GMM-HMM的第一阶段还是基于DNN-HMM混合框架的第二阶段，解码器都是其中非常重要的组成部分。
　　解码器的性能直接决定了最终ASR系统的速度及精度，业务的扩展及定制也大部分依赖灵活高效的解码器方案。传统解码器不管是动态解码器还是基于WFST的静态解码器都非常复杂，不仅依赖大量的理论知识，还需要专业的软件工程设计，开发一个性能优越的传统解码引擎不仅前期需要投入大量的人力开发，而且后期维护成本也很高。
　　典型的传统的 WFST 解码器，需要把hmm，triphone context，字典，语言模型编译成一个统一的网络，即HCLG，在一个统一的FST网络搜索空间，这样可以提升解码速度，提高精度。
　　随着端到端系统技术的成熟，端到端系统建模单元粒度较大，比如一般为中文的字或英文的wordpiece，因为去除了传统HMM转移结构，triphone context及发音字典，这使得后面的解码搜索空间变的小很多，这样我们选择基于beam search 为基础的简单高效动态解码器，下图八是两种解码框架，相比传统的WFST解码器，端到端动态解码器有以下优势：占用资源少，典型的为WFST解码资源1/5；其耦合度低，方便业务定制，方便和各种语言模型融合解码，每次修改不需要重新编译解码资源；解码速度快，采用字同步解码[8]，典型的比WFST解码速度快5倍；
　　图八
　　模型推理部署
　　在一个合理高效的端到端ASR框架下，计算量最大的部分应该在神经网络模型的推理上，而这块计算密集的部分可以充分利用GPU的计算能力，我们分别从推理服务，模型结构及模型量化几部分优化模型推理部署：模型采用F16半精度推理；模型转FasterTransformer[9]，基于nvidia高度优化的 transformer；采用triton部署推理模型，自动组batch，充分提升GPU使用效率；
　　在单块GPU T4下速度提升30%，吞吐提升2倍，1小时能转写3000小时长音频；
　　总结
　　这篇文章主要介绍了语音识别技术在B站场景的落地，如何从头解决训练数据问题，整体技术方案的选择，各个子模块的介绍及优化，包括模型训练，解码器优化及服务推理部署等。未来我们将进一步提升相关落地场景用户体验，比如采用即时热词技术，优化稿件级别相关实体词准确率；结合流式ASR相关技术，更加高效的定制支持游戏，体育赛事的实时字幕转写。
　　参考资料
　　[1] A Baevski, H Zhou, et al. wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations
　　[2] A Baevski, W Hsu, et al. data2vec: A General Framework for Self-supervised Learning in Speech, Vision and Language
　　[3] Daniel S, Y Zhang, et al. Improved Noisy Student Training for Automatic Speech Recognition
　　[4] C Lüscher, E Beck, et al. RWTH ASR Systems for LibriSpeech: Hybrid vs Attention -- w/o Data Augmentation
　　[5] R Prabhavalkar , K Rao, et al, A Comparison of Sequence-to-Sequence Models for Speech Recognition
　　[6] D Povey, V Peddinti1, et al, Purely sequence-trained neural networks for ASR based on lattice-free MMI
　　[7] H Xiang, Z Ou, CRF-BASED SINGLE-STAGE ACOUSTIC MODELING WITH CTC TOPOLOGY
　　[8] Z Chen, W Deng, et al, Phone Synchronous Decoding with CTC Lattice
　　[9] https://github.com/NVIDIA/FasterTransformer
　　本期作者
　　邓威 -  资深算法工程师 - 哔哩哔哩语音识别方向负责人
　　来源:微信公众号:哔哩哔哩技术
　　出处:https://mp.weixin.qq.com/s/2ofk4uDW7gqJKMy_2X_5IQ

天舟五号船箭组合体垂直转运正在海南文昌航天发射场进行今天早上，在文昌航天发射场，天舟五号货运飞船和长征七号遥六运载火箭组合体正在进行垂直转运。今天的垂直转运工作大概从早上8点多开始，搭载着天舟五号货运飞船的长征七号遥6运载火箭，在活11月9日足球资讯10111月10日0130科隆勒沃库森科隆伤停柳比西奇利姆尼奥斯安德森因伤出战成疑迪茨李普乐乌斯赫克托许伯斯奥里森球队新闻迪茨膝盖前十字韧带受伤，将缺阵几周，乌斯髋关节受伤。利姆尼河南省的区划变动，17个地级市之一，濮阳市为何有6个区县？在之前的文章中给大家介绍了很多城市的区划变迁调整，每个城市的区划变迁调整都是独一无二的，我国的历史悠久，经过了分分合合，才形成了现如今的地理格局，今天给大家说一下河南省濮阳市的区划一张李少莉年轻时的照片曝光，暴露了她和村妇的确有所不同一张李少莉年轻时的照片曝光，暴露了她和村妇的确有所不同最近一段时间，李少莉因为穿戴问题和发布会上指读稿子引发了热议，随着事件的持续发酵，李少莉作为发言人已经被换下，但是在调查结果出再次推迟！NASA火箭发射又遭意外，美国登月看来是假的了？再次推迟！网友戏称美国把发射当成了儿戏。原来计划在11月14日发射的阿尔忒弥斯一号暂停发射，将在11月16日发射。当然这也是有原因的，主要是受限于热带风暴。众所周知，火箭发射需要受山东56岁大爷，20年来雷打不动喝2两酒，亲自戳破白酒3大谎言姜还是老的辣，生活中是，酒桌上亦是。山东56岁的王大爷坚信处处留心皆学问，所以在自己的工作上格外下功夫，他是一名酒厂的酿造工人，同样也是一位酒龄20年的酒友。对于白酒方面有诸多的传2022东南亚热门国家电商平台排名2022年已至，东南亚各国电商平台排名究竟如何？此次，TMO以国为单位，更新了马来西亚印尼泰国印度菲律宾越南这6个东南亚和南亚市场最火热跨境电商目标国的电商平台排名。本文分为两个部阳痿，常吃大补阴丸鹿角胶丸蚕蛾公补片回春胶囊，注意什么好医生为健康护航大补阴丸组方为熟地黄龟甲（醋炙）知母（盐炒）黄柏（盐炒）猪脊髓。方中熟地黄滋阴填精生髓，龟甲育阴清热除蒸，两者合用，滋水以制火，共为君药。盐知母盐黄柏苦寒，泻肾经虚半夜总是口干舌燥？别以为是缺水，或是这5种问题的警报进入冬季以后，天气越来越干燥，好像喝再多的水总是不够一样。晚上本来以为可以美美地睡一晚上，没想到睡到半夜就觉得口干舌燥，甚至有点发苦的感觉。情况严重的时候，可能一晚上醒来很多次，睡补肾固齿丸中年过后，许多人都会有这样的状况牙齿常感酸痛松动咀嚼无力食物嵌塞牙龈肿痛出血等。这些症状如果不加以防治，牙齿就会出现更差的状况，例如牙龈坏死，牙齿脱落，这就是牙周病。因而要特别注意长期吃花生是降血压，还是升血压？本文一次说清楚花生素有长寿果的美誉，是一种性价比比较高的坚果，不仅营养价值高，而且还可以加工成各种美食，比如水煮花生，油炸花生，盐焗花生等。01hr花生的营养价值100克花生当中含有24。8克的

<<<<<<－>>>>>>

最简单的卤牛肉，调料只需这4样，酱香酥烂，好吃无腥味，不发柴最简单的卤牛肉，调料只需这4样，酱香酥烂，好吃无腥味，不发柴很多人都爱吃卤牛肉，口感酥烂味道香，下酒又下饭，缺点也很明显，就是贵！在熟食店，一斤卤牛肉能卖出100元的高价，想吃也得我国便宜又好喝的5款白酒，全是纯粮佳酿，你都喝过哪些？现如今，白酒的品种越来越多，但是能保证好喝同时价格又便宜的白酒却少之又少，一些便宜的白酒几乎都是酒精酒，口感和粮食酒相差甚远，一些大品牌的粮食酒价格又太贵，要想当作口粮酒来喝几乎不茄子最好吃的4种做法，简单营养，鲜香又美味，学会了做给家人吃茄子是我们生活中常见的蔬菜，可荤可素，可炸可蒸，做法多种多样，鲜香美味，营养丰富，茄子含有丰富的蛋白质微量元素维生素等，能增强毛细血管的弹性，防止破裂初出血，除此之外，茄子的热量和更年期女性也能怀孕，高龄女性如何顺利妊娠？医生教你做幸福女人那天我在门诊值班时，49岁的叶阿姨来到门诊找我因为她发现自己怀孕了，据她描述最近几年她经常感到自己月经不规律，有时几个月不来，有时又断断续续连着30天没干净，就连自己的生活情绪都跟内心强大的人，有这五种特质来源人民日报真正内心强大的人，经历过风雨，体验过高山低谷，也见识过人生百态。唯有不断强大自己，生活才会变得越来越好。遇事能扛面对烦恼，每个人都有难过的时候，但内心强大的人，懂得自我女生皮肤超好的总结内调篇戒掉糖糖分摄入过多会使皮肤的胶原蛋白变得脆弱，自我修复能力下降，加速皮肤衰老，更容易产生痘痘，比吃辛辣食物更严重。柠檬水可以每天晚上给自己喝一杯柠檬水，可以促进美白，代谢黑色护肤小常识生活中大家总是关注怎么让脸更好看，选个什么口红能立马惊艳到对方。在我看来这些是经不住看的，但凡多看几眼，随着每次关注点的转移，总会发现之前忽略的地方。对我来说，不光是在意脸上肌肤如孩子也有自己的隐私，更需要保护孩子也有自己的隐私，更需要保护！请不要把我的隐私告诉别人！无意中小孩子也有隐私意识。那是我儿子乐乐上小学一年级的时候。那时，乐乐班上有个浓眉大眼的小女孩儿。乐乐很喜欢和她一起玩。我超越LG新能源，比亚迪三季度市占率全球第二动力电池月度排名记者王月伦编辑全球动力电池行业三季度排名出炉，宁德时代（300750。SZ）稳居第一，比亚迪（002594。SZ）装机量超越LG新能源，跃居第二。11月1日，韩国研究机构SNERe每天车闻蔚来整车工厂暂停生产懂车之道每天车闻我们来盘点一下2022年11月2日，汽车圈都发生了一些什么大事件。汽车事件一贾跃亭等因借款合同纠纷起诉乐视控股近日，贾跃亭变身原告，起诉乐视控股（北京）有限公司，案还说手机销量下滑？双十一黑马出现，从千元到高端全面开花根据研究报告显示，今年国产手机销量处于低迷状态，过去几个月打破近7年来最差纪录，似乎情况不容乐观。但最新一份战报显示，国产品牌销量迎来强势逆袭，在双十一期间成为最大黑马。双十一与黑