面向铁路旅客服务应用的语音识别模型研究
人类主要依靠语言进行交流沟通,但在使用计算机时却离不开双手,通常使用键盘输入计算机命令,或根据计算机提示进行点击操作。随着语音搜索服务及智能音箱产品的日渐成熟,与语音识别技术相关的智能车载、智能家居、智能客服等应用陆续走进大众生活,促使人们使用计算机的操作方式发生转变。例如在身份识别的应用方面,与指纹识别、虹膜识别等生物识别技术相比,语音识别技术无需记忆密码,身份验证过程更为快捷,一条简短的语音指令即可代替以往的复杂操作,用户易于接受,便于推广应用。
在深度学习技术兴起之前,语音识别技术主要采用隐马尔可夫模型[1] (HMM,Hidden Markov Model)和高斯混合模型[2] ( GMM,Gaussian Mixed Model);其中,HMM 用于描述音频信号的动态特性,GMM用于描述HMM每个状态的静态特性。这个时期因受技术所限,语音识别率提升缓慢,语音识别技术的发展一度停滞不前。随着深度神经网络[3](DNN,Deep Neural Network)的兴起,语音识别技术框架逐渐由GMM-HMM转变为DNN-HMM,以DNN模型替代GMM模型,无需假设语音数据的分布,即可获得语音时序结构信息,使得状态分类概率得以改善,语音识别准确率显著提升。特别是在端到端(E2E,End-to-End)机器学习策略出现后,语音识别技术开始进入百花齐放时代,涌现出多种复杂的训练网络。其中,较为常用的E2E机器学习模型有:连接时序分类(CTC,Connectionist Temporal Classification)模型[4]、递归神经网络传感器(RNN-T,Recurrent Neural Network Transducer)模型[5]、LAS(Listen Attend and Spell)模型[6] ,T-T(Transformer-Transducer)模型[7]。与传统语音识别模型不同,CTC模型不需要在训练数据前对语音与标签进行对齐处理,节省了训练开销, 但是CTC模型没有考虑上下文之间的关系,生成的文本质量较差。RNN-T 模型是在CTC模型的基础上加以改进,能够支持流式语音识别,具有语言模型建模能力,主要用于辅助文本的生成, 解决了CTC模型生成文本质量差的问题。LAS模型利用注意力(Attention)机制实现有效的对齐,因其考虑了上下文信息,在准确度上会略高于其它模型,但正是因为它需要上下文信息,因而无法支持流式语音识别,且准确度会受到输入语音长度的影响。T-T 模型是对RNN-T的改进,它将RNN-T中长短时记忆[8](LSTM, Long Short Term Memory)编码器替换为Transformer[9]编码器,Transformer是一种非循环的注意力机制,可以让网络执行并行计算,能够支持流式语音识别。
近年来,我国铁路运输能力和服务水平持续提升,铁路凭借其便捷性、舒适性和安全性,成为民众出行首选的交通方式。目前,语音识别技术在铁路领域主要应用于面向旅客的铁路互联网售票系统(简称:12306)智能客服,在站车交互、移动检票、列车补票等业务中尚未广泛应用。研究面向铁路旅客服务应用的语音识别模型时,首先要选用合适的语音识别模型进行优化改进,使其达到较高的识别准确率,并针对特定的应用场景构造特定的铁路领域训练数据集,将其用于语音识别模型的训练,以增强模型的铁路领域特征;此外,目前的铁路旅客服务涉及铁路出行条例、旅客常问问题等众多文本信息,为此,在语音识别模型的基础上结合特定的文本处理机制,将进一步有效地提高具体应用的语音识别准确率。
本文研究提出一种改进的语音识别模型,借助RNN-T模型对于语音识别处理的优势,用Conformer[10]结构替换RNN-T中的RNN结构,Conformer结构是以卷积增强的Transformer模型, Transformer能够有效提取长序列依赖关系,而卷积擅长提取局部特征,Conformer结构可将两者结合起来,以增强语音识别的效果;另外,在卷积模块上加入注意力机制,发挥注意力机制参数少、速度快的优势,且基于注意力机制的每一步计算不依赖于上一步的计算结果,可解决RNN不能并行计算的问题,还能从较长的文本信息中捕获重要特征,解决长文本信息被弱化的问题。结合旅客常问问题查询设备和车站智能服务机器人2个应用场景中的旅客服务功能,利用改进的语音识别模型完成定制化开发,使旅客可通过语音交互方式简单、快捷、高效地获取所需服务。 1. 相关的网络模型1.1 CTC模型和RNN-T模型
CTC模型是一种可以把语音转化文本的语音识别模型,只需要提供输入的音频序列和对应的输出文本序列,就可以对CTC模型进行训练,解决了传统语音识别模型训练时需要标签对齐的问题。经CTC解码后,每一帧都能生成对应的字词,不需要进行后续的处理,因而CTC模型能够很好地支持流式语音识别。
如图1所示,CTC模型完成语音识别的音频数据处理流程为:(1)将音频数据均分成若干段,每段都匹配一个音节,生成预测序列,此处引入空白符用于分割音节(即图1中表示为灰色框),空白符不对应任何输入,后续会从输出中将其删除;(2)合并重复的音节,并去除空白符;(3)输出对应的文本序列。
图 1 CTC模型处理流程
下载: 全尺寸图片 幻灯片
CTC模型的缺点是忽略了音频序列间的前后依赖关系,即认为当前帧yuyu与前序各帧yi(i 236.2
测试集
219
91.4
下载: 导出CSV | 显示表格
在语音识别任务上,采用字错误率(CER,Character Error Rate)作为语音识别模型的准确率评价指标,数值越低,表示效果越好;CER计算公式为
CER=S+D+IN×100%CER=S+D+IN×100%
(5)
其中,SS表示替换的字符数目;DD表示删除的字符数目;II表示插入的字符数目;NN表示参考序列中字符总数。 3.2 实验环境配置
实验环境配置如表2所示。
表 2 实验环境配置
实验环境
配置
操作系统
Linux
CPU型号
Inter(R) Xeon(R) CPU E5-2698 v4 @ 2.20 GHz
GPU型号
Tesla V100
运行内存
251 GB
程序语言
Python
程序框架
Pytorch
下载: 导出CSV | 显示表格 3.3 语音识别模型参数设置
由于参数规模对模型准确率会产生一定的影响,考虑了2种参数规模的Conformer模型(Conformer small 和Conformer big),其具体参数设置如表3所示。
表 3 2种语音识别模型的参数规模设置
模型
Params(B)
Layers
Dimension
Attention Heads
Conformer small
0.6
34
1024
8
Conformer big
1.0
36
1024
8
下载: 导出CSV | 显示表格
输入帧使用了大小为 8 的上下文窗口,可生成640维特征向量,将其作为传感器编码器的输入,帧移位设置为 30 ms;所有模型的卷积核大小都设置为5;预测网络选用2 个隐藏节点为720的 LSTM 层。2个模型分别在训练迭代12个epoch 和15个epoch后结果趋于稳定,模型训练耗时约2~3天时间。 3.4 训练细节
(1)数据处理:实验中音频统一使用16 KHz的采样率,若存在不符合16 KHz采样率的音频,则对其进行采样率转化;音频特征为80维log-mel FBank。
(2)预训练:采用wav2vec对Conformer编码器网络进行预训练,预训练的掩码起点以0.06的概率随机选择,掩码步长设置为10。使用Adam优化器和Transformer学习率策略调节学习率,峰值学习率为2e-3,预热步长设置为25。Comformer small模型和Comformer big模型均使用Adam优化器和指数移动平均进行训练。
(3)模型训练:与预训练相同,所有模型都使用Adam优化器和指数移动平均进行训练,根据下游任务调整batch大小、学习率和预热步长。使用标准的自适应SpecAugment策略,频率掩码F设置为27,时间掩码的最大时间掩码比Ps设置为0.05,使用2个频率掩码和10个时间掩码对输入进行增强。 3.5 结果分析
以RNN-T模型作为基线模型,对T-T模型和改进前后的C-T模型进行对比测试,不同模型的测评结果如表4所示。
表 4 RNN-T基线模型、T-T模型和改进前后的C-T模型的测评结果
模型
CER/%
与基线模型差值/%
基线模型
9.13
−
T-T
8.59
−0.54
C-T (Conv) small
8.24
−0.89
C-T (Conv) big
8.15
−0.98
C-T (Conv+Attention) small
7.98
−1.15
C-T (Conv+Attention) big
7.91
−1.22
下载: 导出CSV | 显示表格
结果表明:
(1)参数规模会对模型准确率产生一定影响。从测评结果可以看出,相对于C-T (Conv) small模型,C-T (Conv) big模型的字错误率降低0.09%;C-T (Conv+Attention) big模型较于C-T (Conv+Attention) small模型,在字错误率上降低0.07%。2组实验均表明,参数规模的扩大,在一定程度上能提高模型识别准确率,提升模型的性能。
(2)Attention机制对卷积模块具有一定的修正作用。相对于无Attention机制的C-T small模型,加入Attention机制的C-T small模型的字错误率降低0.26%;相对于无Attention机制的C-T big模型,加入Attention机制的C-T big模型的字错误率降低0.24%,识别准确率达到92.09%。2组实验均表明,Attention机制在一定程度上能对卷积模块的解码结果进行修正,从而提高模型的识别准确率。 4. 融入面向铁路旅客服务应用的文本处理机制
在铁路旅客服务中,客服人员与旅客进行语言交互,形成音频信息。而铁路旅客服务中语言交互内容往往对应着特定的文本信息,如铁路出行条例汇编、旅客常问问题库等。为此,可考虑利用领域特征文本信息来辅助语音识别,在语音识别模型中加入文本处理机制。针对特定的铁路旅客服务语音识别应用,除了对语音识别模型进行改进和基于领域特征数据集训练外,进一步结合以下2种文本处理机制进行定制化处理。
(1)语言模型:语言模型的作用是通过计算一句话的概率来判断该语句的语序是否通顺,分为统计语言模型和神经网络语言模型2种类型。统计语言模型是通过计数的方式对概率进行求解,而神经网络语言模型是通过神经网络进行建模求解,但两者都是基于模型对输入文本进行概率预估。最常用的统计语言模型是n-gram语言模型,该模型认为当前词与前面的n-1个词有关,但该模型没有充分考虑词与词之间的关系,容易导致数据稀疏;为了解决数据稀疏的问题,研究人员提出了神经网络语言模型,常用于构建语言模型的神经网络有:循环神经网络、长短时记忆网络、Transformer等。语言模型与语音识别模型的融合方式是,利用铁路相关语料对语言模型进行训练,再在语音识别模型的解码阶段,将语言模型进行插值融合。
(2)热词赋权:在语音识别模型中,对于常用词汇的识别效果较好,但对于特有的人名、地名或者特定领域的专有词汇来说,可能存在识别准确率不高的情况。对于这些专有词汇,可以建立语音识别任务专用的热词词典,并设置热词赋权模块,以显著提升专有词汇的识别准确率。在语音识别模型的解码阶段,除了利用语言模型进行插值融合外,还可以利用热词赋权模块对解码结果进行修正。 5. 铁路旅客服务语音识别应用实例5.1 旅客常问问题查询设备
铁路12306官方网站按照车票、购票、进站乘车等不同阶段,对旅客常问问题进行分类。旅客可根据查询需求,通过索引或使用搜索框来寻找解答,这种查询操作方式较为耗时,更适合在电脑上进行操作。目前,12306 App尚未提供旅客查询旅客常问问题的搜索框,旅客拨打12306人工客服往往需要排队等候较长时间,才能获得客服人员的问题解答。
为此,设计了一款基于语音识别技术的旅客常问问题查询设备,直接通过语音交互来完成旅客遇到的大多数问题解答,旅客无需手动输入查询条件,也不需要拨打客服电话咨询,极大地缩短旅客咨询问题的时间。铁路旅客常问问题查询设备的语音数据处理流程如图6所示。
图 6 铁路旅客常问问题查询设备的语音数据处理流程
下载: 全尺寸图片 幻灯片
该设备结合流式与非流式2种语音识别模型。其中,流式语音识别模型能够在处理音频流的过程中实时返回识别结果,适用于要求查询设备实时返回查询结果的应用场景。相对流式语音识别模型,非流式语音识别模型的识别结果更为准确,可用于修正流式模型的识别结果。
在音频编码处理阶段,将Transformer模型与Conformer模型相结合,充分结合两种模型的优点,保证长短句子的有效编码。在音频解码处理阶段,增加基于Transformer和n-gram的2种语言模型,利用铁路相关语料对语言模型进行训练。为提高音频解码的召回率,增加了CTC prefix beam search的解码过程,该解码算法可筛选出 N 条最佳解码路径。在完成音频解码处理后,增加了热词赋权模块,设置旅客常用问题热词词典,根据这 N 条最佳解码路径中包含热词的情况进行赋权加分,最终选定得分最高的那一条最佳解码路径作为识别结果。
通过搜集和整理旅客常问问题,在实验室环境对语音查询功能进行模拟测试,准确率达约为92%。 5.2 车站智能服务机器人
随着人工智能(AI,Artificial Intelligence)技术的逐渐成熟及智能机器人的应用普及,铁路车站新型智能机器人正朝着"AI+智能出行"方向发展。新型智能机器人的使用改变了传统车站只能靠人工服务和标识引导的方式开展车站旅客服务工作,使铁路旅客出行更加便捷、高效。目前,已有部分铁路车站引入智能机器人为旅客提供向导服务,同时还能提供车次、公共交通线路、天气、酒店等信息查询服务。目前,这些查询服务还需要旅客手动操作,还没有有效地结合语音识别技术。
为此,研发了"零操作"车站智能服务机器人,可通过语音交互方式为铁路旅客提供更为全面的人性化服务,车站智能服务机器人与铁路旅客的交互过程如图7所示。
图 7 车站智能服务机器人与铁路旅客的交互过程
下载: 全尺寸图片 幻灯片
车站智能服务机器人与铁路旅客的交互过程为:(1)机器人首先进行语音识别,将语音信号转化为文本;(2)通过自然语言理解技术对文本进行语义理解,将其映射为旅客对话行为;(3)对话管理模块根据旅客对话行为,结合旅客常问问题知识库内容,选择机器人需要执行的系统行为;(4)通过自然语音生成技术,生成需要反馈给旅客的自然语言;(5)机器人将合成的问题解答语音反馈给用户。
本文提出的语音识别模型主要用于实现车站智能服务机器人的语音识别功能模块,与通用的语音识别模型相比,为车站智能服务机器人定制开发的语音识别模型在识别铁路专有名词方面效果甚佳。这个语音识别模型的训练集选用铁路客服对话语料,且设置有铁路专用字典,收录了车站名、城市名、车次信息等铁路相关行业术语,以及行程所遇到问题的关键词,可显著地提高车站智能服务机器人内置的语音识别算法的适用性。车站智能服务机器人在与乘客的交互过程中,能更加准确地识别出旅客所提出的问题,例如"检票口怎么走"、"如何做人脸核验"、"怎么取报销凭证"之类的常见问题,从而给出符合旅客所问问题的解答。
除了为铁路旅客提供所在车站、车站所在城市等出行相关资讯外,车站智能服务机器人还可提供火车线路查询、车次时间、票价政策、乘车须知、失物招领、引导窗口、业务办理等客服信息,能够替代车站客服人员完成大量的旅客服务工作。 6. 结束语
本文基于RNN-T模型进行语音识别模型研究,用Conformer结构代替了RNN Encoder,并对Conformer结构的卷积模块进行了改进,并在其中加入注意力机制,弥补了卷积网络训练的缺点,可有效提高语音识别模型的识别准确率。考虑到铁路旅客服务通常都对应着特定文本信息,在语音识别模型的基础上融合了语言模型与热词赋权2种文本处理机制,使其在铁路专有名词的识别上优于通用的语音识别算法。同时,基于改进后的语音识别模型,完成了旅客常问问题查询设备与车站智能服务机器人中语音识别应用的开发。语音识别应用有助于提高铁路旅客服务水平,改善铁路旅客出行体验,还能更为有效地替代铁路工作人员完成更多旅客服务,促进铁路旅客服务工作实现减员增效。
在实际场景中,铁路旅客使用铁路旅客服务语音识别应用时,很难保证所处环境相对安静,各种复杂的声学环境会对语音识别的效果造成不良影响。此外,在日常生活中,人们说话往往也较为随意,语言习惯不一,如带有明显地方口音、经常重复、停顿或插入,不会严格遵循语法要求。对于基于标准语音训练的语音识别模型而言,要做到准确识别这类缺乏足够规范性的语音是相当困难的。因此,如何逐步提升铁路旅客服务语音识别技术的鲁棒性将是下一阶段的研究重点。
如何成为一名成功的手机摄影师?随着手机摄像头的分辨率越来越高,镜头及编辑应用程序越来越专业,手机摄影更加受大众的喜爱和关注了。除了手机摄像头本身的硬件条件之外,摄影者的拍摄水平无疑更是制约其成像效果的重要因素。
想换手机,3000左右华为小米OPPO,有哪些推荐?3000左右的华为小米oppo手机,我推荐以下几款,仅供参考一小米10。小米10为小米10周年的梦幻之作,目前很多平台优惠政策相当大,8256版本才2800就能到手。这部手机虽然已
你觉得国产手机中性价比最高的是哪个品牌?文小伊评科技我认为的,目前可以称得上极致性价比的机器主要有三款PDD上的OPPOFindX38128G版3099元,3000元档最具性价比的产品没有之一。JD上的红米Note10P
有没有伤感的手机壁纸推荐?你好,我是吃葱君,我的抖音号是专门做壁纸分享的。有需要下载壁纸的可以到我的抖音号里面下载(抖音号吃葱君)选择保存动态壁纸应用就可以。这里给你分享几张有意境的吧。更多壁纸,后期会慢慢
生孩子是不是很辛苦?大家怀孕都是怎么熬过来的?怀孕虽然是件很辛福的事,但是过程快乐也煎熬着,至于你所说的这些症状因人而异,有的人孕吐严重,有的人轻,大多数人经过三个月孕吐反应就消失了,和正常生活一样,孕中期是最舒服的时候,孕晚
十岁的孩子有什么好的办法让她主动学习?孩子要有好胜心,自己在内心里要比别的孩子强的想法,在学习上要与学习成绩好的同学较劲。有了这股劲,成绩没有不好的。这个年纪,要让孩子知道,与同学比什么,不比什么,把孩子的比较之心,引
如何穿裙子显自己腿长?要想穿好裙子,那么裙子的长度就是不争的最重要部分,很多人觉得一条裙子好看,但是自己穿上身却显得更胖了,其实都是因为裙子的长度没有选好的原因。如何选好裙子的长度呢?这个要根据你的身高
有心有余力不足的压抑感,如何缓解心理压力?心有余而力不足的压抑,说明对某件事情已经无能为力了,从而导致情绪上的压抑。这件事情,自己已经无能为力,自己又找不到解决的办法,也没有别人的帮衬,直至心力交瘁,内心压抑。压抑的情绪得
所想和所行不一样,哪个更重要?谢邀了!按理说所想重要,没有理想哪里有行动,想都不敢想哪里有行动的理由。然而,两者都很重要,光靠空想不去行动实践,也是一事无成,做人要有理想追求,理论要于实践相结合!只有实践出真知
海口哪里可以吃到美味的文昌鸡?推荐介绍你这几家海口市井老店肥婆兰鸡饭店想吃一般不贵的,就到骑楼老街的肥婆兰鸡饭店,有点大排档的味道。位于海口龙华区新华南路与新民西路交叉口东南50米。这是家老店了,唯一不足就是空
上警校好还是上军校好?选择军校还是警校,真实对比六种差异,助你做出正确选择一学校对比军校全部隶属于军队管理。军改后全国共有军校43所,其中军委直属院校2所,军兵种院校35所,武警部队院校6所。其中国防大