范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文

CoText对比表征学习实现实时端到端视频文本识别

  本篇论文收录于eccv2022
  论文题目:Real-time End-to-End Video Text Spotter with Contrastive Representation Learning
  论文地址:
  https://arxiv.org/abs/2207.08417
  摘要
  视频文本识别(VTS)是一项需要同时实时检测、跟踪和识别视频中的文本。视频和文本识别方法通常会有复杂的pipeline以及多个模型,这对于实时应用来说不友好。本文提出了一种具有对比功能的表示学习(CoText)实现 实时端到端视频文本识别。贡献有三方面:1)CoText同时处理三个任务(检测、跟踪、识别)。2)在对比学习中,建模了文本 长期依赖关系和跨多个帧学习时间信息。3) 简单、轻便结构设计,包括GPU并行检测和后处理、基于CTC的识别具有掩码RoI的识别头。大量实验表明,该方法具有优越性和可靠性。CoText实现了视频文本的定位任务在视频 数据集ICDAR2015上实现41.0 FPS,ID F1为72.0%,和以前的最佳方法相比提升 分别为10.5%和32.0%。
  1 导言
  视频文本识别是许多计算机视觉应用中的一项基本任务,如视频检索、视频字幕和视觉问答。尽管该任务最近取得了巨大进展,现有方法仍有一些局限性。首先,视频文本识别任务要求在视频中 同时检测、跟踪和识别文本。但大多数现有的工作将这三个子任务作为单独的任务来处理。例如TransVTSpotter处理文本检测任务的每个帧,然后将类似的文本实例在相邻帧中 通过IoU匹配,最后,使用单独的识别模型重新识别每个文本,复杂pipeline设计导致推理速度慢,妨碍实时应用的部署,其次,大多数现有方法仅处理相邻帧的时序信息,不利于长时间的跟踪。
  因此,如何设计简单而有效的端到端视频文本识别框架是一个尚未解决的巨大挑战。最近,基于对比学习的研究显示了对比学习解决视频和文本跟踪任务 问题的潜力,但这些工作只关注在没有长距离时间信息的相邻帧中 解决跟踪问题,本文中,提出了一种具有对比表示学习的视频文本识别器(Cotext),它在实时端到端可训练框架中 处理三个子任务(检测、跟踪和识别)。
  与现有视频文本识别方法相比 ,提出的方法具有三个优点。首先,如图1所示,与前面使用复杂pipeline的方法不同使用的pipeline相当简单(三个子任务只有一个统一模型),没有许多冗余组件,即NMS、CNN特征提取器用于识别任务。CoText支持端到端的可训练视频文本识别,有三个头,即检测头、跟踪头和识别头;第二,与以前使用两帧信息的工作不同,CoText 建模长期依赖关系,并跨多帧 对比学习(超过10帧)。明确地对比学习用于最大限度地提高相同文本之间的一致性,并最大化不同文本之间的差异(负样本对)在整个视频的长距离中;最后,为了实现高效率,设计了一种简单、轻量级的架构,以实现有效和准确的性能,一种用于像素聚合的GPU并行后处理,一种轻量级识别具有掩码RoI和少量计算的跟踪头(对比学习)用于CoText 。
  为了证明CoText的有效性,在三个任务(即文本检测、跟踪和端到端视频文字识别)的四个具有挑战性的基准数据集进行了实验。在ICDAR2015(视频)数据集上,CoText的端到端文本定位IDF1达到72.0%,比先前的SOTA方法TransVTSpotter推理速度快了4倍,对于输入图像的短边 640像素,CoText达到59.5fps,比最好的快50.5fps,在端到端视频文本识别IDF1为67.6%,高于先前的SOTA方法。
  主要贡献总结如下。
  1) 第一次端到端可训练框架 同时处理三个子任务(文本检测、跟踪、识别)
  2) 与现有的工作不同,CoText模型具有长期依赖性以及跨多帧(多于10个帧)对比学习 学习时间信息。
  3) 通过简单、轻量级的架构,CoText在四个公共数据集上以更快的速度实现了最先进的性能。特别是在ICDAR2015视频文本跟踪任务 上实现72.0%的IDF1和41 FPS,与以前的SOTA方法相比,性能提高了10.5%。
  2 相关工作
  2.1文本检测和跟踪
  基于深度学习的最新方法带来文本检测的巨大进步。CTPN采用fasterRCNN和修改的RPN来检测水平文本,EAST用FCN以anchor-free方式预测文本得分图、距离图和角度图,PSENet和PAN将文本实例视为具有不同尺度的核,并在后处理中重构整个文本实例,基于视频的文本检测方法侧重于具有时间信息的有效视频文本检测,Free和YORO通过选择来自文本流的最高质量文本实现 视频文本检测,SAVTD通过引入了字符中心分割和分类分支 方式检测视频文本。
  现有的文本跟踪方法遵循匹配跟踪,首先检测视频中的每个帧,然后将通过各种匹配策略(IoU、转录)实现相似文本关联,ASGD引入了一个新的字符中心分割分支,并提取了语义特征,对字符的类别和位置进行编码,SVRep利用识别的语义序列特征跟踪文本,这些方法被设计用于单独解决视频文本跟踪问题,通常没有文本识别结果,它们的推理速度很慢,无法实时应用程序。本文的方法不仅提高了文本跟踪识别性能 ,还集成了识别模块,提出的框架用于构建视频文本识别的统一模型。
  2.2 端到端视频文本识别
  视频文本识别需要同时检测识别文本。如图1所示,典型的基于场景和文本的深度学习方法,TransVTSpotter介绍了一种基于转换器的文本跟踪器,它通过基于IoU的最佳匹配来关联文本,然后用另一个单独的识别模型识别最终文本内容,上述方法包括多个模型和组件(例如NMS、匹配策略),与这些方法不同,如图1所示,提出的CoText是第一个具有统一可训练模型的实时端到端视频文本识别框架,该框架提供了一个非常简单的pipeline。
  2.3 对比学习
  长期以来,对比学习一直是针对视觉的研究任务。这些方法通过增加负样本对距离和压缩正样本对距离来学习视觉表示,SimCLR学习合成数据增强后对比图像 特征,MoCo是另一种训练前的方法,重点是构建动态字典,以促进对比学习,对于视频文本跟踪任务,SVRep和ASGD采用对比学习,通过最大化视频中相同文本之间的一致性 来关联文本实例,在这项工作中,我们首先尝试使用对比学习对视频序列中的长距离相关性进行建模来 解决端到端视频文本识别任务。
  3 本文方法
  3.1 总体架构
  与之前的工作不同,CoText是一种端到端可训练的视频文本识别任务框架。整个pipeline如图2,该架构包括一个主干(即ResNet18)、FPN,上采样、掩码roi和三个头,即检测头、跟踪头,识别头。FPN、上采样和roi分别来自DB、PAN++,在推理阶段,对于一个视频序列,每个帧图像首先送到特征金字塔主干(ResNet18)和FPN,然后上采样到相同比例并级联以产生特征F,其大小为H/4×W/4×512。对于文本检测,特征F通过GPU并行输入检测头用于预测文本区域。
  在文本识别中,首先将特征图F的通道数减少为128,通过3×3卷积,然后使用掩码RoI提取带有旋转文本框 特征,最后,轻量级识别head用于识别每个文本块的文本内容,对于文本跟踪,首先从识别头获取语义特征,从掩码RoI的特征块提取特征,提取检测框坐标中的位置特征,三个特征的大小相同128,将它们合并以获得最终的特征表示R,然后最终的跟踪结果可以通过对相邻帧中每个文本对的特征R 使用Kuhn-Munkres(KM)算法得到,结合这三个头,CoText可以同时预测多方向框、跟踪id和识别结果形成一个统一模型,在训练期间,使用三个损失函数(即Ldet、Lrec和Ltrack)进行优化,使用Ltrack 学习远程时序信息,使用对比学习来最大化相同文本之间的一致性。
  3.2 文本检测
  根据基于分割的方法,kernel representation用于检测文本。对于每个给定的文本行,首先通过文本定位它内核(文本行的中心区域),然后,像素聚合(PA)算法通过以下方式重建文本行的完整形状:聚合文本内核周围的文本像素,与原始像素聚合不同,我们提出了一种GPU并行像素聚合,它在保持相同性能的同时,提供了更快的推断速度,算法1总结了GPU并行像素聚合算法的细节,提出的GPU并行象素聚合主要有两个区别和改进:1)GPU加速连接组件标记(CCL),用于区分不同的文本核;2) 与原始像素不同具有低效像素队列搜索(CPU操作)的聚合算法,提出的PA算法采用单指令多数据(SIMD)执行像素聚合,是一种多线程并行计算。
  3.3 文本跟踪与对比学习
  现有的视频文本跟踪器主要关注没有长距离时间信息的相邻帧 内容的文本匹配问题。与这些方法不同,作者建议对跨多个帧的长期相关性进行建模,给定的文本实例ti它们属于跟踪序列Tm,Tm包含多个文本实例{tm0,…,tml},其中l是跟踪的序列长度,对于输入视频序列帧V,一组文本实例I={t0,…,tN}可以从它们对应的跟踪T={T}0,…,T}中采样,将同一跟踪中的任何两个文本定义为正样本对,对于不同跟踪的任何两个文本,我们称之为负样本对,如图3所示
  CoText通过建立长期依赖关系模型增加负样本对距离并压缩正样本对距离,对于L跟踪序列的N个文本实例,正样本对的对比损失函数定义为:
  这个公式就是对比学习的基础损失函数infonce,其中ti和tj是同一跟踪Tm中的正样本对。[tk/∈Tork=j]和[ti,tj∈Tm]是指示函数,τ表示温度参数,控制向量之间的余弦相似性的缩放,S(i)表示整个批次中所有正对的数量,而sim(u,v)表示两个向量u和v之间的余弦相似性,类似于SVRep,Fθ(·)是判别函数,学习高维特征嵌入R,如图2和图3所示,每个文本具有检测和识别头的语义和视觉表示,总结其形式如下:
  其中R是最终特征输出,其大小为128×1×1.Fp(·)Fv(·)和Fs(·)表示位置编码器、视觉编码器和语义编码器,对于文本实例ti,Posti是一个4维向量(xLT、yLT、xRB、yRB),分别表示左上和右下,RoIti为来自掩码Roi文本ti的固定大小特征块(大小:128×8×32),Seqti是文本ti的顺序特征,从识别头中的BiLSTM的输出中提取,conv和Concat分别是卷积和连接操作。
  不同于先前的相邻水平对比学习方法(SVRep、ASGD),我们的方法覆盖整个视频片段,如图3所示,相同跟踪中所有文本的特征嵌入R在嵌入空间中应趋于接近。例如,跟踪序列T0包括六个文本实例,即"USH"、"USHIP"、"USHIP"、"USHIP "、"SHIP"、"SHIP",呈现相同的语义信息,尽管一些文本对(例如"USH"和"SHIP")有巨大的信息差异,人类仍然可以将它们联系起来,我们期望模型通过对比正对,学习文本的合适特征嵌入R,与SVRep类似,融合文本三个属性(即位置、语义和视觉信息)的判别函数Fθ(·),受益于共享主干网,跟踪头是一个轻量级模块,包括三个编码器共有6层卷积。
  3.4 文本识别
  与之前使用基于注意力的识别头的图像级文本识别器不同,例如PAN++和ABCNet,我们建议使用基于CTC的识别分支。使用基于CTC的识别有两个好处:1)使用并行解码的推理时间更短。2) 更好的跟踪性能得益于Seqti更丰富的语义表示。稀疏语义表示Seqti(固定尺寸:w×nclass),基于注意力的识别的头通常缺乏丰富的语义,序列长度远小于w,这对跟踪任务不利。基于CTC的对应序列是一个密集序列,具有重复标签和"空白"的特征,这是丰富的相关语义信息。实验中提供了相关消融研究章节和补充材料。
  如表1所示,受益于共享主干功能和掩码RoI,基于CTC的识别分支非常轻量,包括2个卷积层中,1个双向LSTM(BiLSTM)和1个全连接层。为来自掩码的文本提供一个特征块(大小:n×128×h×w),对于RoI,我们首先使用2个卷积层将h减小到0,然后使用1个BiLSTM层 提取序列特征Seqti。最后,使用全连接层,使用CTC训练识别头。类似于ABCNet和PAN++,在训练中,使用box GT提取RoI特征以进行稳定优化。在推理阶段,用检测到的框替换RoI区域。
  3.5 损失函数
  损失函数如等式4
  其中Ldet、Lrec和Ltrack是文本检测、识别和跟踪的损失函数。σ1、σ2和σ3是三个可学习的参数,σ1+σ2+σ3是噪声项的正则化因子。Ldet是PAN++中的分割损失。
  4 实验
  视频文字检测
  视频文字跟踪
  端到端视频文字识别
  视频序列长度消融实验
  不同识别头
  速度测试
  V100 GPU的速度
  5 结论
  提出了一种实时的端到端视频文本对比表征学习识别框架 。CoText同时处理文本检测、跟踪和识别 三个任务,具有轻量级架构,主干、有效检测头、跟踪头和识别头,CoText在跟踪任务 实现了68.6%的IDF1,用于视频ICDAR2015上的文本识别任务的IDF1达到了72.0% ,分别比先前的SOTA方法 改进了2.5%和11.5%。希望高性能方法可以应用于更多的视频和语言任务。
  总结
  最近在想视频中的目标识别怎么综合利用视频信息,就看到了这么一个端到端的网络,但是还是有点臃肿,只适合服务器用,期待更多轻量级的工作。

贪欲无能,让足协陈主席坠入深渊今年情人节最大的鲜花,莫过于老陈被抓,这个纪委送给全国球迷的礼物了。足协陈主席,1956生人,今年67岁。原本可以于2021年,在上港集团董事长职位上退休,安享晚年的,可惜出人意料小阳春频传,楼市又行了?最近,一些重点城市相继曝出楼市升温的新闻。上海房产中介圈则流传着这样一句话,疫情三年,涨回来只用了一周。这也得到了部分的媒体的证实,上周六大雨,带一组客户看了三套房,后来一天之内其挖掘优质股11条顶级思维淡市莫估底,旺市莫估顶光年FX金融分析师财经媒体人业余研究交易技术分析。掌握一手最新前沿科技资讯,向您分享最深度的行业洞见。以下内容来自Just2Trade捷仕。1。设定好现在股票箱的压力支撑后,就可以万智牌A23非瑞克西亚炼金牌表写在前面虽然炼金恶评如潮,但首先最近MTGA涌入了一部分新玩家,他们没有义务对炼金站反对立场,其次炼金现在成为了MTG竞技比赛的一部分,部分玩家需要研究炼金,以便参与比赛。所以我们卧茎景天能吃吗?卧茎景天在北方地区是一种比较常见的地被植物,它一般是代替草坪栽种在绿化带中。它一般是在夏天的时候开花,它的花朵是黄色的,像是一颗小星星挂在它的枝条上面,具有很不错的观赏价值。卧茎景湖北省医疗器械生产分级监督管理规定出台湖北省医疗器械生产分级监督管理规定第一章总则第一条为进一步加强医疗器械生产监督管理工作,落实各级药品监管部门监管责任,建立健全科学高效的监管模式,保障人民群众用械安全,根据医疗器械哈尔滨四岁男孩淘气堡受伤,伤口深达肌层现如今,各种儿童游乐设施项目层出不穷,形状各异花样翻新的淘气堡,深受孩子们的喜欢,可这些淘气堡真的安全吗?如果孩子在淘气堡受伤,又该怎么办呢?前段时间,哈尔滨市一个4岁的男孩,就在和林微纳2022年净利3961。95万元同比下降61。66中证智能财讯和林微纳(688661)2月27日晚间披露2022年度业绩快报,公司实现营业收入2。88亿元,同比下降22。06归母净利润3961。95万元,同比下降61。66扣非净利不可一世的小沈阳,也走到了今天还记得那个在2009年不差钱中,有点娘娘腔的小沈阳吗?一句眼睛一闭一睁就过去了哈让观众印象深刻。小沈阳也通过自己恩师赵本山的提携,从屯里名不见经传的农村小伙变成了炽手可热的演员。自刚刚,东风纳米诞生了!近日,有关东创紫联(武汉)新能源科技有限公司(以下简称东创紫联)发生工商变更,企业名称变更为东风汽车纳米科技有限公司(以下简称东风纳米)的消息引发行业舆论风暴。此次更名,既是关键节嘎子一场直播收割几百万,就靠在2023年卖山寨机?在电视里,小兵张嘎演绎的是正义的英雄,而在现实中,把鬼子引进村的,却是饰演张嘎的谢孟伟。价值几百元的手机,在直播间声称8999元,再以1999的超值优惠卖给家人们。嘎子哥凭借一己之
台军频繁军演影响生计台东渔民炸锅了华夏经纬网6月7日讯据台湾中时新闻网报道,台中科院与台军方在东南部海域密集演习,今年1月到5月实弹射击多达147天,台东渔民无法出海捕鱼,影响生计台湾地区民意代表廖国栋6日邀集台防CIES身价前100更新姆巴佩2。06亿欧居首,孙兴慜在列ampampamp梅罗落榜直播吧6月7日讯CIES在不久前更新了球员身价情况,刚刚和巴黎续约3年的姆巴佩重回榜首,共计15人上亿,孙兴慜则是前100中的唯一亚洲球员。而梅西C罗内马尔本泽马莱万范迪克等名将均当前任请求添加你为好友漫画匡北北文百芜baiwu每天分享有趣漫画,更多情感小美文及投稿欢迎关注同名公众号吐舌吐舌当朋友列表里面蹦出来前任的好友申请时,你的第一反应是什么?情侣间分分合合是常有的事,和好吧美国人民正在勒紧裤腰带过日子!中美关系将缓和,拜登还有后招?在中美两国亚太政治博弈进入白热化之际,美国企业究竟还要为拜登政府重返亚太的构想付出多少代价?这是美国前总统唐纳德特朗普2017年退出跨太平洋伙伴关系协定2018年对华发动贸易战争,尽锐出战皖美守沪6月6日下午,位于巢湖中庙的安徽省援沪医疗队隔离酒店里,195名来自援沪方舱医疗队队员们刚刚结束返皖后的14天隔离,很快就将回到各自工作岗位,沪皖一家亲,抗疫一体化,他们在上海用5波兰支援T72坦克已上战场,车体表面堆满反应装甲,俄军敌人不少俄罗斯是在2月24日当天发起对于乌克兰的特别军事行动的,如今这场特别军事行动已经持续了超过百天时间,可以看出在马里乌波尔亚速钢铁场的战斗结束之后,俄罗斯也将更多的精力聚焦在乌克兰东用小号擦边失败后,杭州郑女士已退圈,作品停更放弃做网红因为一则新闻报道靠着郑女士说得对的梗,意外走红的网红杭州郑女士红得很快,不过凉得也很快。其实像杭州郑女士这样现象级的网红,如果没有把握住机会大多数都只是昙花一现。在经历走红之后,目路易小王子喜欢爷爷,主动要坐腿上,威廉先征得查尔斯同意被热议当地时间6月6日,威廉王子和凯特王妃所拥有的社交媒体账号发布了一组照片,回顾了一下过去几天的经历,以及留下的美好瞬间。其中一张照片中,穿着白色连衣裙的凯特蹲在红地毯上,旁边站着她和9种再便宜再好看也不要买的床!大床的选择避坑指南值得看床是陪伴人时间最长的家具,好的床不仅让你睡得舒适,更能让你睡出健康。反之,不好的睡眠不仅让我们的睡眠质量变差,更是影响健康的重要原因。那么,你会挑选一张更好看更舒适的床吗?在买床时湖北武汉绝色美女汪丽萍在红楼的前尘往事(十六)引子(曾经厦门的红楼里有一位来自湖北武汉的绝色美女,她那清澈明亮的瞳孔,弯弯的柳眉,长长的睫毛微微地颤动着,白皙无瑕的皮肤透出淡淡红粉,薄薄的双唇如玫瑰花瓣娇嫩欲滴,她就是有着绝世5年后,房子是随便挑还是更买不起?1978年,土地产权化商品房等概念陆续被提出,标志着我国正式进入房地产发展的阶段。如今40多年过去了,我们见证了楼市的发展历程,同时房地产市场也进入了不惑期。记得前首富王健林曾经说