范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文

目标检测2。0新范式!DETRTransformer目标检测的开山之作

  1、本文速览
  本文重新审视目标检测领域存在的问题,提出了一种基于Transformer的端到端目标检测网络,没有NMS非极大值抑制、没有anchor生成等多先验知识的约束,大大简化了目标检测pipeline。在COCO数据集上与FasterRcnn性能相当,且很容易地迁移到全景分割任务上。为后续目标检测提供了一种强大的baseline。
  论文:https://arxiv.org/abs/2005.12872
  代码:https://github.com/facebookresearch/detr
  2、本文背景
  传统目标检测的流程,以faster-rcnn举例:
  训练数据集上聚类生成anchor -> backbone提取特征 -> 利用RPN网络搜寻所有的框并筛选regeion proposal -> 在regeion proposal上得到每个框的类别和置信度。
  存在的问题:
  • 训练数据集聚类预定义anchor,难以泛化到其他数据集上;
  • 在每个像素点上都枚举预定义anchor;造成大量无效的候选框,增加算法复杂度;
  • NMS过滤来自RPN产生的大量冗余框。
  基于此,DETR提出一个简洁的pipeline,无需先验知识、手工操作,通过transformer编解码结构和二分图匹配优化,直接得到目标检测框和类别属性 。
  文章的两大核心思想为:
  • 应用transformer编解码结构 ,保证了全局建模能力;
  • 二分匹配(匈牙利算法) ,确保了一一对应。
  DETR各部件总结
  3、DETR框架
  DETR包含四个模块,CNN提取特征的backbone、transformer encoder、transformer decoder和预测头FFN。
  3.1 CNN backbone
  Transformer模块与输入特征图的分辨率呈平方级关系,当输入分辨率过大时,会产生巨大的内存消耗,所以先用 CNN 进行特征提取并缩减尺寸,再输入 Transformer进行全局建模。Resnet Backbone 的输出通道为2048,特征图高和宽都变为原来的1/32。
  3.2 transformer encoder
  结构上,DETR在两个FFN层之后输出分类和BBox回归信息。Encoder和Decoder上,positional encoding在原本的transformer中是直接与input embeding相加,但是在DETR中,positional encoding 与image features 拼接到一起。DETR Decoder上,还添加自定义的object queeries查询模块。
  transformer原结构
  DETR transformer结构
  Backbone输出的特征图维度为C × HW,其中C 表示2048个token,再经过一个1 × 1的卷积进行降维,然后输入到Transformer Encoder提取全局特征关系。transformer encoder由四个部分组成:Multi-Head Self-Attention多头注意力模块、object queries查询模块、Add&Norm模块、FFN前向传播模块。
  (1)Multi-Head Self-Attention多头注意力模块
  在NLP中,自注意力机制就是通过某种运算来直接计算得到句子在编码过程中每个位置上的注意力权重,然后再以权重和的形式来计算得到整个句子隐含的向量表示。模型在对当前位置的信息进行编码时,会过度地将注意力集中于自身的位置, 因此作者提出了通过多头注意力机制来解决这一问题。
  backbone特征图进入Encoder模块后分成三份,一份直接作为V值向量,其余两份与位置编码向量直接相加,分别作为K(键向量),Q(查询向量)。
  (2)object queries查询模块
  Obeject Query可以理解为是对anchor的编码,Query的参数是可学习的。Obeject Query是query embeding,是一个torch.nn.Embedding的对象,该对象保存了固定的查找表look-up。这个模块用来保存词嵌入,且可以通过下标检索到它们。模块的输入是一个带有下标的列表,输出是对应的词嵌入。类实例化之后可以根据字典中元素的下标来查找元素对应的向量。query embeding是一个张量,维度为(num_queries,hidden_dim),num_queries是预设的最大bbox的个数,在DETR中设为100。
  (3)FFN前向传播模块
  FFN前向传播模块是由3层感知器、线性层、relu激活层组成的。其中预测框由标准化中心坐标、高度、宽度组成,线性层使用softmax预测标签类别。
  3.3 transformer decoder
  在 DETR中,作者输入100个Object Query,对应的Transformer decoder输出100个经过注意力解码后的token,经过FFN模块就能得到100个BBox框的位置和类别分数。
  4、二值图分配和损失函数
  4.1 二值图分配
  DETR如何把预测出来的100个prediction框与ground truth做匹配,然后计算损失?如何知道prediction框与ground truth一一匹配?首先将ground-truth也扩充成100个检测框,同时使用了一个额外的特殊类标签Φ来表示在未检测到任何对象,认为是背景类别。这样预测和真实都是两个100个元素的集合了。然后采用匈牙利算法进行二分图匹配,对预测集合和真实集合的元素进行计算,使得匹配损失最小。
  4.2 损失函数
  分类loss:CEloss交叉熵损失;
  回归loss:预测框与GT的中心点和宽高的L1 loss以及GIoU loss。
  5、实验
  Fastrcnn与DETR性能的比较,Fastrcnn与DETR表现相当。DETR-DC5-R101在AP上略高于Faster RCNN-R101-FPN+ 0.8个点,在AP50上略高0.8个点。
  可视化每个预测对象的解码器注意力(来自COCO val集的图像)。使用DETR-DC5模型进行预测。对于不同的对象,注意力分数用不同的颜色编码。解码器通常处理对象的四肢,例如腿和头,可以看出transformer注意力对局部特征的感知能力很强。
  DETR-R101生成的全景分割的结果。分割的细节边缘也非常清晰准确。
  在 COCO val 数据集上,与SOTA模型UPSNet和Panoptic FPN进行比较,使用与DETR相同的数据增强来重新训练PanopticFPN,以18 倍的时间表进行公平比较。 UPSNet 使用1x时间表,UPSNet-M 是具有多尺度测试时间增强的版本。
  6、结论
  DETR是一种基于transformer和二值图分类匹配损失的目标检测的新设计,可直接用于集合预测。在COCO 数据集上实现了与优化的Faster R-CNN baseline相当的结果。DETR易于实施且具有灵活可扩展的架构。此外,与Faster R-CNN 相比,self-attention对全局信息的处理,使得它在大目标上有更好的效果。这种新的检测器设计也带来了新的挑战,特别是关于小目标的训练、优化和性能。
  7、计算流程详解
  流程如下:
  (1)图片预处理后维度(1,3,800,1066),输入resnet50:(1,2048,25,34)。1*1卷积降维提取提取特征,特征图的维度(256,25,34);
  (2)row_embed与col_embed两个position embeding向量维度均为(50,128),backbone的输出的特征图尺寸不超过50*50。1*1卷积的划分row_embed与col_embed;
  (3)分别复制row_embed:(25,128) col_embed(34,128)到相应维度到(25,34,128),concat得到position_embed (25,34,256)。把position_embed(850,256)的850个位置编码向量展平。
  (4)将1*1卷积的特征图原本C*H*W的编码改为H*W*C的编码。将词嵌入向量与position_embed相加,得到包含了位置信息的词嵌入向量。给定输出框个数为100个,即query_pos为100。
  (5)将(4)中得到了词嵌入向量与训练好的object queries直接输入到transformer网络中。transformer的输出(100,1,256)。将transformer的输出分别输入到FFN,分别进行类别的回归和边界框。
  微信公众号关注视觉算法学堂,带你学习更多人工智能CV技术干货!

2个多月,终于等到了!37岁的霍华德,又有了辅佐三巨头的机会前言出道即巅峰的霍华德,虽在最当打的年纪里,有着单换勒布朗詹姆斯的能力。但是,作为一名内线出身的球员,他却不得不面临更多的伤病。至此,在过去六个赛季当中,达到了一年换一支队伍的境地刚又跳水!牛市旗手集体重挫,2600亿巨头大跌13!俄罗斯警告美国!国家统计局最新发布中国基金报颜颖大家好又到了美好的周五,来一起祈祷今天的市场能实现绝地反弹首先来看A股的开盘情况9月16日上午,A股主要指数继续低开,上证指数低开0。32,创业板指跌0。24。盘面上伦敦夺冠获300万豪宅奖励,十年过去,张继科的豪宅涨了多少钱?张继科,曾经让无数对手闻风丧胆的存在,2011年的伦敦奥运会,张继科也是迎来了自己最巅峰的时期,张继科也开启了自己的最快大满贯记录之旅。2011年,世乒赛,张继科在决赛42击败了王5年后再看孔令辉!身材发福至今单身,王皓马琳都比他幸福说到孔令辉王皓马琳相信很多球迷朋友不陌生,他们都是非常出色的国乒人,职业生涯都拿到了很不错的成绩。经常关注国乒的球迷都知道孔令辉和刘国梁一样都夺得了属于自己的大满贯,王皓和马琳在球奥运村发的避孕套,都被谁用了?之前有外国选手晒出奥运村免费TT。这让人想起去年的东京夏季奥运会,因为疫情原因,禁止运动员握手。但是让人惊讶的是,在这种严苛的规定下,选手村内依然免费派发了15万个TT。撑开后会发早田希娜击败削球手,展现统治力,徐海东和吴洋晨双打晋级WTT阿拉木图站挑战赛女单第二轮,早田希娜30击败瑞典削球手伯格斯特隆。这场比赛早田希娜在第三局比赛大比分落后的情况下,将比分逆转。这体现出了早田希娜控制比赛的能力,要不然不可能逆那些大面积纹身的女孩最后嫁给了谁?今早去永和大王吃早餐,偶然碰到一对情侣,其中女孩特别有个性,身材不错长相标致,可身上有大面积纹身花臂花背正面胸口大腿小腿把我惊讶到了。纹身是有其特殊意义的和历史的。即使在现代社会,中国邮政,让沃尔玛左右为难说起沃尔玛大家都不陌生,这家来自美国的世界性连锁商超,曾连续8年在世界500强企业中称霸榜首,自1996年正式登陆中国市场以后,历时11年就在国内发展了超过100家的线下店铺。沃尔扒一扒乔治娜的少食多餐减肥法,到底好不好用?最近一姐刷到了C罗女朋友乔治娜参加了威尼斯电影节活动的最新动态。其实单这件事本也没什么可说的,可乔安娜的一波致敬赫本直接让国内外的网友们炸锅了。绝大多数的网友们都并不买账,反而觉得怎么样活着?当你想躺平的时候,看看你的存款。如果你已经满足你的存款,那就出去走走。如果你已经走遍全世界,走遍天下,那就停下来回到原处。回到原处如果你还是想躺平,那就去医院看看,看看那些危重病人养眼时候到了。。
闯入南海的澳大利亚反潜机,被歼16狠狠的教训,这次中国干得漂亮6月5日,澳大利亚国防部透露,一架中国歼16重型多用途战斗机于5月26日在国际空域进行例行巡逻时,靠近澳大利亚皇家空军P8反潜侦察机。澳大利亚国防部表示中国歼16多用途战斗机,在与广东省委深圳市委深刻吸取教训6月1日,据中央纪委国家监委网站消息,广东省人大常委会党组成员副主任陈如桂涉嫌严重违纪违法,目前正接受中央纪委国家监委纪律审查和监察调查。据南方日报消息,6月1日,广东省委常委会召家里这3种东西,不要放在电视机旁!不是迷信,是经验和教训现在生活条件好了,家里的各种家具电器都很齐全。不光是家具家电,很多人的家里还有不少装饰品,它们点缀着我们的家,让家更温馨更美观。但是有些物品的摆放还是有讲究的,并不是想放在哪就放在我国为何不接收难民?不是我们狠心,历史的教训可谓是历历在目文骡子科普啦编辑骡子科普啦我国与阿富汗是邻国,为何他们的难民非但不来我国?还要冒着生命危险爬上美国的飞机?如果这些难民来到我国,我们是否会收留他们呢?提到难民,大家最先想到的是什么怡亚通,从上周五的日志推断看这周的走势今天是6月1日,周三。关于怡亚通,不少网友一天一问,甚至盘中早盘一问,午盘一问,这支撑位,那阻力位有的网友比较明白,说,上周五的日志中都写了啊,没错,这回答显然是认真看了日志,起码波兰挑衅俄罗斯,叫嚣要保护芬兰和瑞典,乌克兰的教训忘了?据观察者网报道称,波兰总理拉莫维茨奇在近期表示,一旦芬兰和瑞典在加入北约的过程中遭到了来自外部的军事打击,那么波兰将会为这两个国家提供军事保护。波兰此举针对的国家无非就是俄罗斯,同数读丰田4月未完成全球75万辆生产目标,5月更不乐观?文懂车帝原创魏微懂车帝原创行业5月30日,丰田汽车发布最新产销数据表示,由于新冠肺炎疫情和零部件短缺减缓了复苏进程,4月份,丰田全球汽车销量同比下降11。1至76。37万辆全球汽车家里为什么不能养虎皮兰?原因有2点,不是误导,而是教训和经验在养花种草成为一种潮流之后,年轻人觉得养什么花草植物只是个人的自由而对于生活经验更加丰富的中老年人来说,养什么花草植物不能只看自己的喜好!我们既要保证植物对自己和家人不会产生心灵以人教版插画问题触目惊心,这不仅仅是某些专家口里的审美观问题如图所示,本文包含猥亵儿童,袭胸,暴露,撩裙子,胸部特写等儿童色情及软色情行为,如有不适,敬请谅解,如果觉得我的图片问题还不能充分说明问题,欢迎爱国网友们评论区补充。如图,估计突出高考生晒出140根空笔芯,你有多久没用完过一根了?高考即将到来,考生们纷纷摩拳擦掌,为这场人生中最重要的考试而应战。这段奋斗的岁月,值得每一位学生纪念,有仪式感的学生们也在用自己的方式,来为青春画下圆满的句号。学生仪式感有多强?这肿瘤医院院长患肝癌,抗癌16年无复发,总结出3个感悟,发人深省时代楷模白求恩奖章获得者第四届广东省道德模范作为广州复大肿瘤医院院长,徐克成拿过很多奖项,但是若是问他具体有哪些,他可能已经记不清了。无论拿过多少奖项,他都始终坚持救治癌症患者的初