范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文

目标检测干货多级特征重复使用大幅度提升检测精度(文末附论文下载)

  计算机视觉研究院专栏
  作者:Edison_G
  近年来,在利用深度卷积网络检测目标方面取得了显著进展。然而,很少有目标检测器实现高精度和低计算成本。
  公众号ID ComputerVisionGzq
  一、简要
  近年来,在利用深度卷积网络检测目标方面取得了显著进展。然而,很少有目标检测器实现高精度和低计算成本。今天分享的干货,就有研究者提出了一种新的轻量级框架,即多级特性重用检测器(MFRDet),它可以比两阶段的方法达到更好的精度。它还可以保持单阶段方法的高效率,而且不使用非常深的卷积神经网络。该框架适用于深度和浅层特征图中包含的信息的重复利用,具有较高的检测精度。
  二、背景
  (a)仅使用单尺度特征进行预测,(b)整合来自高级和低级特征图的信息,(c)从不同尺度的特征图生成预测,(d)就是今天分享的多层特征重用模块可以获得不同尺度的特征图。
  Shot learning
  在深度学习领域,特别是目标检测领域,数据集的建设是至关重要的。进行了许多优秀和有价值的研究,改进了多元数据集的理论和实践。有研究者创建了一种有效的从Web学习方法来解决问题的数据集偏差,没有手动注释。这可能提供了一种帮助zero-shot学习的方法。zero-shot学习研究的主要问题是目标分类问题和目标检测问题。目前,在zero-shot学习中仍存在一些需要解决的问题,如domain shift problem, hubness problem和semantic gap问题。zero-shot学习通常将视觉特征嵌入其他模态空间,或将多个模型空间映射到一个共同的潜在空间,使用最近邻思想对看不见目标进行分类,这对目标检测器有很高的需求。
  One-shot学习的目的是从一个或只有少数的训练图像中学习有关目标类别的信息。与zero-shot学习不同,One-shot学习依赖于先验知识,比如物体识别,它需要对形状和外观的先验知识。
  三、新框架
  SSD分析
  SSD和Yolo一样都是采用一个CNN网络来进行检测,但是却采用了多尺度的特征图,其基本架构如下图所示。下面将SSD核心设计理念总结为以下三点:
  (1)采用多尺度特征图用于检测
  所谓多尺度采用大小不同的特征图,CNN网络一般前面的特征图比较大,后面会逐渐采用stride=2的卷积或者pool来降低特征图大小,这正如上图所示,一个比较大的特征图和一个比较小的特征图,它们都用来做检测。这样做的好处是比较大的特征图来用来检测相对较小的目标,而小的特征图负责检测大目标,如下图所示,8x8的特征图可以划分更多的单元,但是其每个单元的先验框尺度比较小。
  (2)采用卷积进行检测
  与Yolo最后采用全连接层不同,SSD直接采用卷积对不同的特征图来进行提取检测结果。对于形状为 的特征图,只需要采用 这样比较小的卷积核得到检测值。
  (3)设置先验框
  在Yolo中,每个单元预测多个边界框,但是其都是相对这个单元本身(正方块),但是真实目标的形状是多变的,Yolo需要在训练过程中自适应目标的形状。而SSD借鉴了Faster R-CNN中anchor的理念,每个单元设置尺度或者长宽比不同的先验框,预测的边界框(bounding boxes)是以这些先验框为基准的,在一定程度上减少训练难度。一般情况下,每个单元会设置多个先验框,其尺度和长宽比存在差异,如图5所示,可以看到每个单元使用了4个不同的先验框,图片中猫和狗分别采用最适合它们形状的先验框来进行训练,后面会详细讲解训练过程中的先验框匹配原则。
  SSD的检测值也与Yolo不太一样。对于每个单元的每个先验框,其都输出一套独立的检测值,对应一个边界框,主要分为两个部分。第一部分是各个类别的置信度或者评分,值得注意的是SSD将背景也当做了一个特殊的类别,如果检测目标共有 个类别,SSD其实需要预测 个置信度值,其中第一个置信度指的是不含目标或者属于背景的评分。后面当我们说 个类别置信度时,请记住里面包含背景那个特殊的类别,即真实的检测类别只有 个。在预测过程中,置信度最高的那个类别就是边界框所属的类别,特别地,当第一个置信度值最高时,表示边界框中并不包含目标。第二部分就是边界框的location,包含4个值 ,分别表示边界框的中心坐标以及宽高。但是真实预测值其实只是边界框相对于先验框的转换值(paper里面说是offset,但是觉得transformation更合适,参见R-CNN)。先验框位置用 表示,其对应边界框用 $表示,那么边界框的预测值 其实是 相对于 的转换值:
  习惯上,我们称上面这个过程为边界框的编码(encode),预测时,你需要反向这个过程,即进行解码(decode),从预测值 中得到边界框的真实位置 :
  然而,在SSD的Caffe源码实现中还有trick,那就是设置variance超参数来调整检测值,通过bool参数variance_encoded_in_target来控制两种模式,当其为True时,表示variance被包含在预测值中,就是上面那种情况。但是如果是False(大部分采用这种方式,训练更容易?),就需要手动设置超参数variance,用来对 的4个值进行放缩,此时边界框需要这样解码:
  综上所述,对于一个大小 的特征图,共有 个单元,每个单元设置的先验框数目记为 ,那么每个单元共需要 个预测值,所有的单元共需要 个预测值,由于SSD采用卷积做检测,所以就需要 个卷积核完成这个特征图的检测过程。
  新框架(MFRDet)
  如上面所述,有许多利用尝试观察和充分利用金字塔特征。图(b)显示了最常见的模式之一。这种类型经过了历史验证,大大提高了传统检测器的性能。但是这种设计需要多个特征合并过程,从而导致大量额外的计算。
  今天分享的框架提出了一种轻量级、高效的多级特征重用(MFR)模块(如图(d)所示)。该模块能够充分利用不同尺度的特征图,集成了深、浅层的特征,提高了检测性能。特征重用模块可简要说明如下:
  S的选择:
  在初步设计它们时,需要考虑以下几个关键因素。首先,应该选择要重用的图层。在传统的SSD中,作者部署了conv4_3、fc7和另外四个SSD层进行预测。6个选定的特征地图的比例表包括38 38、19 19、10 10、5 5和1 1。在不同的SSD中,这些层是独立的,今天这个研究者不同意。研究者相信,小尺度特征图中存在的语义信息在尺度变换后的检测中仍然有效。选择了六个预测层和conv5_3层作为框架要重用的源层。从下表中,可以得出一个明确的结论,即重用conv3_3将降低检测精度。高分辨率特征图没有足够的高级语义信息,因此放弃了对其信息的重用。
  Ti的转换策略:
  在传统的SSD中,规模为38 38、语义信息很少的浅层conv4_3负责小目标识别。conv4_3层被设置为需要包含更深层语义信息的基本层。策略因特征图的标准而不同。首先,对每个源层应用Conv1 1来减小特征尺寸。然后,在Conv1 1层后,通过双线性插值,将尺度小于38 38的层(四个SSD_layers和fc7层)放入相同大小的38 38中。这样,所有的源特性都会转换为相同的大小。
  Ψt的选择:
  在转换策略Ti的过程完成后,创建了新的变换特征图。它们是conv4_3、conv5_3、fc7、conv8_2、conv9_2、conv10_2和conv11_2。有两种方法可以将新转换的特征映射合并在一起。通过实验验证,这两种方法都能得到良好的结果。从上表中,可以了解到连接似乎更适合我们的模型。
  四、实验
  在coco数据集上的检测可视化结果
  THE END
  转载请联系本公众号获得授权
  计算机视觉研究院学习群等你加入!
  计算机视觉研究院主要涉及深度学习领域,主要致力于人脸检测、人脸识别,多目标检测、目标跟踪、图像分割等研究方向。研究院接下来会不断分享最新的论文算法新框架,我们这次改革不同点就是,我们要着重"研究"。之后我们会针对相应领域分享实践过程,让大家真正体会摆脱理论的真实场景,培养爱动手编程爱动脑思考的习惯!
  计算机视觉研究院
  公众号ID ComputerVisionGzq
  论文下载| 回复"MFR"获取论文下载

换帅点将!山东高速男篮再启程山东男篮山东男篮换帅CBA新赛季于10月16日重新开启,在新赛季开启前,安排了几场季前赛用于磨合球队水平,为进入新赛季做准备。山东男篮计划10月10日出发前往诸暨赛区,11日季前赛知青岁月投亲靠友插队洪湖原创陈传厚我的路在沙滩上在一个伸手不见五指的寒冬夜晚,我肩挑着一副行李,东倒西歪踉踉跄跄地跟在一位老农后面,深一脚浅一腿地在沙滩上颠簸,前方看不见路,更不知何方是目标。这是我平生第文案一些比较拽非常野的文案谢谢你这么可爱还喜欢我1。要离开你的人不妨推他一把。2。人心换人心,换不了的话,我换人。3。我有什么缺点你尽管说,我放大给你看。4。你可以回头,但不可以往回走,逆行是全责。5。不想生活从来都不容易生活从来都不容易当你觉得容易的时候一定是有人在替你承担属于你的那份不容易要么是你的父母要么是未来的自己这世上,没有谁活得比谁容易,只是有人在呼天喊地,有人在静默坚守。赚钱才是一个成有一种低情商,叫逢人就诉苦文文小文(富书作者)你要做一个不动声色的大人了,不准情绪化,不准偷偷想念,不准回头看,去过自己另外的生活。太宰治在人间失格里说我仍然认为向人诉苦,不过是徒劳,与其如此,不如默默承受只做精一件事!全世界令人赞叹的五大小巨人公司一法国Cathelain全球庞大繁杂的核电产业链上,不乏拥有法国电力西屋电气三菱阿海珐中广核等自带光环规模体量巨大企业,尽管他们受到世界工作,但那些至关重要的配角公司,比如各种零部广东队3进3出,周鹏受伤双外援缺阵,好在杜锋还有3大悍将可冲冠广东宏远队三大核心受伤离场,无缘第一轮比赛,其中对于宏远队新赛季的CBA比赛,可以说得上是三进三出的。其中三名选手重新回归到了赛场,还有三名选手,将会无缘接下来第一轮的比赛,对于杜汽车闹芯荒,芯事如何解2021年世界互联网大会乌镇峰会上,之江实验室代表介绍800G超高速光收发芯片与引擎技术研发。参展商在中国卫星导航成就博览会上展示装有抗干扰芯片的模块。位于重庆两江新区的长安汽车两女子自述酒后失控?网友不接受刚刚过去的国庆小长假各大旅游景点迎来出游高峰然而景色虽美可个别游客的不文明行为却有点扎眼近日,一段女游客在丽江古城石榴井内(当地居民饮用水源),游泳戏水的视频引发了网友的关注。视频它们是这样做作业的在动物的世界中为了给孩子的成长保驾护航家长们可算是操碎了心学习生存技能,锻炼捕食或觅食本领是所有宝宝的成长必修课这通常由动物家长们手把手传授今天我们就来看看宝宝们是如何做课后作业的沙特王子以3亿英镑收购纽卡斯尔!成最富球队,老板豪宅世界最贵据多家欧洲媒体证实,沙特阿拉伯王子穆罕默德本萨勒曼以3亿英镑的价格收购了英超的纽卡斯尔。迈克阿什利14年的统治结束了,纽卡斯尔换了新老板,未来纽卡斯尔也有了中东富豪的助阵,可能会成
高手来了!ACL全国高校电竞精英赛南区决赛将于12月22日在四川泸州举行封面新闻记者李华刚摄影报道12月22日至24日,备受电竞高手们关注的ACL全国高校电竞精英赛南区决赛,将在四川省泸州市奥林匹克体育公园篮球馆举行。12月19日下午,泸州市人民政府新圣倾城。燃情岁月。我的世界杯记忆我的世界杯记忆1998年法国世界杯我的18岁,正值高考前夕。晚晚自习时间,天还没有完全黑,老旧的教室里坐满了各怀心思的我亲爱的高中同学们,空气闷热,灯光明亮,但无论如何,那时的场景伊斯兰教圣地,无数穆斯林朝拜的黑房子,里面究竟有些什么?世界上最神秘的黑房子大概要数在麦加的那一间天房了吧,所谓天房,可以理解成为神明来住的房子,它是穆斯林叫最重要的一个形象的象征。这个天房吸引了全世界各国人民,穆斯林人民的眼光和注意力千年往事,不堪回首,欣欣向往以下是本人玩千年自己觉的最有意思的事情。有哪位兄弟也做过来给兄弟我顶一下!1,偷犀牛王有一段时间每天晚上都会去偷1到2只犀牛王,具体是哪个版本已经记不清了,反正那个时候挂犀牛王练轻科技自立自强,半导体工业母机数字经济等热点机会板块分析盘后特大消息中央经济工作会议产业政策要发展和安全并举科技政策要聚焦自立自强。科技自立自强,目前科技急需攻关的主要有,半导体芯片工业母机软件。半导体芯片是我国最为重视的领域,半导体芯驶向数字经济的路徐徐展开第25期解放书单近十年来,数字经济的发展非常迅猛,已经成为继农业经济与工业经济之后的第三种主要经济形态。中央财经大学徐翔副教授所著的数字经济时代大数据与人工智能驱动新经济发展一书,十分准确地把握了美国2022通胀高烧持续(华府观察)美国2022通胀高烧持续中新社华盛顿12月16日电题美国2022通胀高烧持续中新社记者王帆美国今年遭遇了40年来最严重的通货膨胀。广受关注的通胀指标消费者价格指数(CP娘的鼾声响起文尹春兰我侧耳静静地听着。母亲的呼吸平缓均匀,偶尔短促地轻吟一声。我知道,母亲失眠了。因为,鼾声未起。知道母亲睡熟打鼾是近几年的事情。确切地说,是父亲去世以后。清明上坟,会住在老家人活着别贪心,也别灰心头条创作挑战赛冬日生活打卡季人的一生努力奋斗,尽力就好了,活着别贪心,也别灰心,是你的别人抢不走,不是你的得到也会溜走。做人不能太贪心,不属于自己的东西莫强求,走好自己的路,做好自彼岸,是遥不可及的梦文大漠长歌凋零的落叶飘过记忆的阑干在命运交错中年华被反复折叠,成缱绻旖旎的昨日黄花季节的寒意,已在多愁善感的秋天里萌生流年似水红尘埋藏了过往誓言如梦遗落在曾经的晨昏旧日的笑语已化成人生一辈子,总有一个人,是你躲不过的情劫人生一辈子,总有一个人,是你躲不过的情劫人与人之间相遇,不是随意,而是缘分的牵引,冥冥之中的注定。无论你与谁邂逅一阵子还是一辈子,从相遇那一刻起,就已经注定了,很难改变。有些人,遇