范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文

NeurIPS2022SlotCon以对象为中心的自监督表征学习

  Object discovery旨在无监督地发现图像中的物体,而此前该领域中的工作长期局限于合成数据集。在发表于NeurIPS 2022的工作Self-Supervised Visual Representation Learning with Semantic Grouping (SlotCon)中,我们试图传达这样的消息:在大规模真实世界图像数据上,无监督且可学习的object discovery是可行的,并且可以与object-centric自监督表征学习结合,互利彼此。
  Context:基于场景数据的自监督预训练
  左:object-centric数据与scene-centric数据对比;右:建立在不同粒度feature上的对比学习范式。
  这篇工作主要面向的问题是基于场景数据的自监督视觉表征学习(预训练)。传统的视觉预训练框架往往局限于类似ImageNet的object-centric数据集:每张图往往聚焦于一个醒目而单一的物体;而我们希望将这种范式推广到更为general的场景数据上(如COCO):每张图片上可能有多个物体,大小各异,且分布多样。这种推广的好处是显而易见的:对收集数据有更低的要求、预训练数据与下游(检测与分割)数据有更小的gap、单张图片包含的信息更为丰富。然而,直接将先前的图像级对比学习框架应用到场景数据上并不自然,因为现在代表一个图像的vector不再表示一个物体,而是一整个场景。
  在上图右侧我们对比了三种不同的对比学习范式:两个view间对比学习loss的一致性关系建立在图像级、像素级,还是对象级表征之间。图像级表征对于场景数据过于粗糙,而像素级表征又过于精细,这条线的工作往往还要加一个图像级的loss来补充high-level的信息。最右这种对于每种物体/语义单独表示,再在object-level representation之间进行对比学习的范式较好地平衡了表征的粒度,也更适合场景数据。然而,这里引出了一个关键问题:如何无监督地找到这些物体(object discovery)?
  Object Discovery
  Objectness priors
  往期工作为了获取objectness prior,往往采用一些hand-crafted method,例如saliency, selective-search, 传统分割方法, k-means clustering等。然而这里有一个concern:手工设计的objectness prior可能会限制所学representation的upperbound,那么我们是否可以让object discovery这部分也end-to-end地学习呢?
  Object discovery其实也是个挺热门的领域(详细的review见paper related work),但是这方面的工作一直主要局限于合成数据集(如CLEVER),学习范式基本也是autoencoder+重建。在真实场景数据work的工作往往基于视频,且依赖motion或depth作为condition。概括来讲,它们的philosophy都是基于bottom-up的策略(texture, motion, depth, ...)去获得objectness,对于合成数据怎么搞都行,但是真实场景中low-level cue的组合就太过复杂,难以从单张图像中compose出object。这里我们转而采用top-down的策略,从整个dataset中总结high-level的共性:如上图右侧所示,我们学习一些含有语义的prototype(每个prototype绑定到不同语义),这样对于feature map中的每个pixel,只需要assign它最近邻的prototype作为label,单张图中label相同的pixel即构成了一个object(严格意义上应当称为semantic object)。
  OK,听上去好像不错,那么这些semantic prototype从哪来?我们采用的技巧可以简单概括为pixel-level deep clustering。Deep clustering旨在于采用可学习的方式得到有意义的prototypes,其核心insight为:同一张图的不同增广版本应当有同样的prototype assignment(pseudo label),另外需要一些正则项来保证prototypes的多样性。这个套路应用到pixels上也同样有效,并且在unsupervised semantic segmentation上也有成功的先例(PiCIE) 。我们的方法可以理解为综上技巧的有机结合。
  方法概述
  SlotCon整体框架
  我们的框架完全随机初始化,在没有任何label的情况下,end-to-end地同时学习解决object discovery以及object-centric representation learning两个task。技术上,最最简单的理解可以认为是pixel-level DINO+object level MoCo v3。对于object discovery,我们在pixel-level assignment maps上将两个view中的overlap区域切出来并在空间上align好,对于每个位置相同的pixel-pair,要求其对prototypes的assignment一致;对于representation learning,我们在feature map上将语意相同的pixels聚合到一起(称为slot, 即object-level representation),在不同view间的slots上进行contrastive learning。两个objective相互促进,共同优化。
  实验
  对representation learning的评估
  这里和其他做pretrain的工作类似,只取backbone然后在object detection/instance segmentation/semantic segmentation任务上做transfer learning来做评估。
  COCO pretrain结果
  我们在场景数据pretrain的基准setting为COCO pretrain 800 epochs。在不采用multi crop这种trick以及不采用objectness prior的情况下,我们的方法相对于先前工作在所有下游任务上都体现了显著的提升。
  COCO+ pretrain结果
  更进一步,我们把COCO unlabeled子集也加进来,构成COCO+(大概两倍COCO大小),效果进一步显著提升。
  更为激动人心的是,COCO+只有ImageNet-1K的1/5大小,而我们却可以得到和ImageNet-1K近似的表现,这说明我们的方法成功利用到了场景数据中蕴含的更为丰富的信息。
  ImageNet-1K pretrain结果
  我们也汇报了在经典的object-centric数据集ImageNet-1K上pretrain的结果。在不针对检测任务做特别设计(带FPN head一起pretrain),以及不利用objectness prior的情况下,我们的方法也有着不错的表现。
  对object discovery的评估
  Unsupervised semantic segmentation结果
  需要注意的是我们的框架focus在representation learning,所以采用了很低的分辨率(7x7)。这里在unsupervised semantic segmentation上的评测只是为了对网络的object discovery能力有定性和定量的认识,而非在该task上提出一个新的SOTA。这里prototype和真实class的匹配采用了hungarian matching。尽管boundary并不太好,这个质量对于pretraining来说已经完全够用了。
  prototype可视化
  我们进一步可视化了每个prototype的nearest neighbors,如上图,prototypes可以绑定到一系列不同的语义上,它们范围广泛,而且对物体大小或遮挡与否并不敏感。这个结果可以说非常有趣了。
  消融实验
  比较值得注意的消融实验有两个:一是要把prototype的数量设定在一个比较接近pretrain数据集真实语义数量的值(COCO设256);二是data augmentation中geometric augmentation非常重要,如果一直采用两个identical crops,模型就学不到objectness,representation质量也会明显下降。更详细的ablation study请参见paper。
  其他discussions
  如何学到有意义的objects
  经验上我们总结了3个关键点:
  1. geometric covariance和photometric invariance:前者对应resize, flip等变换,后者对应color jitter, gaussian blur等变换。
  2. 避免坍缩:follow deep clustering中避免prototypes坍缩的技巧。
  3. 把prototype数量设定在一个比较小,接近数据集真实semantic数量的数值(默认COCO采用256,ImageNet采用2048)。
  模型的bias
  作为一个learnable的方法,总是要有些bias的。我们发现模型对COCO中的头部类别:human相关概念有特别的偏好,会慷慨地分配很多prototype给与人相关的运动以及身体部位。我们分析是网络认为这样会更容易解决pretext task。而对于更少出现的其他动物,分配一个prototype就好。如何更好的引入类别粒度的先验会是一个值得讨论的问题。
  模型学到的human-related prototypes
  而在更为极端的pretrain数据,例如自动驾驶场景上,模型表现也有一定程度降低。在这种长尾且多样性较差的场景数据上如何进行更有效的pretrain也是值得进一步研究的问题。
  一些关于slots的数据
  我们也统计了一些关于slots的数据。在训练过程中,随着模型表征能力与object discovery能力逐渐增强,每张图上的slot数量逐渐降低,最终收敛到与真实的平均单图物体数(7.3)接近的水平。至于每个prototype被激活的频率,则与真实类别分布类似(因为每个prototype绑定到一种语义)。
  总结
  我们的方法说明:自然场景的分解(scene decomposition)可以和representation一起learn from scratch;semantic grouping的范式让大规模真实场景图像数据中的object discovery成为可能;二者的结合促生了一种在场景数据上进行自监督预训练的有效方法。

三星w23flip值得买吗?三星w23flip参数配置详情三星在2022年10月28日发布的一款新折叠屏手机命名为三星w23flip,那么,三星w23flip怎么样?值得买吗?接下来爱机小秘就为大家带来三星w23flip参数配置详情,感兴怀孕时的几个谣言,孕妈们别错信,大人孩子都遭罪镜子孕后的女性多多少少都会产生心理上的变化,除了孕激素的影响,更有第一次怀孕由于各种轻信谣言而产生的焦虑和抑郁。所以,关于谣言一定要学会甄别,下面这四个关于孕期的谣言,别傻傻地听从17个婴儿护理技巧老月嫂经验面面俱到01岁是宝宝护理的重要时间段,刚出生的宝宝是很脆弱的,需要妈妈用细心和耐心来好好呵护。很多宝妈在养育宝宝的时候由于没有经验,会走很多弯路。最近在跟客户聊天的过程中,发现她虽然是个宝宝爸误发消息到家长群,想撤回却已来不及,宝妈看后羞红了脸许多家长都觉得家长群应该取消,因为家长群本来是为了方便家长们才创建的,没想到到头来反而成为了一种负担。有很多老师不在课堂上留作业,会以在群里留作业的方式通知各位家长,这就导致有些家剖腹产如何预防疤痕增生?这些小妙招一定能帮到你剖宫产生娃的妈妈们好不容易闯过了剖腹生子这一难关又要面对新的烦恼掀开衣服一条疤清晰地横在肚皮那儿活像一条蚯蚓原本光洁的皮肤变得伤痕累累除此之外增生性的瘢痕还会时不时出现疼痛给宝妈们有人问生孩子到底有什么意义呢?此问题确实有点大自从人类诞生以来,繁洐生息就是一个大自然的规律,无论全地球各个不同的国家,不同的社会制度,不同的肤色人种,也不管是处于一个什么样的生活形态下,生儿育女都应该是全人类共同要做的正常的宝宝湿疹护理全攻略,拒绝宝宝留疤2022育儿季宝宝湿疹小宝宝皮肤娇嫩,宝宝湿疹这个问题也困扰着许多宝妈,生怕宝宝因为湿疹破溃而留下难看的疤痕,影响美观。其实婴儿湿疹也称婴儿期特应性皮炎,就是人们俗称的奶癣。是由基太神奇了,还可以这样要小宝宝,涨知识了怀孕不再是女人的专属,男人也可以。但是这个男人是一个的女孩子。著名的美国广播公司报道被称为世界首位怀孕男人的美国人比蒂已顺利产下一名健康女婴。初为人父的比蒂为新生命的降临深感喜悦,双相障碍父母如何面对孩子的学习焦虑?阿宁小的时候聪明伶俐,她在音乐方面很有天赋,阿宁妈妈给她报了很多音乐方面的专业课,阿宁对自己的音乐之路充满期待。阿宁的爸爸很关爱女儿,经常和女儿谈心,算得上阿宁的良师益友。在阿宁心孩子满一岁后,该如何添加辅食?牢记以下几点,对孩子的成长有利导语孩子满一岁后,该如何添加辅食?牢记以下几点,对孩子的成长有利朋友小果的孩子前不久刚满一岁,小果便开始不再单独给孩子做辅食,认为孩子长到一岁后就可以正常吃饭了,和大人一起吃更方便据说山东人到了内蒙,看到当地喝的3款酒,纷纷感慨再也不来了在我国,论能喝,那山东人一定是数得上的。在酒圈,关于山东人能喝的描述有很多,诸如山东人从早能喝到晚山东人喝酒用缸等等这些描述都在告诉我们一件事山东人能喝!但是笔者最近身边发生一件趣
太酷了!巨型稻草人空降南宁,打造别样童话王国,春日遛娃宝地了解一下!春雾绕绿城,花香随风至当数万株金鱼草已花开成海当千株桃花正含苞待放之时一场震撼的春游之旅将拉开帷幕2月25日起园博园花海季巨型稻草人王国迎客来自全国各地数十位大地艺术家相约南宁园博1月觅伊APP净网行动公示,专项整治不良低俗内容随着互联网的快速发展,社交逐步向线上转移,网络交友成为了助力单身男女高效脱单的重要渠道。觅伊作为新一代视频交友平台,始终以用户为中心,并推出多项举措严厉整治网络交友乱象,保障用户的贝加尔湖旁的童话小镇,美得像是童话中的宝石,实拍的风景超美!贝加尔湖旁的童话小镇,镶嵌在贝加尔湖和安加拉河的交汇处的宝石,如此多的美称是否能够吸引到你?滑雪,狗拉雪橇,冰潜,如此多的游玩项目又能否勾起你内心对冰雪的向往?若你厌倦了世俗的喧嚣高原飞春雪山川入画来来源新华社2月24日,西藏拉萨迎来降雪天气,城区南北的群山被白雪覆盖,分外迷人。雪后的拉萨(2月24日摄)。新华社记者孙非摄雪后初霁的拉萨(2月24日摄,手机照片)。新华社记者沈虹世界撸猫圣地一群猫,一座城来源环球时报环球时报综合报道编者的话法国媒体近日发文揭秘了撸猫为何令人感觉幸福。在和猫咪相伴的日子,人们获得了陪伴快乐还有慰藉。世界许多国家都有撸猫圣地,特色不同,而且融入了当地的南平赏花图鉴春有约,花不误春光作序,万物和鸣轻风充溢,百花芳菲一抹抹灿黄,一片片粉白一簇簇艳红,自远方铺展而来南平赏花图鉴邀你到万千花朵中打开一个春天赏梅花指南我刚好经过,你恰好盛开01武夷山朱子生态梅园坐都说木星大!到底木星哪里大?看完才知道木星是地球的守护神!相信知识的力量,我是山人阿努,咱们今天来聊木星!木星是太阳系中最大的一颗行星,而木星最大的特点就是大!今天我们就来具体看看木星到底哪里比较大?木星首先就是体积大!多大呢?我们晚上拿换机好时机已到,四款65英寸电视不足2000元,谁更有亮点?最近电视市场虽然说波澜不惊,各家都没有新机,还是消化存量。但另一方面,这也造成了很多机型价格很低的市场情况,对于预算有限的朋友来说,也是一个换机的好时机。这次,我们就来看看2000花了19。9,实测最近很火的ChatGpt,体验一言难尽对于网上最近很火的ChatGpt,我刚刚实测了一下,不知道是我下载的不对还是什么原因,或许不会用感觉没什么高科技啊。实测体验,下载之后可以直接打开,什么都没有,就会有一个聊天界面,2022年全球电视代工厂排名冠捷依然无敌,TCL超越富士康在去年我们就做过一期2021年全球电视代工厂排名的文章,引发了不少讨论,可能对很多电视用户或者关注电视的读者来说,的确没想到这么多品牌的电视,往往都是由几家电视代工厂生产制造的。那天上不会掉馅饼,更不会掉空气炸锅!最近你有没有见到过扫码免费领空气炸锅的广告?先说结果这是骗局!假如你一旦扫描了图片上的领取二维码就会跳转到所谓的活动平台然后让你添加客服微信客服会要求你按照他们的文案和图片发朋友圈