NeurIPS2022SlotCon以对象为中心的自监督表征学习
Object discovery旨在无监督地发现图像中的物体,而此前该领域中的工作长期局限于合成数据集。在发表于NeurIPS 2022的工作Self-Supervised Visual Representation Learning with Semantic Grouping (SlotCon)中,我们试图传达这样的消息:在大规模真实世界图像数据上,无监督且可学习的object discovery是可行的,并且可以与object-centric自监督表征学习结合,互利彼此。
Context:基于场景数据的自监督预训练
左:object-centric数据与scene-centric数据对比;右:建立在不同粒度feature上的对比学习范式。
这篇工作主要面向的问题是基于场景数据的自监督视觉表征学习(预训练)。传统的视觉预训练框架往往局限于类似ImageNet的object-centric数据集:每张图往往聚焦于一个醒目而单一的物体;而我们希望将这种范式推广到更为general的场景数据上(如COCO):每张图片上可能有多个物体,大小各异,且分布多样。这种推广的好处是显而易见的:对收集数据有更低的要求、预训练数据与下游(检测与分割)数据有更小的gap、单张图片包含的信息更为丰富。然而,直接将先前的图像级对比学习框架应用到场景数据上并不自然,因为现在代表一个图像的vector不再表示一个物体,而是一整个场景。
在上图右侧我们对比了三种不同的对比学习范式:两个view间对比学习loss的一致性关系建立在图像级、像素级,还是对象级表征之间。图像级表征对于场景数据过于粗糙,而像素级表征又过于精细,这条线的工作往往还要加一个图像级的loss来补充high-level的信息。最右这种对于每种物体/语义单独表示,再在object-level representation之间进行对比学习的范式较好地平衡了表征的粒度,也更适合场景数据。然而,这里引出了一个关键问题:如何无监督地找到这些物体(object discovery)?
Object Discovery
Objectness priors
往期工作为了获取objectness prior,往往采用一些hand-crafted method,例如saliency, selective-search, 传统分割方法, k-means clustering等。然而这里有一个concern:手工设计的objectness prior可能会限制所学representation的upperbound,那么我们是否可以让object discovery这部分也end-to-end地学习呢?
Object discovery其实也是个挺热门的领域(详细的review见paper related work),但是这方面的工作一直主要局限于合成数据集(如CLEVER),学习范式基本也是autoencoder+重建。在真实场景数据work的工作往往基于视频,且依赖motion或depth作为condition。概括来讲,它们的philosophy都是基于bottom-up的策略(texture, motion, depth, ...)去获得objectness,对于合成数据怎么搞都行,但是真实场景中low-level cue的组合就太过复杂,难以从单张图像中compose出object。这里我们转而采用top-down的策略,从整个dataset中总结high-level的共性:如上图右侧所示,我们学习一些含有语义的prototype(每个prototype绑定到不同语义),这样对于feature map中的每个pixel,只需要assign它最近邻的prototype作为label,单张图中label相同的pixel即构成了一个object(严格意义上应当称为semantic object)。
OK,听上去好像不错,那么这些semantic prototype从哪来?我们采用的技巧可以简单概括为pixel-level deep clustering。Deep clustering旨在于采用可学习的方式得到有意义的prototypes,其核心insight为:同一张图的不同增广版本应当有同样的prototype assignment(pseudo label),另外需要一些正则项来保证prototypes的多样性。这个套路应用到pixels上也同样有效,并且在unsupervised semantic segmentation上也有成功的先例(PiCIE) 。我们的方法可以理解为综上技巧的有机结合。
方法概述
SlotCon整体框架
我们的框架完全随机初始化,在没有任何label的情况下,end-to-end地同时学习解决object discovery以及object-centric representation learning两个task。技术上,最最简单的理解可以认为是pixel-level DINO+object level MoCo v3。对于object discovery,我们在pixel-level assignment maps上将两个view中的overlap区域切出来并在空间上align好,对于每个位置相同的pixel-pair,要求其对prototypes的assignment一致;对于representation learning,我们在feature map上将语意相同的pixels聚合到一起(称为slot, 即object-level representation),在不同view间的slots上进行contrastive learning。两个objective相互促进,共同优化。
实验
对representation learning的评估
这里和其他做pretrain的工作类似,只取backbone然后在object detection/instance segmentation/semantic segmentation任务上做transfer learning来做评估。
COCO pretrain结果
我们在场景数据pretrain的基准setting为COCO pretrain 800 epochs。在不采用multi crop这种trick以及不采用objectness prior的情况下,我们的方法相对于先前工作在所有下游任务上都体现了显著的提升。
COCO+ pretrain结果
更进一步,我们把COCO unlabeled子集也加进来,构成COCO+(大概两倍COCO大小),效果进一步显著提升。
更为激动人心的是,COCO+只有ImageNet-1K的1/5大小,而我们却可以得到和ImageNet-1K近似的表现,这说明我们的方法成功利用到了场景数据中蕴含的更为丰富的信息。
ImageNet-1K pretrain结果
我们也汇报了在经典的object-centric数据集ImageNet-1K上pretrain的结果。在不针对检测任务做特别设计(带FPN head一起pretrain),以及不利用objectness prior的情况下,我们的方法也有着不错的表现。
对object discovery的评估
Unsupervised semantic segmentation结果
需要注意的是我们的框架focus在representation learning,所以采用了很低的分辨率(7x7)。这里在unsupervised semantic segmentation上的评测只是为了对网络的object discovery能力有定性和定量的认识,而非在该task上提出一个新的SOTA。这里prototype和真实class的匹配采用了hungarian matching。尽管boundary并不太好,这个质量对于pretraining来说已经完全够用了。
prototype可视化
我们进一步可视化了每个prototype的nearest neighbors,如上图,prototypes可以绑定到一系列不同的语义上,它们范围广泛,而且对物体大小或遮挡与否并不敏感。这个结果可以说非常有趣了。
消融实验
比较值得注意的消融实验有两个:一是要把prototype的数量设定在一个比较接近pretrain数据集真实语义数量的值(COCO设256);二是data augmentation中geometric augmentation非常重要,如果一直采用两个identical crops,模型就学不到objectness,representation质量也会明显下降。更详细的ablation study请参见paper。
其他discussions
如何学到有意义的objects
经验上我们总结了3个关键点:
1. geometric covariance和photometric invariance:前者对应resize, flip等变换,后者对应color jitter, gaussian blur等变换。
2. 避免坍缩:follow deep clustering中避免prototypes坍缩的技巧。
3. 把prototype数量设定在一个比较小,接近数据集真实semantic数量的数值(默认COCO采用256,ImageNet采用2048)。
模型的bias
作为一个learnable的方法,总是要有些bias的。我们发现模型对COCO中的头部类别:human相关概念有特别的偏好,会慷慨地分配很多prototype给与人相关的运动以及身体部位。我们分析是网络认为这样会更容易解决pretext task。而对于更少出现的其他动物,分配一个prototype就好。如何更好的引入类别粒度的先验会是一个值得讨论的问题。
模型学到的human-related prototypes
而在更为极端的pretrain数据,例如自动驾驶场景上,模型表现也有一定程度降低。在这种长尾且多样性较差的场景数据上如何进行更有效的pretrain也是值得进一步研究的问题。
一些关于slots的数据
我们也统计了一些关于slots的数据。在训练过程中,随着模型表征能力与object discovery能力逐渐增强,每张图上的slot数量逐渐降低,最终收敛到与真实的平均单图物体数(7.3)接近的水平。至于每个prototype被激活的频率,则与真实类别分布类似(因为每个prototype绑定到一种语义)。
总结
我们的方法说明:自然场景的分解(scene decomposition)可以和representation一起learn from scratch;semantic grouping的范式让大规模真实场景图像数据中的object discovery成为可能;二者的结合促生了一种在场景数据上进行自监督预训练的有效方法。
矮个子怎么样搭配长裙?其实对于这个问题我觉得很简单,而且也只有一条千年不变的大法则。自己也是小个子,多年的尝试悟出来的道理。对于矮个子来说,除非你去截骨增高,但还是不要这么做,不然我们就要想办法在视觉上
泪沟明显可以用眼霜淡化吗?都说有沟必火,但是像泪沟鼻唇沟之类的就很让人上火了。泪沟要除,但是很遗憾地告诉你,眼霜没那么神,功效也没那么强大,泪沟是没办法用它淡化的。没有泪沟问题出现了泪沟泪沟是什么?泪沟是由
银行误转50万到我账上,正巧抵了我的信用卡还款转走了,谁负责?上面律师回答的有点官方,我直接说50万到你账上,你主动转账给信用卡还是信用卡绑定后自动划扣两者有很大区别,一个是主观意愿,一个是被动的。虽然都属于不当得利,主观意愿大概率刑事责任,
重庆都有哪些大学,近几年的录取分是多少,环境怎么样呢?说到重庆的大学,那就很多了,西有永川学校众多,沙坪坝大学城,西南有巴南高职教育城,所以重庆学校还是很多的,录取分数线也是不同,这边就大致介绍一下近几年的录取分数线,以及各个学校的校
摩托车不年审会影响小车过户吗?会影响下一辆车上牌吗?摩托车目前不年检暂时不会影响下一辆车上牌,但是摩托车的驾照和汽车驾照是一起的,实际执行中会影响到驾驶证的换证和审验的,所以你还是要去处理的,只要连续三个周期没有年检,就会被强制报废
押宝星途,奇瑞汽车冲高还有戏吗?一款车爆了就可以撑起一个品牌,现在凌云连续两个月销量5000左右,在全国这幺少4s的的情况下已经很不错了,当年Hs5上市也就这个成绩吧。当然星途也还有很长路走,现在是看脸时代,技术
你在俄罗斯吃过哪些黑暗料理?谢邀。虽我没去俄罗斯吃过什么黑暗料理,但这问题相当可笑,愿意来嚼嚼舌头。每个国家的每个地方都会有适合当地人吃的食物链结构,一方水土养一方人。盛产什么,一定会是当地人喜欢吃的。而这所
阳江有哪些值得一去的地方?阳江有哪些值得一去的地方?阳江是广东西南部的滨海城市,蓝天白云看海玩沙滩等在阳江都可以看到。那么阳江有哪些值得一去的地方呢?1海陵岛,是广东第四大海岛,其中主岛面积105平方公里,
有哪些被严重高估的相声演员?郭德纲的德行,这个艺人炒作本领一流,但是德行确实太差。说相声的人就是凭口快吃饭,是非一定不少,观众真正喜欢一个相声演员还是喜欢他的本事,而不是他的是非花边,但是郭德纲凭的是一通王八
你认为的辽宁的十大旅游区有哪些?1千佛山景区是国家5A级景区,位于鞍山市东南,为首批国家重点风景名胜区,具有厚重历史文化,宗教文化风格的寺庙园林风景名胜区。2金石滩是国家5A级景区,国家地质公园,是大连海滨地质公
有哪些好用的企业管理SAAS软件?SAAS化产品以其通用性轻量易上手的特点,在国内市场呈现爆发式增长。将在线表单的格式化数据作为入口,挖掘数据背后的价值,提升团队协作的效率,这就是SAAS办公工具能做到的。对于中小
息县龙湖公园腊梅竞相绽放大河网信阳朱美惠通讯员吕伶仪段慧茹大河网讯最是一年春光好,踏青赏梅正当时。近日,息县龙湖公园景区内的红梅腊梅竞相绽放,娇艳夺目,暗香浮动,沁人心脾,让人忍不住驻足欣赏拍照打卡。一年
NBA最新球队实力榜出炉!雄鹿蝉联榜首,湖人升至前20北京时间2月28日,NBA官方公布了最新一期的球队实力榜。具体排名如下1密尔沃基雄鹿战绩43胜17负字母哥手腕受伤几乎缺席全明星正赛。上周六对阵热火的比赛中,字母哥火线复出,回到了
春意盎然,一起去寻觅春天的美好即将进入三月春天的气息越发浓郁春暖花开的日子去踏青赏花读书聚会吧寻觅春天里的美好01hr踩单车骑上自行车在钦州的春天里享受春风拂面一江两岸以钦江为轴贯穿于钦州城区水清岸绿,风景如画
碎花裙高跟鞋才是春天回头率最高的穿法!优雅到骨子里随着气温的逐渐上升,春天的氛围感也越来越浓郁,不少姐妹都开始给自己的衣柜来一轮大换血。而要说今年春天热度最高的穿法,那一定是碎花裙与高跟鞋的搭配了,完美展现了女性的优雅与浪漫。而要
雄鹿冲击15连胜,篮网要再吞一败?篮网在上轮比赛中虽然又输球了,但与之前在客场面对公牛的比赛相比,篮网的表现已经有了很大进步了,在连续做客的情况下他们都砍下了127分,而且投篮命中率高达50,最终还是被特雷杨绝杀击
邹市明妻子生仨娃,身材依旧不走样,不愧是拳王的菜!邹市明是我国著名的拳击手。他多次在奥运会上夺得金牌,为我国赢得了很多荣誉。在综艺节目爸爸去哪儿中,邹市明被大家所熟知,而在节目中,邹市明的老婆也是让大家眼前一亮。作为拳王背后的女人
钓鱼城马拉松,合川开年第一跑!重庆之声2月28日讯在这春暖花开的日子里,2023重庆合川钓鱼城半程马拉松赛将于3月26日清晨8点在合川区人民广场鸣枪开跑,届时5000名参赛选手将齐聚合川展开角逐,感受合天下纳百
重庆铜梁与春相约樱你盛开谢艺封面新闻记者李茂佳春回大地,百花盛开。这两天,重庆市铜梁区双山镇万余亩樱桃花李花陆续绽放,为恬静的乡村增添了一抹浓浓的春色,吸引了不少市民前去赏花踏春。双山镇建新村是樱桃种植核
重庆不愧是美女之都满街光腿大衣,长裤秀腰回头率高都说北方美女精,南方美女多,尤其是川渝,一直被称为全国美女最多的地区。成都太古里号称是一个天然秀场,潮男靓女多到普通人去了都恨不得隐身,生怕被人当做是土狗的程度。而看了重庆街拍后,
2023重庆合川钓鱼城半程马拉松3月26日开跑2月28日,重庆市合川区人民政府发布消息,以英雄钓鱼城首马破荆棘为主题的2023重庆合川钓鱼城半程马拉松赛,将于3月26日上午8点在合川区人民广场鸣枪开跑。届时5000名参赛选手将
最美河津樱大道本周末将迎来最佳观赏期图说河津樱大道资料图采访对象提供新民晚报讯(记者金旻矣)褪去春寒的厚重,尽享春日的自由,辰山植物园河津樱已经开花了!记者从园方获悉,最近樱花园中河津樱已孕育花蕾,随着气温逐步回暖,