TPAMI2023港中文自适应视角的知识蒸馏框架,提高语义分割性能
论文标题:Adaptive Perspective Distillation for Semantic Segmentation
论文链接:https://ieeexplore.ieee.org/document/9736597
作者单位:香港中文大学(Jiaya Jia,IEEE Fellow)、牛津大学
关注 @CV顶刊顶会 微信公众号 ,严肃且认真的计算机视觉论文前沿报道~
强大的语义分割模型需要 预训练的backbone才能实现高效的性能 ,因此很难适应需要有效实时算法的实际应用程序。 知识蒸馏技术通过让较小的模型(学生)产生与较大模型(教师)相似的像素级预测 来解决这个问题。然而,分类器可以被视为 模型对编码特征进行感知并产生一种特定视角 ,这种视角由所有训练样本共享,符合通用的特征分布。但是这种对整个分布的泛化都良好的情况可能会给一些单个样本带来较差的学习效果, 共享的通用视角往往会忽略每个样本中存在的细节,从而导致知识蒸馏的退化 。这可以看做是传统蒸馏学习与语义分割相结合的缺陷所在。 来自香港中文大学和牛津大学的研究者们针对此问题,提出了一种自适应视角蒸馏方法(Adaptive Perspective Distillation,APD),并发表在人工智能领域顶级期刊(IEEE Transactions on Pattern Analysis and Machine Intelligence,TPAMI)上 。APD为 每个单独的训练样本创建自适应局部视角 ,可以专门从每个训练样本中提取详细的上下文信息, 以从教师模型中挖掘更多的细节 ,从而在学生模型上达到更好的知识蒸馏结果。 APD对教师和学生模型都没有结构约束 ,因此可以 很好地泛化到不同的语义分割模型中 。作者在Cityscapes、ADE20K和PASCAL-Context等标准基线上进行的大量实验证明了APD的有效性。此外, APD还可以在目标检测和实例分割等方面为模型带来性能增益 。 1.引言
在本文中,作者将 深度网络对图像进行感知编码和解码的过程比作为光的透视过程 。光线从场景出发穿过平面到达观察者眼睛被定为透视过程, 深度网络进行语义分割时也可以类比于此,我们可以将最终的分类器视为模型的一种透视形式 。换句话说,分割模型的推理可以被视为透视(分类器)投射编码的高级语义信息以产生观察者的观察(预测)的过程,如下图所示。 与学生模型相比,教师通常有更好的视角 ,因为大特征编码器可以产生高质量的特征来学习好的视角。
在蒸馏学习阶段,教师模型的特征编码器和视角是固定的 。鉴于教师模型已经在整个训练集上接受了充分的训练, 因此其固定的"普适视角"可以泛化到所有测试样本来获得高质量的评价结果 ,然而,高泛化能力可能会导致较差的模型规范性, 因为即使是相同的对象也可能在不同的训练样本中以不同的共现信息出现 ,如果仅使用固定通用视角对于特殊的样本的学习能力较差。因此本文作者提出了一种基于语义分割视角视角的新知识蒸馏方法APD。APD使模型能够为每个输入图像形成自适应视角, 即不同的图像根据其上下文内容由不同的视角处理 。由于教师模型可以代表更好的普遍视角,作者也调整了教师和学生的适应性视角,这样使学生可以在教师的指导下形成更好的适应性视角,达到快速蒸馏的目的。 2.本文方法
对于语义分割模型,可以分解为两个部分:(1)特征编码器 和(2)分类器 。在蒸馏过程中, 和 都固定在教师模型中,教师模型的分类器 从 中提取特征 来作为蒸馏损失的soft label。上文提到 对整个数据集都适用,其为蒸馏学习提供了一个固定的通用视角。
上图为APD方法的整体框架,作者通过形成个体自适应视角 来仔细研究每个训练样本,这些视角由从编码特征中获得的语义原型(即个体语义类的代表向量)组成,它作为另一个辅助任务,为提炼知识提供局部视角。此外,辅助视角 由自适应视角 和编码特征 生成,用于将知识从教师转移到学生。学生特征编码器 通过模仿 以产生类似的自适应视角 ,以及从 获得的辅助视角结果 。 2.1 自适应视角生成
为了对训练样本进行自适应视角生成,作者首先设置两个映射层,由多层感知机构成,可以先对教师和学生网络提取的特征进行转换,形式化表示如下:
随后通过每幅图像的二进制类别标签 来计算每个类别的原型向量 和 ,计算公式如下:
作者将这些原型特征的集合 命名为"自适应视角",因为它们被放在一起可以构成一个分类器,其语义信息在不同的图像上有所不同,即"自适应"到不同的上下文 。借助真实标签提供的语义信息,自适应视角可以更好地描述编码的语义类内和类间分布。 2.2 教师模型适应性视角的损失函数
由于教师模型的映射层 的参数是随机初始化的,因此在没有优化的情况下其会产生崩溃现象 。为了确保 可以在 处提供具有代表性的视角,从而揭示每个图像的更多上下文细节,显式正则化是必不可少的一项步骤。因此,教师模型适应性视角的损失函数可以定义为:
2.3 教师模型适应性视角的损失函数
由于不一致的视角可能会导致不同的观察(预测)结果。因此,学生的特征编码器 和映射层 首先需要通过产生相似的视角来模仿教师模型 。为了实现这一目标,作者使用 通过 余弦相似测度 来完成教师和学生适应性视角的调整。
此外, 从学生的角度进行的预测结果也需要模仿教师模型的预测结果 ,这可以通过最小化他们的观察 和 之间的KLD来实现,如:
总体的损失函数由上述几种损失函数联合得到,共同优化APD框架。此外,作者还明确列出了APD的优化过程,如下图所示。
3.实验结果
作者在Cityscapes、ADE20K、COCO和PASCAL-Context四个数据及上进行了实验,下表展示了以PSPNet[1]作为backbone模型,APD与其他SOTA知识蒸馏方法的性能对比,可以看到APD在三个数据集上均取得了SOTA性能。
下图展示了在PSPNet和DeepLab-V3[2]上的跨模型蒸馏性能对比,作者还在其中尝试了多种不同的backbone网络,例如RN表示ResNet,MN2表示MobileNetV2,EN表示EfficientNet。
下图展示了APD框架在COCO数据集上目标检测和实例分割的可视化效果对比。
4.总结
本文提出的自适应视角蒸馏(APD)方法整体简单直观。 与以往通过固定视角(即分类器)获得的像素级预测来提取知识的蒸馏方法不同 ,APD旨在为单个样本创建自适应视角,揭示编码特征的更多细节,以帮助学生模型获得更好的性能。 APD对基本模型没有结构约束 ,因此可以很容易地应用于常见的语义分割框架。APD也可以作为一项对现有知识蒸馏方法在语义分割方面的补充工作。与最先进的语义分割知识蒸馏方法的广泛比较证明了APD的有效性和泛化能力。 参考
[1] H. Zhao, J. Shi, X. Qi, X. Wang, and J. Jia, "Pyramid scene parsing network," in Proc. Conf. Comput. Vis. Pattern Recognit., 2017, pp. 2881–2890.
[2] L.-C. Chen, G. Papandreou, I. Kokkinos, K. Murphy, and A. L. Yuille, "DeepLab: Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected CRFs," IEEE Trans. Pattern Anal. Mach. Intell., vol. 40, no. 4, pp. 834–848, Apr. 2018.
山东80后宝妈巧手做花馍,月入过万!带领更多人致富山东人过春节,餐桌上必不可少的就是面食。花馍,也称面花,是广为人知的山东非物质文化遗产,花馍以多样的造型寄托人们对于美好未来的祝福。济南平阴80后女子高艳艳受家人影响,喜欢上了花馍
医疗5G证券保险银行等行业指数基金及港基下周走势分析1医疗根据本周的表现,行业指数已跌破日线,死叉,日线和日线死叉,走势转弱,且已走出分钟级别的头部结构,下周还有下跌下跌预期!下周主要关注指数能否在日线附近得到支撑!周线,近几周量价
银行的存款需要达到多少,才能成为VIP客户?银行为什么要分级的管理客户呢?这是有意表明社会结构中,存在的金字塔结构吗?还是为了更好的银行发展呢?根据国内银行储户的等级设置,基本上储户在银行的数据中分为4个级别,普卡用户,金卡
现在开银行卡很难,要求还很多,为什么会这样呢?如何快速开卡?以前去银行办卡的话,只要身份证就可以办理,而现在大家去银行开银行卡时,银行的工作人员会问这问那,感觉像调查户口一样,这是什么原因呢?之所以现在办理银行卡会变得困难,是因为电信诈骗越
征信差被银行拒贷,是什么原因导致的?多数人在资金需要周转的时候选择银行贷款,不仅是因为它正规,同时在银行贷款的种类比较的多,常见的有个人贷款小额贷款信用贷款房屋贷款汽车贷款等等,虽然贷款的方式都不同,但是被拒的原因都
走出去,感受乍暖还寒的季节紧张的生活,需要不时给自己放个假,看看外面的风景,把节奏调慢,清空不良情绪,不要只顾低头走路,用心去发现身边的真善美,放松自我,一路上自有花红柳绿,草长莺飞,山花烂漫。登高望远只争
旅游看中国(4)广州全球新面孔的旅行城市,天堂般迷人的广州头条创作挑战赛广州,位于中国南部,是中国经济发展最快的大都市之一。作为一座典型的沿海发达城市,广州拥有历史悠久的人文底蕴,灿烂的文化积淀,闹中取静的环境优美,以及繁荣的经济发展。在
东航云南航特色服务与旅客共度元宵佳节又值中国的传统元宵佳节,2月5日,东航云南开展元宵节特色服务活动猜灯谜闹元宵送祝福,为出行旅客送上美好的节日问候,陪伴旅客共度元宵佳节。东航云南航特色服务与旅客共度元宵佳节一大早,
保定莲池区保莲兔灯会耀古城2月4日,在保定市南北非遗博物馆,市民正在猜灯谜,感受元宵节的文化魅力。春到人间人似玉灯烧月下月如银。2月4日晚,乐享新保定一起向未来盛世芳华保莲兔灯会启动仪式在保定市莲池区南北非
钟鸣楚天闹元宵千灯万盏照新年瑞兽喜迎四方宾客多彩花灯点亮夜空楚乐楚舞彰显荆楚风韵夜幕降临,武汉东湖之滨的湖北省博物馆流光溢彩人潮涌动。如约而至的游客赏花灯猜灯谜闹元宵,点亮武汉的上元之夜。2月5日晚,钟鸣楚天
缅甸的美女抓鱼,周围没人就完全不顾形象了,网友我恋爱了如今的国人,喜欢旅游,每当闲暇之余,我们都会跟家人女友体验出国旅行的乐趣。(此处已添加小程序,请到今日头条客户端查看)在我国游客看来,东南亚地区最受青睐,像缅甸。比如我有一个朋友去
三十岁买个几万块的国产车丢人吗?不丢人,自己不偷不抢挣来的钱买车有什么的?除非你买个二手众泰,那倒是很容易被四邻八舍嘲笑。说句不客气的话,你有一辆自己的汽车就比一半的同龄人更强了。根据第七次人口普查结果,内地人均
去湘潭旅游的旅游攻略有哪些?湘潭被很多人熟知就是因为伟人故里韶山。其实,除了人文景观,韶山的自然风光也非常优美。我们的湘潭之行,就从韶山开始韶山是一代伟人毛泽东的故乡,也是他青少年时期曾生活学习劳动和从事革命
你认为普通话讲得最好的是哪个省的人?我认为普通话讲的最好的是河南人,有好多河南地方话,在别的省大家都听的懂,因为河南地方话接近普通话,还有一种很重要的解释,就是河南地处中原,洛阳,开封都是中国过去的古都,如唐宋等等都
如果一个工厂的厂长车间主任班长拿的工资和厂里最低工资的员工一样,这个厂的发展会好吗?首先,得肯定的是拿最低工资的员工心里必定很平衡,但是,有利必有弊,一个领导拿着和员工一样的工资,员工心里必定会想着其实你也跟我差不多,而我也没必要听你的,这让对于一个车间主任,班长
你的工资能买什么车?我的工资大部分的车都可以买。每个月入账8000块,那么一年就是十万。十年就是100万,50年就是500万。这么算下来的话,基本上500万以内的车都可以买得起。工资一个月8000不到
工龄工资占比过高合理吗?城镇职工养老保险的原则是缴费年限和缴费数额与养老金领取数额成正比,缴多得多,缴费年限长多领。企业退休没有身份职务职称的待遇,更没有用学历确定养老金之说。工龄工资在退休工资中占比过高
有胎心胎芽后胎停的几率是不是很小?即使有胎心胎芽了也会发生胎停的,我刚做过流产手术一个月,意外怀孕了,8周的时候去查了B超和血HCG,结果都很好,本来是意外没有想要的,检查后发现长得很好的时候,就慢慢接受了这个孩子
在合肥干什么工作可以把月收入稳定在一万以上?我是合肥本地人,在这片土地上生活了30年了,我最有资格回答。合肥作为安徽省会,四大科教之城,重点大学有科大,工大,安大,重点企业有讯飞,江淮,格力,美的,美菱等等,当然还有很多别的
手上有个2万块钱,在农村做点什么生意好?您好,科学兴农为您解答。手上有两万块钱,在农村做什么生意比较好?现在不少农民朋友都想在家乡做点小生意,不想到外面打工,毕竟到外地打工不仅要和家人两地分居,而且上班还要受人管制,所以
对于懦弱容易被校园暴力的学生,学什么武术能防止被霸凌,巴西柔术,泰拳,跆拳道,散打?学什么武术,只要坚持年以上,有高频率的实战都可以有效防身。对于懦弱的性格被欺负,首先最重要是情商的培养,人最终还是要在社会生活,而校园浓缩版的社会,只不过它更加简单和安全,既然事情
初中毕业后考小学教师资格证,能教好学生吗?不请自来。看到这样一个问题,深觉教育正本清源依旧任重而道远。初中毕业后考小学教师资格证,能教好学生吗?在今天还问出这样的问题,只能用荒唐之极来形容,如果一定要一个答案的话,那就是初