范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文

清华大学孙茂松教授提出全新微调框架CPT准确率提升17。3

  来源:arXiv
  编辑:LRS  【新智元导读】预训练模型在计算机视觉和语言上都取得了显著成果,但这些语言模型有一个大问题就是训练过程和推理过程不匹配。清华大学孙茂松团队提出了一个全新的微调框架CPT,用颜色来遮蔽、融合图像和语言,准确率提升17.3%,标准差降低73.8%!
  预先训练的视觉语言模型(Pre-Trained Vision-Language Models, VL-PTM)能够同时处理语言和视觉上的信息,也是完成各种多模态任务的基础模型。
  但模型的预训练和微调之间存在着巨大的差距,在预训练期间,大多数VL PTM都是基于mask language modeling目标进行优化的,主要任务就是在屏蔽的词中从跨模态上下文中恢复。
  然而,在微调过程中,下游任务通常是通过将未屏蔽token的表示分类到语义标签来完成的,在语义标签中通常会引入特定任务的参数。这种差别阻碍了VL PTM对下游任务的适应性,因此需要大量的标记数据来优化VL-PTM对下游任务的视觉基础能力。
  针对这个问题,清华大学的研究人员提出了一个新模型跨模态提示调节(Cross-Modal Prompt Tuning, CPT),也可以称为Colorful Prompt Tuning。CPT是一种调整VL-PTM参数的新范式,关键点在于通过在图像和文本中添加基于颜色的共同参照标记,视觉基础可以重新形成填补空白的问题,最大限度地减少预训练和微调之间的差距。
  为了在图像数据中使用自然语言表达式,CPT由两个组件组成:(1)一个视觉子提示(visual sub-prompt),用颜色块唯一地标记图像区域;(2)一个文本子提示(textual sub-prompt),将查询文本放入基于颜色的查询模板中。然后,通过从查询模板中的屏蔽标记恢复相应的彩色文本,可以实现目标图像区域的显式定位。
  论文的作者是孙茂松教授,目前任清华大学人工智能研究院常务副院长、清华大学计算机学位评定分委员会主席、教育部在线教育研究中心副主任、清华大学大规模在线开放教育研究中心主任。曾任清华大学计算机系主任、党委书记。研究方向为自然语言理解、中文信息处理、Web智能、社会计算和计算教育学等。
  配备CPT后,VL-PTMs可以在没有任何标记数据的情况下执行zero-shot visual grouding,因为VL PTMs在训练前已经很好地学习了颜色的跨模态表示及其与其他概念(例如,对象、属性和关系)的组合。
  当有几个或全部标记的实例可用时,CPT可以根据基于熵的目标函数对VL PTM进行进一步调整。
  虽然通过基于颜色的提示将图像和文本连接起来看着很好用,但研究人员仍然发现了其中两个关键问题:(1)如何确定颜色集C的配置;(2)如何使用有限的预训练颜色处理图像区域的数量。
  解决方法有跨模式提示搜索(Cross-modal Prompt Search)。以前在文本提示调优方面的工作表明,提示配置(例如,文本模板)对性能有重大影响。这篇文章也是对搜索跨模态提示配置(即颜色集C)进行的首次研究。
  直观地说,C应该由VL PTM最敏感的颜色组成。为了获得颜色,一种简单的方法是采用预训练文本中最常见的颜色文本,其标准RGB作为civ。但该解决方案是次优的,因为这种方法在确定彩色文本时不考虑其视觉外观,并且真实图像中颜色的视觉外观通常与其标准RGB不同。
  所以在跨模式提示搜索中,首先确定一个全彩色文本的候选集。对于RGB空间中的每个可能颜色,将纯色块与文本子提示连接到VL PTMs中:[CLS] a photo in [MASK] color. [SEP]。然后为每个候选颜色文本获得记录分数。
  记录得分越大,表明cv和cw之间的相关性越高,并且删除了在任何颜色视觉外观中都没有排名靠前的颜色文本。最后对于每个剩余的彩色文本,其视觉外观由最大色彩确定,并且实验结果显示得到的颜色配置明显优于原始的颜色配置。
  图像区域批处理(Image Region Batching)。在视觉基础中,图像中区域建议的数量通常超过颜色集合C的大小(∼ 10)。此外,严重重叠的色块会阻碍视觉基础,因此需要将图像区域分为多个批次,每个批次包含少量中度重叠的图像区域,并分别使用视觉子提示标记每个批次。为了处理不包含目标区域的批,在解码词汇表中进一步引入了一个新的候选文本none,表示批中没有目标区域。
  实验结果表明,提示微调后的 VL-PTM的性能大大优于微调后的PTM,
  1、CPT在zero-shot 和few-shot 设置下比随机基线和强微调基线有很大的优势(例如,在RefCOCO评估中,one-shot 的绝对准确度平均提高17.3%)。不同的数据集和不同的训练次数之间的改进是一致的。这表明CPT可以有效地提高VL PTM调谐的数据效率,并刺激VL PTM的视觉接地能力。
  2、值得注意的是,与微调相比,CPT实现的标准偏差要小得多(例如,在RefCOCO评估中,一次试验平均降低73.8%的相对标准偏差)。这表明,来自预训练的连贯的调节方法可以导致更稳定的few-shot 训练,这也是评估少镜头学习模型的关键因素。
  3、可以注意到,在RefCOCO+评估中,CPT的微调性能稍逊于16 shots。原因是Ref-COCO+有更多基于颜色的表达(例如,穿着红衬衫和蓝帽子的人),这可能会干扰基于颜色的CPT。然而,在完全监督的场景中,通过更多的调优实例可以缓解这个问题,模型可以学习更好地区分查询文本和提示模板中的颜色。
  4、在完全监督的设置下,CPT实现了与强微调VL PTM相当的性能。结果表明,即使在完全监督的情况下,CPT也是VL-PTM的一种竞争性调优方法。总之,与普通的微调方法相比,CPT在zero-shot、few-shot和完全监督的视觉方面实现了优越/可比且更稳定的性能。
  参考资料:
  https://arxiv.org/abs/2109.11797?

娜扎和张翰如果她不爱你,你做的再多也没用近日,在古力娜扎新剧归还世界给你开播发布会现场,一位神秘人送上花篮并附上祝福贺卡,上面写着祝(猴子)新剧收视长虹。于是大量网友猜测是张翰送的花篮,疑似两人复合!因为猴子这个表情符号人生若只如初见,还记得大明湖畔的朱旺君么?小时候很喜欢看人鱼小姐啊,觉得朱旺可帅了!若说金成珉是谁,很多人一片茫然,若提起朱旺君,很多人不由脱口而出,那不是人鱼小姐里的帅哥么?小编看的第一部韩剧就是人鱼小姐,当时除了仙女一周杰伦vs蔡徐坤我16年前写的歌,现在依然在流行从来不知什么叫微博超话的小编,终于因为周杰伦而去打了榜。在过去前一周里,一群70后80后90后的叔叔阿姨们,像打了鸡血一样,为周杰伦发起了一场打榜之战。其最终的结果是,周杰伦超话破谢娜不遗余力秀恩爱的背后,是真的幸福,还是害怕失去张杰?近日谢娜发了一条微博俏俏小声喊了两声爸爸,没注意听到,她突然喊了一声张杰!杰哥几乎跳了起来。一个家庭和睦的滑稽场景让网友们也是忍俊不禁。这性子肯定是随妈妈,原来两个女儿的性格都随了5年时间2次离婚,她从一线掉到18线,却连续两年捐款70万说起黄奕,不少人的第一印象是她跟前夫黄毅清的各种狗血手撕大战。然而作为演员,黄奕是合格的,甚至可以说是一个很优秀的演员。她负面新闻缠身之前的剧几乎都是有口皆碑的。上错花轿嫁对郎新女人民日报发声痛批,德云社和郭德纲被点名,观众需要什么样相声?如果说赵本山振兴了小品和二人转,那么郭德纲和德云社则把快要失去的相声又带了回来。近年来,德云社在相声界一家独大,其商演所到之处,往往场场爆满,一票难求,可见大家对德云社相声的喜爱非亲爱的,热爱的地图事件后,处于风口浪尖的杨紫,她会糊么?在这个燥热的夏天,在电视剧市场中,最火的要属亲爱的热爱的了。这部电视剧给深刻的印象就是一甜到底。甜而不腻的剧情,让那些白天上班累,生活中又全是柴米油盐吵吵闹闹的上班族们,既缓解了心许晴恋过他,江珊爱过他,徐帆迷上他,这个男人到底有什么魔力?说起王志文,很多9000后的网友们或许并不熟悉,但在90年代,在那个网络尚不发达的年代,王志文可是妥妥的大明星。小编对王志文最大的印象,则是在2014年电视剧大丈夫中他和韩童生精彩想让婆媳关系不再是婚姻粉碎机,那就应该学学张歆艺和袁弘张歆艺随袁弘去婆婆家吃饭。张歆艺的婆婆煲汤时,不小心将锅盖倒扣在锅上面,锅盖上的塑胶融化了。袁弘和父亲觉得汤应该倒掉,因为胶纸融到汤里,喝了对身体不好。婆婆节俭,舍不得倒掉汤。一再被亲生父母坑的明星,张韶涵上榜,为梅艳芳点赞如果说家是温馨的港湾,那父母便是我们坚实的后盾。而母慈子孝家和往事兴历来是中华民族的传统家庭美德,更有慈母手中线,游子身上衣这样对母爱深挚的讴歌。然而在名利交杂的娱乐圈,那些外表光2019年被抖音带火的5首歌,第5首最火,不得不佩服网络随着互联网时代的持续发展,社交短视频行业迎来了爆发式增长,它更多的成为很多人闲暇时的一种娱乐方式。其中最出名的要属抖音快手微视秒拍好看等短视频平台,里面除了会分享一些有趣的事情外,
吴宣仪回应被嘲土丑,坦言乱穿只为故意气网友,时尚品味太堪忧知名女团火箭少女101已解散许久,但前成员吴宣仪的发展始终很好。除了和顶流男星肖战一同主演了斗罗大陆,吴宣仪还成为了各种综艺的常客,曝光度非常高。不过吴宣仪的路人缘一直都很不乐观,黄晓明为何感叹所有的感情都会变?网友直言等着他们俩官宣2020年轻言轻第11篇戳右边关注我,每天吃新瓜旧瓜近日,黄晓明在一档采访节目中,谈到感情等问题说到所有感情都会变,只有亲情能走到最后。很多网友猜测疑是婚变的前奏?其实这两年,他们直播骗钱?孙一宁被女友曝私密聊天,前者称最会套路粉丝刷礼物孙一宁和假CP女友后续又来了,呜呜爆出了自己和孙一宁的聊天记录,聊天记录里孙一宁说你直播,我俩连麦,我套路她们刷礼物,我超会。,各种套路她们继续,我俩分红,我俩去提车,这些都是从孙孙一宁被敲诈30万,征信受损网友不愿意走法律途径只想要钱近日,娱乐圈中讨论话题度最高的当属孙一宁了,在其曝光了和王思聪的舔狗聊天记录以后,不少网友都被孙一宁的直率和坦诚圈粉。在王思聪风波过去之后的首次直播中,前半个小时就赚了30万。让人人间芭比LISA现九头身,霸气再登大刊封面,网友直呼鲨疯了近日,有媒体曝光了BlackPink成员LISA在港版时尚杂志VOGUE的七月封面照。嫩粉色嘟嘟唇半露牙齿微微翘起,一双魅惑眼眸百无聊赖地盯着镜头。湿发配着魅惑烟熏妆贴在脸颊上,随叛逆者遭3000人打低分,央视出面力挺,粉丝称朱一龙被人嫉妒最近有一部谍战剧非常的热火,它就是朱一龙和童瑶主演的叛逆者,这部剧被很多人誉为是胡歌主演的伪装者的同款作品,不光是两位主角在剧中表演的非常的精彩,一堆配角也丝毫没有拖后腿。特别是演王思聪2条朋友圈表露心境,绯闻女主角孙一宁账号被永久封禁6月15日,国民老公王思聪曝光了他和孙一宁的聊天记录,大有继续开撕的势头。另一边,有些知情人士也爆出了王思聪朋友圈里发的内容,连发两条,可以看出是非常愤怒与无语了。据目前爆出的内容流行内衣外穿?倪妮迪丽热巴穿同类低胸礼服,完美身材显露无疑在昨天晚上,我国举办了第27届白玉兰颁奖典礼。在这场颁奖典礼中,电视剧觉醒年代和山海情的剧组成员们成为了最大赢家,其中大部分奖项都是由这两个剧组的成员们所领取了。在昨天众明星艺人们InStyle美妆盛典红毯张柏芝显老态,张天爱造型大胆,她最惊艳5月27日,InStyle美妆盛典在上海举行。活动本着对别样美的分享,盛情邀请了张柏芝张天爱颖儿袁姗姗王霏霏曾可妮刘令姿等多位圈内女星出席。不得不说当晚的现场可谓群芳争艳,而每位女董花花晒美食又炫富,特地给鞋拍特写,张大奕早就换成便宜国产鞋在近两天,董花花的生活过得可真是十分丰富多彩。她先去自己朋友的摄影棚里拍了一套写真,后频繁地晒出自己的奢华首饰。而在昨日,董花花还去杭州的某鲜花农场摘了杨梅。在昨日的动态中,董花花王一博现身品牌代言,首次回应短发争议,脖子变粗眼睛变小遭群嘲6月2日,王一博现身品牌代言活动。当日的他身着拼接格纹外套登场,镜头中看起来高大威猛,十分壮硕。能看出品牌方还特意选用了他最爱的绿色,不过在代表发言时,王一博眼睛看向一边,似乎十分