CoCa多模态图像文本基础模型

　　原文：Yu J, Wang Z, Vasudevan V, et al. CoCa: Contrastive Captioners are Image-Text Foundation Models[J]. arXiv preprint arXiv:2205.01917, 2022.
　　探索大规模预训练基础模型在计算机视觉中具有重要意义，因为这些模型可以快速迁移到许多下游任务中。本文提出了对比Captioner模型(Contrastive Captioner，简称CoCa)，结合对比损失和captioning损失来预训练图像-文本编码器-解码器基础模型，从而兼具了对比方法(如CLIP)和生成方法(如SimVLM)的优点。与标准的编码器-解码器Transformer(所有解码器层都参与编码器输出的处理)不同，CoCa省略了解码器前半部分的交叉注意力来编码纯文本表示，并在后半部分用交叉注意力将图像编码器的输出和多模态解码器级联起来，以学习多模态图像-文本表示。我们在单模态图像和文本嵌入之间应用对比损失，在多模态解码器的输出上应用captioning损失，以自回归的方式预测文本tokens。通过将所有标签简单地视为文本，我们利用有标签图像数据和带噪声图像-文本数据对CoCa进行了预训练。从经验上看，CoCa在广泛的下游任务上实现了SOTA性能，包括视觉识别(ImageNet、Kinetics-400/600/700、Moments-in-Time)、跨模态检索(MSCOCO、Flickr30K、MSR-VTT)、多模态理解(VQA、SNLI-VE、NLVR2)和图像描述(MSCOCO、NoCaps)。值得注意的是，CoCa在ImageNet图像分类任务上，采用零样本的方式获得了86.3%的精度，使用冻结编码器获得了90.6%的精度，使用微调编码器获得了91.0%的SOTA精度。
　　相关工作  CLIP：从自然语言监督中学习可迁移的视觉模型 ALIGN：基于噪声文本监督的视觉和视觉语言表示学习 ViT：一图胜千言，用于大规模图像识别的Transformer VinVL：视觉语言模型中的视觉表示
　　论文故事
　　深度学习最近见证了基础语言模型的兴起，如BERT、 T5、 GPT-3，这些模型在大规模数据上进行预训练，并通过零样本、小样本或迁移学习的方式展示了通用的多任务能力。与专业模型相比，针对大规模下游任务的预训练基础模型可以分摊训练成本，为模型达到并超过人类智能提供了契机。
　　针对视觉和视觉-语言问题，研究者们已经探索了几种基础模型：(1)开拓性工作表明，在图像分类数据集(如ImageNet)上，使用交叉熵损失预训练的单编码器模型是有效的。图像编码器提供了通用的视觉表示，可用于各种下游任务，包括图像和视频理解。然而，这些模型在很大程度上依赖于图像注释作为标记向量，并且没有吸收人类自然语言的知识，这阻碍了它们在涉及视觉和语言模态的下游任务中的应用。(2)最近，研究者们在大规模含有噪声的图像-文本对上，利用对比损失对两个并行的编码器进行预训练，证明了图像-文本基础模型的可行性。除了仅用于视觉任务的视觉嵌入外，形成的双编码器模型还可以将文本嵌入编码到相同的潜在空间，从而实现新的跨模态对齐功能，如零样本图像分类和图像-文本检索。然而，由于缺少学习图像-文本融合表示的联合组件，这些模型不能直接适用于视觉-语言理解任务，如视觉问答(VQA)。(3)另一项研究探索了使用编码器-解码器模型进行生成式预训练，以学习通用的视觉和多模态表示。在预训练期间，模型从编码器一侧获取图像，并在解码器输出上应用语言建模损失(或PrefixLM)。对于下游任务，解码器的输出可以用作多模态理解任务的联合表示。虽然通过预训练的编码器-解码器模型获得了优异的视觉-语言结果，但它们不会生成与图像嵌入对齐的纯文本表示，因此对于跨模态对齐任务来说，可行性和效率较低。
　　在这项工作中，我们统一了单编码器、双编码器和编码器-解码器范式，并训练了一个包含三种方法优点的图像-文本基础模型。我们提出了对比Captioner模型(CoCa)，该模型采用经过对比损失和captioning损失训练的编码器-解码器架构。如图1所示，我们将Transformer解码器解耦为两部分，分别是单模态解码器和多模态解码器。我们省略了单模态解码器中的交叉注意力来编码纯文本表示，并用交叉注意力将图像编码器的输出和多模态解码器级联起来，以学习多模态图像-文本表示。我们在图像编码器和单模态文本解码器的输出之间应用对比损失，并在多模态解码器的输出处应用captioning损失。此外，通过将所有标签简单地视为文本，我们利用有标签图像数据和带噪声图像-文本数据对CoCa进行了训练。图像注释文本上的生成损失提供了类似于单编码器交叉熵损失的细粒度训练信号，有效地将上述三种预训练范式纳入到统一的方法中。
　　图1：经过预训练的CoCa模型能够以零样本、冻结特征或端到端微调的方式应用于下游任务，包括视觉识别、视觉-语言对齐、图像描述和多模态理解。
　　CoCa利用对比学习来学习全局表示，并为细粒度的区域级特征添加文本描述，从而有利于图1所示的三类任务。CoCa表明，单一的预训练模型可以在零样本和小样本迁移任务上优于许多专业模型。例如，CoCa在ImageNet上获得了86.3%的零样本图像分类精度，在MSCOCO和Flickr30k上获得了更好的零样本跨模态检索结果。通过冻结编码器，CoCa在ImageNet上的分类精度为90.6%，在Kinetics-400/600/700上的得分分别为88.0%/88.5%/81.1%，在Moments-in-Time上的得分为47.4%。经过微调后，CoCa在ImageNet上的分类精度进一步达到了91.0%，在VQA上的得分达到了82.3%，在NoCaps上的得分达到了120.6。
　　模型方法
　　图2：CoCa的架构和训练目标。
　　表1：CoCa的变体。图像编码器和文本解码器都是Transformer。
　　图3：用于视频识别的CoCa。
　　实验结果
　　图4：CoCa与其他图像-文本基础模型(不针对特定任务定制)和任务专用模型的比较。
　　表2：使用冻结编码器或微调编码器进行图像分类和视频动作识别的结果。
　　图5：模型大小对图像分类精度的影响。
　　表3：在Flickr30K和MSCOCO数据集上的零样本图像-文本检索结果。
　　表4：在ImageNet、ImageNet-A、ImageNet-R、ImageNet-V2、ImageNet Sketch和ObjectNet上的零样本图像分类结果。
　　表5：在MSR-VTT测试集上的零样本视频-文本检索结果。
　　表6：CoCa与其他视觉-语言预训练模型在多模态理解任务上的比较。
　　表7：在MSCOCO和NoCaps数据集上的图像描述结果。
　　图6：CoCa以NoCaps图像作为输入生成的文本标题示例。
　　表8：CoCa的消融实验。默认设置用粗体显示。
　　表9：视觉识别实验中使用的超参数。
　　表10：多模态实验中使用的超参数。
　　总结讨论
　　在这项工作中，我们提出了图像-文本基础模型CoCa，将现有的视觉预训练范式和自然语言监督统一起来。CoCa在不同来源的图像-文本数据上进行了预训练，在编码器-解码器模型中有效地结合了对比损失和captioning损失。CoCa在广泛的视觉和视觉-语言问题上获得了一系列最先进的表现。我们的工作弥合了各种预训练方法之间的差距。我们希望CoCa能为图像-文本基础模型的研究提供新的方向。
　　多模态人工智能
　　欢迎关注＂多模态人工智能 ＂公众号，一起进步^_^

把豪车戴在手上把发动机塞进手表布加迪联名手表近200万近日，JacobCo。手表联名布加迪推出了陀飞轮手表，该系列的设计灵感来自于Chiron，设计师将布加迪的W16发动机模型塞进了手表里，并且还原了可以活动的曲轴和活塞。目前还没有定解放暴增4倍天然气重卡发动机111月分析临近年底，天然气重卡和发动机市场正在起变化。由于车用LNG价格迅速上涨，很可能会对天然气重卡及动力市场造成困扰甚至抑制，12月乃至明年一季度的天然气重卡和发动机市场，正面临着下滑的尼日利亚会遵从西共体5年二手车限制令吗？根据PUNCH网站报道，尼日利亚汽车经销商协会近日表示，一旦尼日利亚实施了西非国家经济共同体燃油等级和车辆排放标准条例，从明年开始，进口到尼日利亚的汽车价格将大幅上涨。西非国家经济作为苹果迷你选哪一款苹果AppleCar概念车量产呢？苹果也要造车了有媒体报道称，关键供应链厂商已证实，苹果计划在明年9月发布首款AppleCar！这比原先规划至少提前了两年时间，甚至AppleCar原型车已经在美国加州上路测试。外界这十年间，你应该投中国股市还是美国股市？对于上述这个问题，基本的观点是应该投中国股市。这从暴富概率和避免风险这两个角度看，统计数据支持这个观点。本文对中美两国股市的统计，数据的时间跨度为2011年6月2日2021年6月1抢占信息科技制高点，巨头瞄向系统加速物联网落地文杨剑勇信息科技发展惊人，PC互联网已成为历史，移动互联网也逐渐褪去，继而进入一个数以百亿连接规模的万物互联时代，而芯片通信与系统是贯穿每个信息科技发展基础。诸如PC互联网时代下的真实的变形金刚XBUS电动车一辆车可以变出七种形态近日，德国品牌ElectricBrands发布一款名为XBUS的电动车，有趣的是，它的尺寸并不像车名中的BUS那么大，而是一款长度仅有3。6米的轻型电动车。据悉，新车的起售价格为1满血暴走的Hero大盘点有一个99的人猜不到游戏陪伴小伙伴走过了无数个青春日夜，一代游戏一代神，记忆里总有抹不去的经典瞬间。无论是被boss狂虐，还是被玩家吊打，总有那么几个游戏Hero让人印象深刻。盘点那些满血暴走的Her史上最强奇骏的价格策略配置较同级竞品略胜一筹在全球，每五位奇骏车主中，就有一位来自中国。这就是奇骏的魅力。迄今，奇骏在全球市场累计销量超过650万辆，其中中国市场累计超过142万辆，移居第一阵营。7月30日，在内蒙古响沙湾，中证商品指数有限责任公司在河北雄安新区开业运营证监会发布微信公号3月31日消息，当日，中证商品指数有限责任公司在河北雄安新区市民服务中心举行开业仪式。中国证监会副主席方星海，河北省副省长葛海蛟，雄安新区党工委副书记管委会常务副这些公司有望调入沪深300中证500上证50三大指数按照惯例，6月包括沪深300中证500上证50在内的一系列指数将执行2021年年中指数样本股的调整。因此各大机构往往会依据相关规则对调整名单进行预测。约25只个股有望调入沪深300

<<<<<<－>>>>>>

图微软的Andromeda和Polaris要被Santorini取代根据知名Windows爆料人士WalkingCat分享的最新信息，内部代号为Andromeda和Polaris的两款Windows10shell已经被取消。Polaris本质上就是删订阅？政治阴谋？想多了，谷歌只想挽回广告商MorketingGlobal文Rolan作为谷歌旗下最大的视频网站，Youtube从去年的八月份开始，就持续发生大量youtuber（视屏上传者）的订阅者被系统自动取关，视频点赞显示被缩减等情况。之后，从今年小米全面拥抱AIoT，但物联网战略格局太窄？文杨剑勇自今年启动手机AIoT双战略后，并投入百亿支持AIoT发展，到现在成立AIoT战略委员会，可以看出小米对于物联网的野心。在智能手机全球下滑趋势，各手机厂商均寄望于寻找新的增深度推动提速降费何时不靠政府靠市场文通信产业报（网）总编辑辛鹏骏提速降费连续三年写进政府工作报告并提出具体指标，这是单一行业前所未有的。这既是中央政府重视，更体现社会期盼。只要通信发展无止境，提速降费就永在路上。信什么是字符集和编码？ASCIIUTF8UTF16UTF32又是什么？作者乔戈里，哈工大计算机本硕，百度工程师当天下午在计算机底层，比如说你的名字小萌在计算机中并不是文字的形式，而是一串二进制数字，如011001100110人类只认识文字，可惜计算机王腾小米8下个月也会移植小米9的功能IT之家3月9日消息今天下午小米手机官微表示小米8屏幕指纹版手机即将升级小米9的九大功能，而深夜小米公司产品总监王腾转发该微博表示，小米8也会升级这些功能，现在买小米8是晚买享折扣小米电视哪个软件可以看到中央电视台？有线电视IPTV智能电视（网络机顶盒）是看直播节目的三种方式，清晰度和流畅度方面，有线电视是最好的，其次是IPTV，最后是网络机顶盒，使用网络机顶盒观看直播节目最大的好处就是免费。代表声音刘庆峰人工智能检察时代已经来临！3月9日检察日报两会特刊法治中国头版原标题刘庆峰代表谈AI助力检察人工智能检察时代已经来临全国人大代表科大讯飞股份有限公司董事长总裁，语音及语言信息处理国家工程实验室主任，安徽省工华为的5G技术与美国的5G技术相比如何？华为5G技术和美国5G技术比较华为是一家公司，美国是一个国家中国涉及5G企业主要有华为，中兴，大唐电信。美国主要涉及5G企业有高通，思科，英特尔。华为和高通竞争全球5G标准5G标准天猫也要抽签了鞋圈里面snkrs人手一个，这是nike的，adidas的大家一直都是在官网抢购，其实它以前也是有一个叫confirmed这个软件来发售的，但是被破解了，人家adidas硬气的直接NoSQL中负载均衡系统如何解决热点问题，提高可用性？本文根据dbaplus社群第179期线上分享整理而成，文末还有好书送哦讲师介绍陈新进阿里云技术专家参与阿里云自研NoSQL存储系统（表格存储）六年以上研发主要负责产品的master