多模态匹配模型之图像预处理EfficientNet算法
多模态匹配
两个商品的名称各异(如iPhone 和苹果), 但是它们的图像往往是相同或相似的,为此考虑引入商品的图像信息来进行辅助聚合。以计算商品相似度为例:
将商品的名称和图像分别通过文本编码器和图像编码器得到对应的向量表示后,再进行拼接作为最终的商品向量,最后使用余弦相似度来衡量商品之间的相似度。文本编码器:使用文本预训练模型 BERT作为文本编码器,将输出平均池化后作为文本的向量表示
图像编码器:使用图像预训练模型 EfficientNet作为图像编码器,提取网络最后一层输出作为图像的向量表示 EfficientNet模型
EfficientNet是一种先进的卷积神经网络,由谷歌在2019年的论文"efficient entnet: Rethinking Model Scaling for convolutional neural Networks"中训练并发布。EfficientNet有8种可选实现(B0到B7),甚至最简单的EfficientNet B0也是非常出色的。通过530万个参数,实现了77.1%的最高精度性能。
EfficientNet作者希望找到一个可以同时兼顾速度与精度的模型放缩方法,而提高模型性能基本从下面三个维度考虑:网络深度、网络宽度、图像分辨率。如 ResNet-18 到 ResNet-152 是通过增加网络深度的方法来提高准确率,通过深度增加来提取更多复杂的特征,提取的信息更为丰富。GoogLeNet的Inception结构则是通过增加宽度来提高准确率。作者认为深度、宽度、分辨率这三个维度是互相影响的,三者需要达到一个平衡,要探索出三者之间最好的组合,最后提出了EfficientNet,它是第一个量化三个维度之间关系的网络。
网络深度——神经网络的层数 网络宽度——每层的通道数 网络分辨率——是指网络中特征图的分辨率(如224×224)
EfficientNet模型的调参示意图:
图a是baseline(基础网络),图b,c,d三个网络分别对该基础网络的宽度、深度、和输入分辨率(resolution)进行了扩展,即单独对某一个维度进行扩展,而最右边的e图,就是EfficientNet的主要思想,综合宽度、深度和分辨率对网络进行扩展,平衡了三个维度,并且需要一个很好的baseline,在这样的基础网络上进行平衡效果会更好。
重点结论:放大网络宽度、深度或分辨率中任何一个维度都可以提高准确率,但是对于更大的模型准确率的收益减少,如ResNet可以深度增加到1000层,但是准确率和101层基本相同,准确率很快饱和,准确曲线变平稳,增加很少。
问题:既然三者是有联系的,那么如何平衡三者,让网络达到最优呢?
在这篇文章中,我们提出了一个新的复合缩放方法,使用一个复合系数ϕ 来缩放网络宽度,深度和分辨率。如下图,d、w、r表述三个复合系数,并且限制α⋅β2⋅γ 2≈2,其中α,β,γ≥1,这样可以使得计算量每次增加基本相同的量,且不会增加太大。
EfficientNet-B0是用MnasNet的方法搜出来的,利用这个作为baseline来联合调整深度、宽度以及分辨率的效果明显要比ResNet或者MobileNetV2要好,由此可见强化学习搜出来的网络架构上限可能更高。
发现了对于EfficientNet-B0来说最好的值是α = 1.2 , β = 1.1 , γ = 1.15 ,这样就找到了baseline中三者最好的值,在这个baseline上进行平衡调整,通过调整公式中α,β,γ,并在限制α⋅β2⋅γ 2≈2下,通过不同的ϕ 放大baseline网络,得到了Efficient-B1到B7,Efficient-B7效果最好,如下图。
EfficientNet-B7在ImageNet上达到了最好的水平,即top-1准确率84.4%/top-5准确率97.1%,然而却比已有的最好的卷积网络GPipe模型小了8.4倍,并且运算时间快了6.1倍,EfficientNet-B0的总层数是237层,而EfficientNet-B7的总数是813层。
该模型的构建方法主要包括以下2个步骤:使用强化学习算法实现的MnasNet模型生成基线模型EfficientNet-B0。
采用复合缩放的方法,在预先设定的内存和计算量大小的限制条件下,对EfficientNet-B0模型的深度、宽度(特征图的通道数)、图片大小这三个维度都同时进行缩放,这三个维度的缩放比例由网格搜索得到。最终输出了EfficientNet模型。 MnasNet模型
MnasNet模型是Google 团队提出的一种资源约束的终端 CNN 模型的自动神经结构搜索方法。该方法使用强化学习的思路进行实现
MnasNet: Platform-Aware Neural Architecture Search for Mobile,探讨了一种使用强化学习设计移动端模型的自动化神经架构搜索方法。为了解决移动设备的速度限制,明确地将速度信息纳入搜索算法的主要奖励函数中,以便该搜索能够识别在准确度和速度之间达到良好折中的模型。
MnasNet其整个流程主要由三部分组成:一个基于 RNN 的控制器,用于学习模型架构并进行采取;一个训练器,用于构建和训练模型以获得准确度;还有一个推理引擎,可使用 TensorFlow Lite 在真实手机上测量模型速度。我们构想出了一个多目标优化问题,以期同时实现高准确度和高速度,并且采用带有自定义奖励函数的强化学习算法来寻找帕累托最优解(例如,能够达到最高准确度但又不会拉低速度的模型)
MNasNet的延迟是通过在实际硬件上测出来的真实值,使用的设备是谷歌的Pixel手机,而传统的方法是使用FLOPS作为性能评价标准。EfficientNet使用
在TensorFlow的官方版本中,最新的代码里也已经合入了EfficientNet-B0到EfficientNet-B7的模型代码,在tf.keras框架下,可以像使用ResNet模型一样,一行代码就可以完成预训练模型的下载和加载的过程。from tensorflow.keras.applications import EfficientNetB0 image = imread("test.jpg") # 加载预训练模型 model = EfficientNetB0(weights="imagenet") # 输入处理 image_size = model.input_shape[1] x = center_crop_and_resize(image, image_size=image_size) x = preprocess_input(x) x = np.expand_dims(x, 0) # 预测及解码 y = model.predict(x) decode_predictions(y) # 加载EfficientNet(只是网络结构,无预训练参数) from efficientnet_pytorch import EfficientNet model = EfficientNet.from_name("efficientnet-b0") # 加载预训练EfficientNet model = EfficientNet.from_pretrained("efficientnet-b5") print(model) # 特征提取 # Preprocess image tfms = transforms.Compose([transforms.Resize(224), transforms.ToTensor(), transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225]),]) img = tfms(Image.open("img.jpg")).unsqueeze(0) print(img.shape) # torch.Size([1, 3, 224, 224]) # 提取特征 features = model.extract_features(img)
EfficientNet号称是最好的分类网络,对于单纯的端到端分类任务,EfficientNet的系列模型是最优选择。但作为更细粒度的语义分割任务,在骨干网的特征环节,如果显存有限,则EfficientNet系列模型并不是最优选择。主要原因是该系列模型对GPU的显存占有率过高。
方与圆之间方圆之间的人情世故一个人,做事只方不圆,过于刚正必将处处碰壁,受人排挤。一个人,做人只圆不方,圆滑透顶必将惹人讨厌,受人提防。方是做人的脊梁,圆是处事的锦囊。真正的强者,都是外圆内
真是(原创)回想起,我们的相遇是在一次难得的聚会上。当时看到她仿佛像认识了好久的一个朋友,感觉特别的久远和欣慰。整个过程中,我的目光几乎都没有从她身上离开过。当时我一直在想,怎么有这么美的女子
活着就是幸运!冬日生活打卡季头条创作挑战赛三年疫情让人措手不及,打乱了很多的人计划和生活,突然感觉活着就是幸运!平时有人觉得生活太累了,好想停下来歇一歇,疫情期间真的让你歇着了,你是不是觉得还是
去巢湖古镇柘皋吃早饭,逛老街朋友向我推荐,巢湖柘皋镇的早点很好吃,他同事经常特地开车去吃早饭,这应该是个拍摄的题材。旋即上网搜寻相关知识,做好功课。连日的阴雨阻碍了行程,这两天太阳终于出来了。2020年11月
这里是神农架华中屋脊神农尝百草北纬31度的绿色奇迹人一辈子不得不去的地方雪韵大九湖陈利安摄在这里你可以感受到神农顶缱绻如诗大九湖如诗如画可以与金丝猴零距离把小火车开进森林一切美好尽收眼底本期花
张南高速桑植至龙山段,2024年建成通车,张家界再添出省通道张家界大家都十分熟悉,是湖南省西北部的一个重要的旅游城市,张家界的地层复杂多样,造化了当地的特色景观。山地面积占张家界总面积的76,其中最具特色的是石英砂岩峰林地貌。是当年阿凡达电
国家级的奥陶纪遗迹阳泉市盂县玉华洞遗迹名称盂县赵盆沟玉华洞遗迹地址阳泉市盂县仙人乡赵盆沟遗迹亚类碳酸盐岩地貌(岩溶地貌)遗迹时代奥陶纪遗迹评级国家级遗迹简介玉华洞位于赵盆沟村西半山腰,发育于奥陶系马家沟组灰岩中,共
GIMSUN月刊第四十一期GS新鲜事岁末的钟声即将响起,各品牌店铺也纷纷为自身更换了新一轮的装饰和活动推广。以下是某品牌客户委托Gimsun制作的一个PVC材质的充气雪人道具。看上去胖乎乎的雪人摆放在门店的
平板界全球首发MagicOS7。0天玑8100!荣耀平板V8Pro看点依次揭晓12月20日,荣耀官方公布更多关于荣耀平板V8Pro这款旗舰平板的信息,分别是两大全球首发平板行业内全球首发MagicOS7。0系统以及平板行业内全球首发天玑8100芯片。以目前市
12G512G上线就降300,荣耀80继续保持良心,国人很支持独立之后的荣耀品牌产业链恢复很迅速,特别是他旗下的数字系列,从荣耀50系列到如今的荣耀80系列,仅仅用了两年左右的时间就打开了国内中高端市场,成为同价位中销量最理想的代表。从特点上
今日欧美明星时尚街拍图集(2022年12月20日)今日欧美明星时尚街拍图集(2022年12月20日)时尚欧美明星的街拍就是行走在马路上的秀场,明星们的街拍就是时尚界的潮流风向标。明星们身穿什么牌子的衣服肩背什么大牌包包,脚蹬什么潮
理财亏损23万元全额获赔,银行为何担责?判决书显示,在法院认定银行未尽适当性义务,致投资者购买与其风险等级严重不匹配的产品之时,银行需就投资者的损失承担全部赔偿责任作者财经记者严沁雯编辑袁满花费百万买理财,不仅没有回本还
家有新生儿宝宝,万一阳了怎么办?新生儿万一感染怎么办?要不要送医院?宝宝感染后,会不会有后遗症?看着小小的娃,许多新手爸妈变得焦虑起来,总担心刚出生的小宝宝也会被传染。家有小宝贝的爸妈们,需要知道哪些呢?图片来源
全家已经阳转阴,彻底恢复,亲身经历分享给大家怎么做先说结论娃娃38。5以下,没必要吃药。娃娃发烧,要提升室温,脱掉衣物散热,持续物理降温。多喝水,大量喝水,只要不吐,就喝水,尿液可以带走大量的热量。去药店买电解质补液粉,避免饮水过
老一辈的家庭教育家庭教育对孩子的人格塑造极其重要我发现我们家的上一辈,其实也是代表了许许多多的家长们,从我这一代人去看他们,会感觉他们都挺奇怪的,每次当他们的孩子遇到一些问题,他们的第一时间不是帮
找到自己的动力一hr老婆孩子都放假了,他们呆在家里,哪也不去。爱人在家里先是忙着抢药,然后听四面八方关于羊了的消息,以及如何治愈等等。每天在群里发各种各样的讯息,搞得大家紧张兮兮。老婆说,在家里
刘恺威与小8岁女友起争执?知情人曝杨幂女儿不喜欢李晓峰刘恺威女友李晓峰近日毫无预警删光所有视频,知情人士称小两口起争执闹翻,更爆料杨幂女儿不喜欢李晓峰。杨幂前夫刘恺威日前曝出与小8岁的李晓峰的恋情后,李晓峰就被网友挖出过去曝出出的霸道
岳丽娜不顾一切嫁给穷小子,在6平米的地下室连生三子,她怎样了谁都不能阻拦我和郭靖宇在一起,父母也不行!说话的人是演员岳丽娜,她是家境优越的小公主,被父母捧在手心里长大。然而25岁的岳丽娜非要和要钱没钱要名没名的穷小子郭靖宇结为连理。当时大家
被指插足锦绣妃子张嘉倪婚姻当小三!21岁网红失控轻生遭送医35岁的中国优质女星张嘉倪因在延禧攻略饰演顺嫔一角而爆红,被封为为锦绣妃子称号,7年前与前夫买超结婚,婚后育有2子,一家四口幸福美满。万万没想到,21岁的网红邵晴竟被爆出插足张嘉倪
曝朱小伟做婚前财产公证,陈萌骗别墅被发现,朱之文质疑儿媳居心大衣哥的家事一直备受争议,他用金钱为儿子娶到了两任媳妇。但这两人的风评却都不怎么好,前者对朱小伟一点感情都没有,嫁给他就是为了学习大衣哥的直播技术,甚至在离婚后还诋毁朱家。而后者从
和赵本山反目成仇的6个徒弟如果小品要颁发最佳表演奖,那么赵本山绝对榜上有名,从1990年到2001连续21年的连续登台使其名声越来越大,2003年6月成立本山传媒,致力于培养新人,吸收了大量优秀的喜剧演员。
杨幂刘恺威离婚四年,才看出,分开才是最好的结局!刘恺威曾经说第一次见到杨幂的时候,那是一个饭局,刚洗完澡的杨幂头发还没擦干就出来了,头发湿湿的杨幂真实的迷人,让刘恺威怦然心动!而两人的情起缘与电视剧如意!那是两人的第一次合作,作