范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文

ResNet假说被推翻?Reddit小哥这么多年都没人搞懂Ta的原理

  来源:Reddit
  编辑:LRS  【新智元导读】ResNet 发布至今已经有六年多了,但它的工作原理至今仍然是个迷。最近Reddit 上一个网友发帖表示,是否ResNet的创新出发点就有问题?
  2015年,一个里程碑的神经网络模型ResNet发布。因为在过深的网络训练会产生梯度消失和梯度爆炸,并且训练过深的网络中会出现准确率下降的问题,而RestNet 采用残差连接很容易让研究人员训练出上百层甚至上千层的网络。
  在ResNet论文观察到的退化问题(degradation problem),即34层的网络在整个训练过程中比18层的网络具有更高的训练误差,但18层网络的解空间显然是34层网络的子空间。
  一个很自然的假设是这个问题和RNN 网络中观察到的梯度消失问题(Vanishing Gradient Problem)相同,也是长短时记忆网络(Long-Short Term Memory Networks, LSTM)主要改进的问题。
  但论文的作者Kaiming 大神当时并不这么认为,他在论文中写道
  「我们认为这种优化困难不太可能是由梯度消失引起的,因为这些普通神经网络使用 BN 进行训练,确保前向传播的信号具有非零方差可以缓解这个问题。我们还验证了反向传播的梯度,结果可以看到表现出 BN 的结果也很正常。因此,前向或后向的信号都不会消失。事实上,34 层的普通网络仍然能够达到有竞争力的精度,这表明这个解决方法在一定程度上是有效的。我们推测普通神经网络的收敛速度可能呈指数级低,这会影响训练误差的减少。未来将研究这种优化困难的原因。」
  这个论点也被网友称为「ResNet 假说」,而关于ResNet 假说的正确性最近又在Reddit 上引起了热议。
  提问者认为,最近的许多论文和教程似乎都假设 ResNet 假设是错误的,论文的作者大多添加了跳跃连接以「改进梯度传播流」,并引用了原始的 ResNet 论文来支持这一主张。虽然添加跳跃连接会改善梯度流是很有道理的,但首先是什么导致了退化问题依然没有答案。
  跳过连接通过改进梯度流来解决退化问题的想法似乎与 ResNet 假设明显矛盾;那么这个想法是从哪里来的呢?ResNet 假说是否被证伪了?
  有网友从技术角度认为并没有完整的分析,关于 ResNets 的工作原理主要存在三种相互竞争的假说,并且给出了相关的论文:
  1、进行了迭代细化(iterative refinement)
  这篇论文从分析和实证两方面研究了resnet。研究人员通过显示残差连接自然地鼓励残差块的特征在从一个块到下一个块的过程中沿着损失的负梯度移动,从而在resnet中形式化了迭代细化的概念。
  此外,实证分析表明,resnet能够进行表征学习和迭代优化。通常,Resnet块倾向于将表示学习行为集中在前几层,而更高层执行特征的迭代细化。
  最后,研究人员观察到共享残差层会导致表示爆炸和反直觉的过拟合,文中提出了一个简单的策略可以帮助缓解这个问题。
  2、指数级的集成模型
  这项工作中对残差网络提出了一种新颖的解释:这个模型可以被视为许多不同长度路径的模型的集成。此外,残差网络似乎通过在训练期间仅利用短路径来实现非常深的网络。为了支持这一观察,研究人员将残差网络重写为一个显式的路径集合。
  研究结果表明,这些路径表现出类似整体的行为并不强烈地相互依赖。并且大多数路径都比人们预期的要短,在训练期间也只需要短路径,因为较长的路径不会产生任何梯度。
  例如,具有 110 层的残差网络中的大部分梯度来自仅 10-34 层深的路径。这篇论文的结果认为Resnet 能够训练非常深的网络的关键特征之一是残差网络通过引入可以在非常深的网络范围内携带梯度的短路径来避免梯度消失问题。
  3、原始论文中提到的,梯度传播过程被改进了
  答主也看过一些神经切线内核(neural tangent kernel stuff)的东西,但他仍然不明白其中的原理,并且他也认为没有人真正坐下来试图弄清楚真正的解释是什么。
  不过他有一个想法,可以通过考虑具有重叠跳过连接(overlapping skip connections)的网络来测试集成理论(ensemble theory),这些网络具有集成论文中定义的最大多样性(maximal multiplicity)。并且可以改变跳过连接长度的同时保持多重性不变,但还没有人这样做过任何与此有关的实验。
  还可以尝试的另一件事是使 Resnets 的梯度流保证完美而无需跳过连接的情况,但是当用户添加残差连接时,大多数此类事情都无法达到完美的情况,因此必须考虑新的方式来达成完美梯度传播。
  另一个高赞网友表示,捷径连接(shortcut connections)改善了损失情况,能够使优化变得更加容易,有很多研究结果都支持这一点。
  The Shattered Gradients Problem: If resnets are the answer, then what is the question? (ICML 2017) 表明 ResNet 具有更稳定的梯度。
  Visualizing the Loss Landscape of Neural Nets (NeurIPS 2018) 再次表明 ResNets 具有更平滑的损失表面。
  并且也有研究表示,可以不需要捷径来学习有效的表示,但优化会更难。例如,Fixup Initialization: Residual Learning without Normalization (ICLR 2019) 表明,如果你对初始化结果进行多次调整,那你可以在没有残差连接的情况下训练 ResNets 以获得不错的结果。
  RepVGG:Making VGG-style ConvNets Great Again (CVPR 2021) 表明可以在训练后移除捷径并仍然拥有性能不错的网络。
  但这仍然符合 ResNet 的原始想法:将每个块初始化为一个identify function,因此最初看起来好像参数实际上并不存在,也对网络训练没有产生任何影响,然后逐渐让块的效果发挥作用。
  也有网友认为标题的用词实在不准确,因为debunked 相当于直接给Resnet判定为错误,提问者也表示自己确实是标题党了,但标题无法更改了。
  参考资料:
  https://www.reddit.com/r/MachineLearning/comments/px3hzd/d_has_the_resnet_hypothesis_been_debunked/

糖糖一家人两年前的团圆夜,一通电话,为何揪起全家人的心?妈,笑一下!糖糖搂着妈妈的肩膀,在沙发旁拍下一段亲密的视频。妈妈开怀了很多,她心中一直默默祈祷着,希望妈妈能够早日康复。2018年的中秋节,对糖糖一家而言,如同宣判的前夜。人生双连怀孕三个月独生子老公意外去世,公婆求着留下孩子,该不该答应?文好孕姐25岁的月月(化名)才刚结婚半年,幸福的婚姻生活刚刚开始,谁知道砸下来一个晴天霹雳,老公意外车祸去世,月月极度伤心之下,发现自己已经怀孕三个多月了。公婆知道后恳求月月留下这怀孕后辞职和坚持上到生的孕妈有啥不同?过来人道尽现实,别否认文好孕姐对于一般上班的女性来说,一旦得知自己怀孕了。喜悦和满心期待的同时,一直在纠结一个问题,是辞职在家安心养胎,还是坚持上班直到生?我一个女性朋友,当初就面临这个抉择。她和老公结为何26岁护士爱上害她的人?情感中PUA的套路解析以及自救娱乐圈的海豚公主,早就帮我们示范了,不听妈妈的话,被PUA男控制的下场。如今又看到了一个活生生的生命就这么过去了。海豚音,声音小波图她是一名护士,因为一次意外,她爱上了毁她清白的副女高管斯黛拉如何让老公净身出户?婚姻中,这样做守住财和爱高管斯黛拉万万没想到,结婚7年,那个天天体贴为她捏脚提鞋,做饭24孝好老公,居然背着她出轨了。而且还拿着她挣的钱,去给别的女人租房,把她的限量款包包衣服转手赠送了他人。找的也不是啥结婚后,离娘家远一点离婆家近一点,过来人的忠告很有道理文好孕姐结了婚的人了,还这么不着调,隔三差五回娘家蹭吃蹭喝。听到这话的时候,文文忍不住生气,自打结婚后,嫂子就看她眼不是眼鼻子不是鼻子的,平常回娘家吃个饭,嫂子都要阴阳怪气,今天更过来人肺腑之言女人40岁以后就不要生孩子了,真不是危言耸听文好孕姐随着国家二胎三胎政策的全面开放,越来越多的高龄产妇加入追生的队伍。生儿育女是幸福的事情,但是一定要在合适的年龄,做这件事,太早太晚都不行。尤其是女人过了40岁就不要再生孩子一家人幸不幸福,看看家里的一个地方就知道了,很准文好孕姐从恋爱结婚到怀孕生子,这就是男人和女人必经的家庭生活。一个人成不成功,其实并不在于他有多赚钱,而在于他的家庭到底幸不幸福,他有没有感受到幸福。幸福家庭走出来的人,脸上是带笑那个苦练北京话,跑到上海点咖啡的老外,被上海土著嫌弃了?听说一位留学生,为了融入中国,拼命学了一口带京腔的普通话,一毕业去上海工作,当他开口用老北京话点咖啡的时候,妥妥被当地咖啡店员给嫌弃了,从此以后他就不再说标普,一口流利的英文反而赢双减新规已下达9月起,孩子将经历以下新变化,家长准备好文好孕姐太好了!终于解放了!再也不用拼死拼活了!看到老弟脸上灿烂的笑容,我第一反应是大事不好,只因他一向好吃懒做,但凡是他拥戴的,十有八九都是我反对的。尤其在育儿方面,我和他见面就这不是我认识的闰土!孩子新教材插图风格改变,网友耳目一新文好孕姐闰土,一个鲁迅笔下的少年角色,人物原型来自鲁迅早年乡下结识的少年,因其人生经历前后反差之大给读者留下了深刻印象,其中就包括年少的我。其间有一个十一二岁的少年,项带银圈,手捏
46岁前港姐曾赢佘诗曼夺冠军!为嫁入豪门姐妹反目成仇不少香港小姐参加香港小姐竞选一跃进入娱乐圈,更不少人费尽心力通过参加竞选从而加入豪门。其中有一个典型的例子翁嘉穗,曾经夺得1997年香港小姐竞选冠军即嫁给了当时的海马床褥大亨。过惯武家和西门家的恩怨情仇一千年前的冤家再聚首,演绎出了另一段恩怨情仇。话说二十一世纪的某年某月某一天,在某个城市发生的事。也是无巧不成书,不是冤家不聚头啊。西门大和西门广兄弟俩门挨门的住了不知道多少年,一关于茅台院士的思考其实,我个人认为院士应该是对国家或者人类有着突出贡献的人,而不是一个靠炒作起来的某个品牌应该有的。众所周知,白酒行业无论是酱香浓香或者是清香,无一不是从老祖宗哪里传下来的。即便是经没有尺子的年代,怎么计算各种长度?说实话,我小时候,也就是七十年代末八十年代初,我们农村别说是孩子了,就是大人也几乎没有人知道陈景润或者华罗庚。一帮子泥腿子也照样公平公正的,把老百姓诸如分地卖东西丈量各种东西的长度探访开封恒大童世界开封引进最大的项目,投资一千亿人民币的恒大童世界,绝对是这两年开封的热点,没有之一。前几天回开封,趁着今天没什么事,就去那边探访一下。沿郑开大道西行,能进到童世界里面的,目前只能通孙二娘卖菜(小小说)上回说到张青倾家荡产,总算把孙二娘赎了出来。可是人活着毕竟要吃饭,现在百亩菜园没有了,又不敢重操旧业卖人肉包子,只能自己开垦荒地继续发挥张青的专长,要不然菜园子张青的绰号岂不是白来玉帝和上帝,选谁?(小小说)不知道从什么时候开始有了选边站队之说,为了拉拢众生,上帝和玉帝竟然也开始了竞争,和下界的选秀有一拼了。这两位都号称真神,都说自己统治着三界,到底谁是李鬼,谁是李逵,还得看他们辩论后高俅PK祁达内(小小说)话说公元1100年2月23日,大宋朝第八代掌门人兼最高行政长官徽宗道君皇帝走马上任,正式开启长达26年的大宋王朝总统生涯。投皇帝所好,便是加官进爵最有效途径之一。所以,足球鼻祖高俅重审潘金莲(小小说)话说潘氏金莲被武松剖腹剜心之后,魂魄飘飘摇摇,慢悠悠的等了西门庆聚齐,直奔地府。只因为心中不忿,定要找阎王讨个说法。只听得两通堂威喊过,三班衙皂到齐,一声有请阎王,只见睡眼惺忪的阎宋公明断案(小小说)近来梁山大寨可是真不太平。这不,天不怕地不怕的黑旋风李逵,竟然被揍了个鼻青脸肿。俗话说打狗还得看主人呢,更何况这李逵乃是宋江最忠心的人,又敢打能打,好勇斗狠,有他在宋江身边,可以说为了变漂亮,你坚持了哪些好习惯?说一个挺重要的吧抗糖化!然后日常饮食低脂低热量!明星也都在做的事情之前看了一个阿婆主的视频,说她一直长痘最近开始忌口辛辣的食物了,但是在视频里一直在吃甜品和奶茶,结果弹幕里全是让她