只有大规模算力才能救AI？强化学习之父vs牛津教授掀起隔空论战

　　乾明 安妮 发自 凹非寺量子位 出品 | 公众号 QbitAI
　　70年来， 人们在AI领域＂一直连续犯着同样的错误＂。
　　这是＂强化学习之父＂理查德·萨顿（Richard S. Sutton）为同行后辈们敲响的警钟。
　　他在博客上发表最新文章《苦涩的教训》(The Bitter Lesson)，总结了AI发展史上的怪圈：
　　人类不断试图把自己的知识和思维方式植入到AI之中，比如用人类的思路教AI下棋、将让AI按照人类总结的思路来识别图像等等。这些做法，能带来暂时的性能提升，长期来看却会阻碍研究的持续进步。
　　真正的突破，总是来自完全相反的方向。摒弃人类在特定领域的知识、利用大规模算力 的方法，总会获得最终胜利。
　　靠自我对弈磨炼围棋技艺的AlphaGo，基于统计方法、深度学习来识别语音、图像的算法，一次次击败先前那些浓缩了人类知识的AI，甚至人类自己。
　　搜索、学习，充分利用大规模算力才是王道。用人类在特定领域的知识来提升AI智能体的能力，都是在走弯路。
　　萨顿说：＂将AI建立在我们对自身思维方式的认知上，是行不通的。＂
　　OpenAI首席科学家Ilya Sutskever精辟地总结了萨顿的核心观点：算力常胜。
　　文章一发出，就引发了热烈的讨论，OpenAI CTO Greg Brockman、特斯拉AI总监Andrej Karpathy等人都在转发附议。
　　DeepMind机器学习团队主管&牛津大学教授Nando de Freitas甚至称之为＂周末必读＂。
　　然而，也有反对的声音。
　　牛津大学计算机系教授希蒙·怀特森（Shimon Whiteson）连发13条Twitter反驳萨顿的观点，表示＂坚决不同意＂，同样获得了大量支持。
　　怀特森认为，构建AI当然需要融入人类知识，问题只在于该何时、如何、融入哪些知识。
　　AI的历史进程是一场融入人类知识的胜利。科学家们广泛尝试，抛弃失败的99%，留下有用的1%。而这1%，对现代人工智能算法成功的重要性不亚于萨顿推崇的大量计算资源。
　　一场隔空论战，就这样展开了。
　　我们先读完＂本周末必读＂的萨顿博文，看看正方的观点。
　　苦涩的教训
　　以下为萨顿博客完整全文，经量子位翻译整理：
　　回溯70年的AI研究，从中得出的最大经验是，利用计算力的通用方法最终总是最有效的，而且遥遥领先。
　　出现这种情况的终极原因是摩尔定律，或者宽泛一点来说，是单位算力成本的持续指数级下降。
　　大多数AI研究都以智能体可用算力恒定为前提进行，在这种情况下，利用人类知识可能是提升性能的唯一方法。但是，将目光投向比一个典型研究项目更长远的时间段，就会发现必然有更多可用的算力出现。
　　为了寻求短期可见的提升，研究人员会利用该领域的人类知识，但从长远来看，利用算力才是唯一重要的事。
　　虽然但这两者看似没有必要相互对立，但实际上它们往往是对立的。
　　在一个方向上花费的时间，就必然不能花在另一个方向。对于某一种方法的投入也会带来心理上的承诺。
　　同时，用人类知识来提升AI会倾向于使方法复杂化，让运用算力的通用计算方法变得不太适用。
　　很多AI研究人员后知后觉地领悟了这种＂苦涩的教训＂。回顾其中最重要的一些颇有启发。
　　在国际象棋领域，1997年击败国际象棋冠军卡斯帕罗夫的深蓝，就是基于大规模深度搜索。
　　当时，大多数计算机国际象棋研究者都以沮丧的眼光看待它，他们追求用人类对国际象棋特殊结构的理解制胜。
　　当一种更简单的、有特殊硬件和软件加持的基于搜索的方法被证明更有效，这些基于人类知识下国际象棋的研究者输得一点都＂不体面＂。他们说，这种＂用蛮力＂的搜索可能这次能赢，但这终究不是通用策略，无论如何这也不是人类下棋的方式。
　　他们希望基于人类输入的方法获胜，却事与愿违，只剩失望。
　　计算机围棋领域，研究进展也遵循着同样的模式，只是比国际象棋迟了20年。这一领域最初的众多努力，都是利用人类知识或游戏的特殊特性避免搜索，然而，搜索一被大规模高效应用，这些努力都变得无关紧要，甚至更糟。
　　利用自我对弈来学习一种价值函数同样重要（在许多其他游戏、甚至在国际象棋中也一样，虽然在1997年的深蓝项目中没有发挥很大作用）。通过自我对弈来学习，以及学习本身，其实都和搜索一样，让大规模计算有了用武之地。
　　搜索和学习是AI研究中应用大规模计算力的两类最重要技术。
　　在计算机围棋和国际象棋项目中，研究人员最初努力的方向是如何去利用人类的理解（这样就不需要太多的搜索），很久以后，才通过拥抱搜索和学习取得了更大的成功。
　　在语音识别领域，很早之前曾有一场竞赛，1970年由DARPA主办。
　　在这场比赛中，一部分参赛者运用那些需要人类知识（单词知识、音素知识、人类声道知识等等）的特殊方法。也有一部分人基于隐马尔可夫模型(HMMs)完成比赛。这种新方法本质上更具统计性质，也需要更大的计算量。
　　不出所料，最终统计方法战胜了基于人类知识的方法。
　　这场比赛为所有自然语言处理任务都带来了巨大的改变，在过去的几十年里，统计和算力逐渐占据主导地位。
　　语音识别中兴起没多久的深度学习，也是朝着这一方向迈出的最新一步。深度学习方法对人类知识的依赖甚至更少，用到了更多的算力。通过在大型训练集上的学习，能得到更好的语音识别系统。
　　就像在棋类游戏中一样，研究人员总是试图让系统按照他们心目中的人类的思维方式工作，试图把这些知识放进计算机的系统里。但最终，当摩尔定律带来大规模算力，其他人也找到了一种充分利用它的方法时，会发现原来的做法适得其反，是对研究人员时间的巨大浪费。
　　在计算机视觉领域，也有类似的模式。早期的方法，将视觉设想为搜索边缘、广义圆柱体，或者SIFT算法捕捉的特征。但现在，所有这些方法都被抛弃了。现代的深度学习神经网络，只使用卷积和某些不变性的概念，而效果要好得多。
　　这些教训告诉我们，（AI）这个领域，我们仍然没有完全了解，我们连续犯着同样的错误。
　　为了认清状况，有效防止犯错，我们必须理解这些错误有什么吸引力。
　　我们必须从这＂苦涩的教训＂中学习：长远来看，将AI建立在我们对自身思维方式的认知上是行不通的。＂苦涩的教训＂源自这些历史观察：人工智能研究人员经常试图将知识＂植入＂到他们的智能体中，这在短期内通常是有帮助的，让研究者自身产生满足感，但从长期来看，这会拖慢、甚至阻碍研究的进一步发展，
　　而突破性进展最终会来自完全相反的方法：基于搜索和学习进行规模计算。
　　最终的成功总是带来些许怨恨，通常也不被完全理解，因为它超越了当前受欢迎的、以人为中心的方法。
　　从历史的教训中，我们能学到两点。
　　第一，通用型方法有强大的力量。即使可用的算力变得非常大，这些方法仍然可以继续扩展，运用增加的算力。似乎可以按照这种方式任意扩展的方法有两种：搜索和学习。
　　第二，思维的实际内容复杂到非常可怕无可救药。我们不该再试图寻找简单的方法来思考其内容，比如，用简单的方式去思考空间、物体、多智能体或者对称性。
　　所有这些，都是随意、本质上非常复杂的外部世界的一部分。它们不应该内置在任何一个AI智能体中，因为它们复杂得没有尽头。相反，我们应该只构建能发现和捕获这种任意复杂性的元方法，
　　这种方法的本质是能够很好地找到近似值。不过，寻找的工作应该交给我们的方法，而不是我们自己。
　　我们需要的是能像我们一样进行发现的AI智能体，而不是包含我们已经发现的东西在内的AI。
　　在我们发现的基础上建立AI，只会让它更难看到发现的过程是如何进行的。
　　原文链接：
　　http://www.incompleteideas.net/IncIdeas/BitterLesson.html
　　＂甜蜜的一课＂
　　坚决不同意萨顿观点的怀特森老师认为，构建AI当然需要融入人类知识，问题只在于该何时、如何、融入哪些知识。AI历史上有＂甜蜜的一课＂（The Sweet Lesson），我们在尝试寻找正确先验知识的过程中，推动了AI的进步。
　　他将萨顿的观点总结为：＂AI的历史告诉我们，利用算力最终总是战胜利用人类知识。＂
　　以下是怀特森Twitter内容的翻译整理：
　　我认为这是对历史的一种特殊解释。的确，很多把人类知识融入AI的努力都已经被抛弃，随着其他资源（不仅仅是计算力，还包括存储、能源、数据）的丰富，还会抛弃更多。
　　但是，由此产生的方法的成功，不能仅仅归功于这些丰富的资源，其中那些没有被抛弃的人类知识也功不可没。
　　要是想脱离卷积、LSTM、ReLU、批归一化（batchnorm）等等做深度学习，祝你好运。要是抛开＂围棋是静态、零和、完全可观察的＂这一先验知识，就像搞定这个游戏，也祝你好运。
　　所以，AI的历史故事并非融入人类知识一直失败。恰恰相反，这是融入人类知识的胜利，实现的路径也正是一种完全符合惯例的研究策略：尝试很多方法，抛弃失败的99%。
　　剩下的1%对现代人工智能的成功至关重要，就和AI所以来的大量计算资源一样关键。
　　萨顿说，世界固有的复杂性表明，我们不该把先验知识融入到系统中。但是我的观点恰恰相反：正是这种复杂性，导致他推崇的搜索和学习方法极度复杂难解。
　　只有借助正确的先验知识，正确的归纳偏见（inductive biases），我们才能掌握这种复杂性。
　　他说，＂现代的深度学习神经网络，只使用卷积和某些不变性的概念，而效果要好得多。＂一个＂只＂字就凸显了这种断言的武断性。
　　如果没有这些卷积和不变性，深度学习就不会成功，但它们却被视作微小、通用到可以接受。
　　就是这样，＂苦涩的教训＂避开了主要问题，这根本不是要不要引入人类知识的问题（因为答案显然是肯定的），而是该问这些知识是什么，该在何时、如何使用它。
　　萨顿说，＂我们需要的是能像我们一样进行发现的AI智能体，而不是包含我们已经发现的东西在内的AI。＂当然。但是我们善于发现正是因为我们天生带有正确的归纳偏见。
　　AI历史上的＂甜蜜一课＂是这样的：虽然找到正确的归纳偏见很难，但寻找的过程为原本难解的问题带来了巨大的进展。
　　原文链接：
　　https://twitter.com/shimon8282/status/1106534185693532160
　　论战双方
　　这场隔空论战的双方，分别是＂强化学习之父＂萨顿，和牛津大学计算机系教授希蒙·怀特森。都是强化学习领域的科学家，观点却截然相反。
　　强化学习之父：萨顿
　　萨顿，被认为是现代计算强化学习的创始人之一，为强化学习做出了许多贡献，比如＂时序差分学习＂（temporal difference learning）和＂策略梯度方法＂（policy gradient methods）等等。
　　1978年，萨顿在斯坦福大学获得了心理学学士学位，之后才转向计算机科学，在马萨诸塞大学安姆斯特分校获得博士学位。
　　他与导师Andrew Barto合著的《强化学习导论》一书，已经成为强化学习研究领域的基础读物。
　　目前，萨顿任教于阿尔伯塔大学，是计算机科学系的教授和 iCORE Chair，领导强化学习和人工智能实验室。
　　2017年6月，萨顿加入Deepmind，共同领导其位于加拿大埃德蒙顿的办公室，同时保持他在阿尔伯塔大学的教授职位。
　　2001年以来，萨顿一直都是AAAI Fellow，在2003年获得国际神经网络学会颁发的President’s Award，并于2013年获得了马萨诸塞大学阿默斯特分校颁发的杰出成就奖。
　　来自牛津大学的反对者：怀特森
　　希蒙·怀特森，是牛津大学计算机系的教授，专注于人工智能和机器学习领域。强化学习、让智能体跟着演示学习都是他所研究的课题。
　　他2007年获得美国德克萨斯大学奥斯汀分校的计算机博士学位，随后留校做了一段时间的博士后，然后任教于丹麦阿姆斯特丹大学。
　　2015年，怀特森成为牛津大学副教授，2018年成为教授。
　　隔空论战，你支持谁？
　　除了怀特森之外，也有不少人对萨顿的观点表示不能完全同意。
　　比如Nando de Freitas认为萨顿博文的最后一段非常正确、发人深省：我们需要的是能像我们一样进行发现的AI智能体，而不是包含我们已经发现的东西在内的AI。在我们发现的基础上建立AI，只会让它更难看到发现的过程是如何进行的。
　　但他也就着怀特森的观点，谈了一些自己的想法：算力非常重要，特别是对强化学习智能体来说。然而，卷积、LSTM这些概念都不是在研究规模化的过程中发明的。其他生物也和我们人类一样拥有强大的算力，生活在同样的数据、环境，但它们可没打算飞向火星。
　　帝国理工学院教授、DeepMind高级研究员Murray Shanahan虽然支持不能人工手写特定领域的先验知识，但还是认为＂应该寻找有利于让AI学习这些常识类别的架构上的先验＂。
　　德克萨斯大学奥斯汀分校的助理教授Scott Niekum说，他大致同意萨顿的观点，但也有值得商榷的地方，比如科学从来都不是一条直线，很多最重要的发现，可能就来自借助内建特定领域知识来研究那些不够通用的模型的过程。
　　这个问题，你怎么看？
　　— 完 —
　　诚挚招聘
　　量子位正在招募编辑/记者，工作地点在北京中关村。期待有才气、有热情的同学加入我们！相关细节，请在量子位公众号(QbitAI)对话界面，回复＂招聘＂两个字。
　　量子位 QbitAI · 头条号签约作者
　　վ＂ᴗ＂ ի 追踪AI技术和产品新动态

华为于周四发布下一代数据中心产品，这家公司为华为提供核心设备热点前瞻华为将于5月26日举行下一代数据中心发布会华为数字能源官方消息，华为将在5月26日于东莞举行下一代数据中心发布会，分享行业发展的最新趋势和创新成果，发布华为下一代数据中心及季节性过敏的克星！米家4Pro空气净化器毫不夸张地说，我已经小半个月没出门了，每天就蹲在家里面。也不是因为口罩的原因，主要是我的季节性过敏太严重了，鼻腔痒得要命，还不停的打喷嚏。可能有兄弟会说有这么夸张吗？真就这么夸张！提醒中国卖家购买这些服务有美国法律风险本文来自微信公众号InternetLawReview（IDInternetlawreview），作者张宁（美国加利福尼亚州和佐治亚州执业律师海外运营服务平台Flatfeecorp。如何买一部真正适合自己的手机？都看明白的，也算是半个内行了很多人私信问买手机的时候怎么买，确实，现在手机市场上手机种类太多，作为消费者的我们，选购手机的时候有时候确实不知道该怎么选，小编今天就带大家来看一下。重视性能，看这几点随着手机游戏最快1小时充满，最高续航220公里，这2款电动车很适合外卖员使用您在阅读前请点击上面的关注二字，后续会为您提供更多有价值的相关内容，感谢您的支持。在道路上骑行的电动车，有这样一群比较特殊的电动车，它们的驾驶人多为穿着蓝色黄色制服，每天的工作就是女孩子学电子商务专业的话，好不好就业呢？我比较看好电子商务专业，特别是对女生来说尤其适合。尽管电子商务专业今后就业竟争非常激烈，但只要学好扎实的专业基础知识，就业市场还是比较宽的。实在找工作有难度，还。适合个体就业。电子小鹏汽车名称被吐槽，文化不自信还是太过接地气小鹏汽车创始人何小鹏先生近期针对网友表示小鹏品牌的名称太土一事。坚决回应不会将公司改名。因为网友认为小鹏汽车小鹏的名称过于衔接地气。难以做成国家化的大品牌，不利于企业长远发展，更难拼多多推广受限怎么解除？哪些因素导致的？对于拼多多商家来说，需要做的事情有很多，其中就包括了拼多多推广，有很多的拼多多商家发现自己被限制推广了，拼多多为什么限制推广了？下面的内容中为大家进行相关的介绍。原因1若店铺出现虚亚马逊调整休息时间任务政策批评者此前称该政策限制上厕所时间据外媒CNET报道，随着亚马逊为6月21日开始的PrimeDay活动做准备，该公司表示，它将减轻其仓库中一个有争议的雇佣做法的负担。亚马逊将改变跟踪工人执行休息时间任务的方式，例如内蒙古现代能源区域科技服务团入选2022年科创中国区域科技服务团示范项目近日，中国科协公布了2022年科创中国科技服务团示范项目评审结果。经项目申报资格审查专家评审，共评选出科技服务团示范项目144个，其中产业科技服务团项目85项区域科技服务团项目29新能源汽车免税政策有望第三次延长资讯近日，节能与新能源汽车产业发展部际联席会议召集人工信部部长肖亚庆主持召开了部际联席会议2022年度工作会议。会议要求，2022年要大力推动新能源汽车产业高质量发展，尽早研究明确

<<<<<<－>>>>>>

诺基亚和老年机杠上了，又来一款作为曾经的手机霸主，诺基亚现在的处境也是让人不胜唏嘘。除了前几年发布过几款中端机型之外，这两年诺基亚是和老年机杠上了，连续推出了几款面向老年用户的机型。近日在某东又上架了一款型号为Linux之tr命令将字符进行替换压缩和删除，tr命令可以对来自标准输入的字符进行替换压缩和删除。它可以将一组字符变成另一组字符，经常用来编写优美的单行命令，作用很强大。命令语法tr选项字符串1字符串Linux之lastlog命令显示系统中所有用户最近一次登录信息，lastlog命令用于显示系统中所有用户最近一次登录信息。lastlog文件在每次有用户登录时被查询。可以使用lastlog命令检查某特定用户上linux之fping命令fping检测主机是否存在，fping命令fping类似于ping，但比ping强大。与ping要等待某一主机连接超时或发回反馈信息不同，fping给一个主机发送完数据包后，马上给Linux之lastb命令列出登入系统失败的用户相关信息。lastb命令用于显示用户错误的登录列表，此指令可以发现系统的登录异常。单独执行lastb命令，它会读取位于varlog目录下，名称为btmp的文件纪念袁隆平，不仅要十里长街的送别，还要珍惜手中的那碗米饭袁老走了！是看我们吃过午饭才走的，但是他好像从未离开！我突然想起了一句诗有的人死了，他还活着1964年，袁隆平开始研究杂交水稻，1974年，第一个杂交水稻品种南优2号正式培育完成，世界经济衰退，中国为何崛起？过去的2020年，按中国的干支纪年，是庚子年。每个庚子年，注定都是极不平凡的一年，都会面临前所未有之大变局。1900年，庚子年，那一年，中国在八国联军的铁蹄之下，主权尽失，割地赔款津门大侠霍元甲死因之谜因吐血而亡，79年后开馆验明真相1909年，一个英国人嘲讽国人是东亚病夫，并在上海摆开擂台，百姓十分气愤，这时霍元甲出来迎战，没想到到了公开比赛那天，英国人却早已逃之夭夭。赫赫有名的霍元甲，在创办了精武会后，他的历史中和珅与纪晓岚是何关系？和珅被赐死后，纪晓岚结局如何？提起和珅就想起，像小丑一样围着乾隆转的胖子，还时不时被大学士纪晓岚讽刺挖苦。作为乾隆身边的这两位大臣，和珅和纪晓岚到底是何关系？真的是一对喜欢互怼的欢喜冤家吗？和珅如何从一个权臣变唐伯虎闻名江南为何不走仕途？腰缠万贯风流成性？九个妻妾太离谱作为江南四大才子的老大唐伯虎，才华横溢却一生没有入朝为官，传闻他腰缠万贯，还曾娶了九房妻妾，他自称桃花庵主，过着看似逍遥的生活。那么真实的唐伯虎真的像传闻中那样风流成性吗？他是如何与诸葛亮齐名，刘伯温助朱元璋打江山，聪明绝顶为何难逃悲惨命运有句话叫三分天下靠的是诸葛亮，统一江山靠的是刘伯温。诸葛亮是三国时间蜀汉政权建立的重要贡献者，在他的帮助下，刘备从卖草席的变成一个帝国CEO而刘伯温却帮助朱元璋，从乞丐的身份转变为