范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文

DeepMindVSMeta实现纳什均衡理性最优解,还是多人非零和博弈算法更强大?

  大数据文摘转载自AI科技大本营
  编译 & 整理:杨阳
  记得豆瓣高分电影《美丽心灵》中的约翰·纳什吗?
  作为获得诺贝尔经济学奖的数学家,纳什在博弈论、微分几何学,以及偏微分方程等各个领域都作出卓越贡献。为表彰他在非合作博弈理论中对均衡(纳什均衡)的开创性分析,1994年瑞典中央银行授予纳什诺贝尔经济学奖。
  纳什均衡在社科中的应用可谓成功,而在科技领域中,也经常引用博弈论的逻辑来进行技术实现,比如,通过密码学和博弈论的结合实现大数据安全。当下,这一逻辑也开始应用在AI的算法上。
  DeepNash——DeepMind制造的最新款人工智能,它名字中的"Nash"即为纪念纳什而命名。在AlphaGo之后,谷歌已降低在棋牌领域的关注,之所以推出DeepNash,在于借鉴纳什均衡的逻辑设定基础上,这款AI模型得以在西洋陆军棋Stratego(策略)中击败专业玩家,这比在国际象棋、围棋和扑克的比赛中击败人类更加困难。
  DeepNash是怎么做到的呢?
  超越围棋的走法量,诉求"无模型"和强化学习
  相较其他棋牌游戏,Stratego在规则上就包含了更多不确定性,包括玩家之间的信息非对称。比如,象棋和围棋的牌面和走位都是公开的,但Stratego的牌面却是看不到的,这点和玩扑克一样。另一方面,相较于围棋只有一个初始定位,德州扑克有106个,而Stratego有惊人的超过1066个可以选择的起始点。要知道,1066这个量级已经超过了宇宙中所有星辰的总量。
  在博弈树的算法统计量上,Stratego可能的走法达到不可思议的10535种,围棋的这一数量为10360。
  信息非对称、路径解极多,极度复杂性意味着通过通用的"蒙特卡洛树"模型玩转Stratego并不可行。DeepNash的研究者之一,DeepMind研究员Perolat表示:"那些适用于扑克的算法在Stratego中是完全行不通的,可能的结果量级太过庞大,因而非常复杂,信息的处理需要更为完备的方法。"
  最终,团队找到的方法是"无模型"强化算法,意味着在任何模型都无法实现精确模拟的情况下,让DeepNash就像一个婴儿或者一张白纸一样进行从0开始的积累。但这使得预测变得困难,甚至完全不可能。
  为了解决这个问题,团队使用了深度强化学习为DeepNash提供动力源,目的是找到最优的纳什均衡。
  运用纳什均衡,在信息不对称中诉诸最优解
  强化学习算法如同"钢铁侠",可以处理大规模数据量的问题,但牌面的信息不对称又该如何解决?该DeepNash中"Nash"发挥作用了。
  纳什均衡,也是非合作博弈均衡分析,社会学和经济学专业学生对这个名词非常熟悉。其中最著名的实验就是后来经常应用在犯罪心理中的囚徒困境。这一理论给出的现实命题是:对于处于非合作博弈中的双方,无论对方如何选择,当事一方只有一种确定的策略对自己来说是最优解,因而两方都会选择自己的最优,最后达成彼此最优下的博弈均衡。
  比如,两个共同犯罪的嫌疑人分别接受审讯,如果双方都不坦白,两人各自获刑一年;其中只有一方坦白,坦白的无罪释放,不坦白的获刑十年;而如果双方都坦白,各获刑五年。在这个假想实验中,都不坦白才是整体最优。然而,对于两位囚徒来说,肯定都希望无罪释放,而无论对方是否坦白,自己坦白都是理性最优解,所以最终的结果就是各获刑五年。
  如果将纳什均衡的逻辑放到DeepNash的算法设定中,游戏中互相看不到牌面的双方就像囚徒困境中无法串通的两个囚徒,彼此是非合作博弈。在信息不确定的情况下,只有走无论对方出什么牌"我"都是最优选的牌,才能确保在多轮博弈中获胜。
  DeepNash获得同类竞技97%胜率
  纳什均衡和加上强化学习,最终达成均衡下的最优解:通过"每位玩家获得任何收益都会导致对手损失"的逻辑,凭借强化学习在游戏的每一步中计算下一步的最佳算法。就这样,DeepNash开启了自我对抗训练。
  训练的奖惩机制是:当DeepNash—A获胜时,该网络参数将会增强;同时,对手方DeepNash—B的参数将会被削弱。通过55亿次的对弈,DeepNash取得了很好的成绩,失误率越来越小,无限接近纳什均衡最优。
  在算法测试中,DeepNash以97%的胜率压制了其他机器选手。而在Gravon游戏平台上,通过和人类专业棋手进行两周多的竞技,DeepNash最终在有20年历史的积分排名榜中升至第三位。
  除了学习能力惊人,DeepNash更让人惊讶的地方在于,它在开局不会固定自己的起始位置,而是不断优化起始点。这样做究竟是随机在10535种可能性中寻找最优解,还是"有意识"地避免对手对自己出牌套路的破解而故意为之,目前不得而知。如果是后者,就让人不寒而栗了。不过,DeepNash确实会用一些看上去"诱骗"的方式来"引诱"对手落入陷阱,通过一些看似无意义(棋子重复跳动),或者牺牲高级棋子(让对方放松警惕),从而进行伏击。
  加入非理性测算后的多方博弈
  DeepNash确实相当厉害,但如果你仔细观察也不难发现,纳什均衡的状态是发生在两方之间的,而现实世界往往并非两者的零和博弈。当博弈均衡需要发生在多方,又会呈现怎样的态势呢?
  对此,Meta AI研究员们的发明或许更具挑战性:创建了能够玩多方博弈游戏的AI模型——Cicero。在一款名为Diplomacy(外交风云)的游戏中,多个玩家每人代表一个国家,最多可以有7个玩家一起玩。游戏规则是进行军队和战舰的战略部署,从而获得对供应中心的控制权。
  和DeepNash在Stratego中展现的非合作博弈下的纯零和状态不同,Cicero的博弈模式设定更加开放,包括每个玩家都可以私下进行交流和合作,而当合作博弈与非合作博弈都构建在多玩家的算法模型中时,预期结果更加不可控。
  Cicero的开发者之一Noam Brown表示说:"当你超越双人的零和游戏时,纳什均衡的概念对于与人类打好关系不再那么有用。"
  目前,Cicero已经在Diplomacy的125,261场游戏中进行了训练,它的推理模块(SRM)已经学会预测自身的状态,包括其他玩家可能采取的策略。通过预测,SRM会选择最佳的行动路径,并向其拥有27亿参数语言模型的对话模块上发出意图信号。
  在Brown看来,像Cicero这样能够与人类进行互动,并且可以对人类的非理性次优行为进行解释的人工智能才能越来越接近现实世界,从而为未来的应用铺平道路。他以智能驾驶举例:"你不能设想道路上其他司机都是理性的。"
  唯理派 PK 经验论:哪个更接近现实?
  在应用上,尽管DeepNash是为Stratego而开发的,但它的实际用途远不止在游戏世界里"捣乱"。未来将会用在便利人们生活的各个方面,比如交通或者市场预测。
  和DeepNash一样,Cicero未来也会应用于现实世界,"我们虽然有一只脚在游戏世界里,但现在我们也有一只脚在现实世界里。"
  对于DeepNash和Cicero,你认为它们哪个更可能实现在现实世界的落地呢?请留言投票。
  参考链接:
  https://singularityhub.com/2022/12/05/deepminds-latest-ai-trounces-human-players-at-the-game-stratego/
  https://www.nature.com/articles/d41586-022-04246-7

明朝北京保卫战,于谦为何选择出城迎战而非坚城死守?自古就有文死谏,武死战的说法,文臣武将,各司其职,即便是重文轻武的两宋时期,文臣最多也就是有节制武官的权力,真到了两军阵前,攻杀战守,排兵布阵,都还是武将说了算,可是到了有明一朝,辽宁男篮大胜北控,到底赢在哪里?杨鸣一番话,说得非常实在辽宁男篮大胜北控,到底赢在哪里?杨鸣一番话,说得非常实在随着俞泽辰最后26秒一记三分辕门射戟命中,辽宁男篮和北控男篮双方的比赛落下帷幕,最终,辽宁男篮以103比63大胜北控男篮,赢CBA攻防大战,广东队将用最锐利的进攻击败北京,北京队遗憾小败CBA第二阶段比赛重燃战火,广东队主场迎战北京队,北京队第一阶段排名第7,广东队则排名联赛第十一,两队战绩均为5胜4负,在第一阶段的比赛里,北京队只有2场比赛赢球得分过100分,其37岁的C罗还能保持巅峰的秘诀,二十年从不喝酒和可乐少碰女人?眼下卡塔尔世界杯已经进行到了16分之一的比赛了,各方豪强群雄逐鹿,几个夺冠热门的球队霸气侧漏,冠军相初显,今年的冠军很有可能巴西法国阿根廷和英格兰四支球队中产生。当然,凡事无绝对,波尔津吉斯100想留在奇才我喜欢待在这里的时光直播吧12月7日讯近日奇才前锋波尔津吉斯接受了记者的采访,在采访中他谈到了自己待在奇才的感受。波尔津吉斯说道我喜欢奇才,我百分之百想留在奇才,我爱这座城市,我喜欢这个组织,我喜欢我球迷热议C罗替补桑托斯毫无尊重不首发C罗会是代价高昂的错误直播吧12月7日讯世界杯18淘汰赛,葡萄牙vs瑞士,本场比赛C罗没有首发,替补待命。桑托斯的这一决定引发外网球迷的热议桑托斯,你失去了我的尊重。你将使葡萄牙失去自2006年以来进入NBA东部排名榜前三甲初出炉,骑士成最大黑马,篮网有望杀进前512月7日,东西部6支球队比赛结束后,东部排名榜两极分化,排名进一步明朗凯尔特人雄鹿和骑士稳居前三甲,中部多支球队仍在混战中,后部球队战绩不太理想。从排名来看,骑士成为了最大的黑马篮筐都快被打歪了,北控男篮单节只拿到6分,40分惨负辽宁男篮今天CBA联赛第二阶段的比赛正式拉开帷幕,卫冕冠军辽宁队迎来第一个随手北京北控队,原本以为本场比赛多少还是有些看点的,不曾想被辽宁男篮打成了队内训练赛,最终辽宁男篮以10363大胜神舟十四号飞船降落瞬间为何没有切伞12月4号晚上,在与神十五飞船完成具有历史意义的中国人首次在轨交接轮换后,被称为最忙乘组的神舟十四号飞船挟风带火般的像一道流星划破了夜晚的星空,随着反推发动机的成功点火,在东风着陆骑士三虎882017,詹姆斯17中8,浓眉诡异退场,湖人新援大惊喜北京时间2022年12月7日,今日NBA比赛,15胜9负的骑士在主场迎战10胜12负的湖人,骑士首发加兰米切尔史蒂文斯莫布利阿伦,湖人首发贝弗利施罗德沃克詹姆斯浓眉。第一节比赛,詹3换3!湖人报价勇士榜眼詹姆斯怀斯曼,真是醉翁之意不在酒金州勇士队虽然公开宣布了他们的计划,将他们的年轻球员塑造成未来争夺冠军的核心,但一位内部人士认为,他们可能会忍不住用一个主要球员来换取一些更直接的帮助。勇士的老板乔拉科布和总经理鲍
德媒地球最北的岛屿其实是一座冰山据德新社9月9日报道,丹麦科学家雷内福斯贝尔当日披露,科学家长期以来认为是世界上最北的一个岛屿,其实根本不是岛屿,而是一座覆盖着泥土和砾石的冰山。据报道,丹麦和瑞士科学家去年在格陵昆明市东川区岩脚村蔬菜种在白云里来源云南日报在东川区铜都街道,吃岩脚村的蔬菜犹如山珍。原因是岩脚村的蔬菜品质好数量少,有独特的甘甜清香味道,吃到岩脚村的蔬菜,就品尝到了浓浓的乡愁和恬静的自然。岩脚村坐落在乌蒙山中温室气体排放不是气候变化的主要原因杨新兴中国环境科学研究院气候中心中国北京100012摘要134字温室气体排放不是地球气候变化的主要原因,人类活动排放的二氧化碳更不是导致地球气候变暖的罪魁祸首。地球气候变化的主要原户外型录中的帅气造型,在这个高温天真的存在吗?诗人T。S。艾略特说,四月是最残酷的季节户外爱好者一定要大喊,错了,夏天才是在一个连植物都要休眠的季节还想尝试户外叠穿凹造型的话真的是还没出家门就已经败退了更别提在这多雨的季节如若中科院海洋所首次发现气候变暖引起鳗草地理分布南界北移现象近日,国际学术期刊Cell子刊iScience在线刊发了中科院海洋所研究成果,该研究首次发现了气候变暖致使鳗草地理分布南界北移的现象,揭示了全球气候变化对海草床生态系统的潜在影响。墨尔本CBD11公里内便宜城区出炉!迅速出手,别等市场下跌先驱太阳报9月11日报道称,靠近CBD的经济适用房可能看起来像童话故事,但如果你知道去哪里找的话,它们确实存在。PropTrack公布了距城市11公里以内的20个独立屋和单元房房价世界上海拔最高的胡杨林,四季风姿各异,就在我国的江河源头登高壮观天地间,大江茫茫去不还。黄云万里动风色,白波九道流雪山。它地大物博河川壮美,它原始神秘魅力独特。这里有中国最美的山,也有华夏最美的湖,既有高原大漠的博大与壮阔,也有河谷水乡云南省最具争议的著名旅游城市,人气却经久不衰,你去过吗?这里是刘小顺的旅行和生活研究所。大家都知道,位于我国西南地区的云南是一个旅游大省,有着特别丰富的旅游资源,因此每年都会吸引大量游客来到云南省旅游。云南省既有壮丽辽阔的自然风光,也有2022年极端高温来袭,但是2023年会更热?太阳活动影响地球温度吗2022年的夏天即将成为一个炎热的夏天。2022年6月,世界陆地地区出现了有记录以来最热的气温破纪录的热浪席卷了北半球,特别是欧洲大陆亚洲和北美洲的部分地区。在全球范围内,一波又一中华体育文化展中秋体育文化交流活动在北京举行新华社北京9月10日电以明月净初心辉煌逐梦想为主题的中华体育文化展中秋体育文化交流活动10日在国家体育场(鸟巢)举办。多位冠军运动员艺术家在活动中向中国体育博物馆进行了捐赠。10日服贸观止北京市金融监管局局长李文红到十四五期末建成与大国首都地位相匹配的现代金融体系北京商报讯(记者廖蒙)9月1日9月5日,2022年中国国际服务贸易交易会在北京举行。期间,北京市地方金融监督管理局党组书记局长李文红就此前发布的北京市十四五时期金融业发展规划进行了