范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文

当GPT4反思自己错了性能提升近30,编程能力提升21

  机器之心报道
  机器之心编辑部
  GPT-4 的思考方式,越来越像人了。
  人类在做错事时,会反思自己的行为,避免再次出错,如果让 GPT-4 这类大型语言模型也具备反思能力,性能不知道要提高多少了。
  众所周知,大型语言模型 (LLM) 在各种任务上已经表现出前所未有的性能。然而,这些 SOTA 方法通常需要对已定义的状态空间进行模型微调、策略优化等操作。由于缺乏高质量的训练数据、定义良好的状态空间,优化模型实现起来还是比较难的。此外,模型还不具备人类决策过程所固有的某些品质,特别是从错误中学习的能力。
  不过现在好了,在最近的一篇论文中,来自美国东北大学、MIT 等机构的研究者提出 Reflexion,该方法赋予智能体动态记忆和自我反思的能力。
  为了验证方法的有效性,该研究评估了智能体在 AlfWorld 环境中完成决策任务的能力,以及在 HotPotQA 环境中完成知识密集型、基于搜索问答任务的能力,在这两项任务的成功率分别为 97% 和 51%。
  论文地址:https://arxiv.org/pdf/2303.11366.pdf
  项目地址:https://github.com/GammaTauAI/reflexion-human-eval
  如下图所示,在 AlfWorld 环境中,房间里摆设了各种物品,要求让智能体给出推理计划以拿到某件物体,下图上半部分由于智能体低效的计划而失败。经过反思后,智能体意识到错误,纠正推理轨迹,给出简洁的轨迹方式(如图下半部分)。
  模型反思有缺陷的搜索策略:
  这篇论文表明,你可以通过要求 GPT-4 反思「你为什么错了?」并为自己生成一个新的提示,将这个错误原因考虑在内,直到结果正确,从而将 GPT-4 的性能提高惊人的 30%。
  网友不禁感叹:人工智能的发展速度已经超过了我们的适应能力。
  方法介绍
  Reflexion 智能体的整体架构如下图 1 所示,其中 Reflexion 利用 ReAct(Yao et al., 2023)。在第一次试验中,智能体从构成初始查询的环境中获得任务,然后智能体执行由 LLM 生成的一系列动作,并从环境中接收观察和奖励。对于提供描述型或持续型奖励的环境,该研究将输出限制为简单的二元成功状态以确保适用性。
  在每个动作 a_t 之后,智能体会计算一个启发性函数 h,如下图所示
  这个启发性函数旨在检测智能体产生信息幻觉(即虚假或错误的信息)或效率低下,并「告诉」智能体何时需要反思(reflexion),其中 t 是 time step,s_t 是当前状态,Ω 表示重复动作循环的次数,ε 表示执行动作的最大总数,[a_o, o_0 . . . , a_(t−1), o_(t−1)] 代表轨迹历史。repeat 是一个简单的函数,用于确定产生相同结果的重复动作循环的次数。
  如果函数 h 告诉智能体需要反思,那么智能体会查询 LLM 以反映其当前任务、轨迹历史和上次奖励,然后智能体在后续试验中会重置环境再重试。如果函数 h 没有告诉智能体需要反思,那么智能体会将 a_t 和 o_t 添加到其轨迹历史记录中,并向 LLM 查询下一个动作。
  如果如果启发式 h 建议在 time step t 时进行反思,则智能体会根据其当前状态 s_t、最后的奖励 r_t、先前的动作和观察 [a_0, o_0, . . . , a_t, o_t],以及智能体现有的工作存储 mem,启动一个反思过程。
  反思的目的是通过反复试验帮助智能体纠正「幻觉」和低效率问题。用于反思的模型是一个使用特定的失败轨迹和理想的反思示例来 prompt 的 LLM。
  智能体会迭代地进行上述反思过程。在实验中,该研究设置在智能体内存中存储的反思最多为 3 次,这是为了避免查询超出 LLM 的限制。以下几种情况,运行会终止:
  超过最大试验次数;
  未能在两次连续试验之间提高性能;
  完成任务。
  实验及结果
  AlfWorld 提供了六种不同的任务和 3000 多个环境,这些任务要求智能体理解目标任务,制定子任务的顺序计划,并在给定环境中执行操作。
  该研究在 134 个 AlfWorld 环境中测试智能体,任务包括寻找隐藏物体(例如,在抽屉里找到水果刀)、移动物体(例如,将刀移到砧板上 ),以及用其他对象来操纵另一个对象(例如,在冰箱中冷藏西红柿)。
  在没有反思的情况下,智能体的准确率为 63%,之后加入 Reflexion 进行对比。结果显示,智能体在 12 次试验中能够处理好 97% 的环境,在 134 项任务中仅有 4 项没有解决。
  接下来的实验是在 HotPotQA 中进行了,它是一个基于维基百科的数据集,包含 113k 个问答对,主要用来挑战智能体解析内容和推理的能力。
  在 HotpotQA 的 100 个问答对测试中,该研究将基础智能体和基于 Reflexion 的智能体进行比较,直到它们在连续的试验中无法提高准确性。结果显示基础智能体并没有性能提高,在第一次试验中,基础智能体准确率为 34%,Reflexion 智能体准确率为 32%,但在 7 次试验后,Reflexion 智能体表现大幅改善,性能提升接近 30%,大大优于基础智能体。
  类似地,在测试模型编写代码的能力时,加入 Reflexion 的 GPT-4 也显著优于常规的 GPT-4:
  参考链接:
  https://nanothoughts.substack.com/p/reflecting-on-reflexion
  https://twitter.com/blader/status/1639728920261201921

倍思N10挂脖穿戴式音箱评测,解放双耳,听音新潮流倍思N10挂脖穿戴式音箱,是一款非常新奇的音箱,将音箱做成了可穿戴式。说实话,在我刚拿到这款穿戴式音箱时,让我眼前一亮,有一种来自未来的错觉。在此感谢ZEALER众测提供的倍思N1WiFi6全千兆智能组网路由,蒲公英X5远程访问教程公司在用的宽带从100兆升级成为300兆,之前的百兆企业路由就有点扯后腿了,本着资源利用率最大化的原则,一并升级一下现有的网络设备,解决大家一直苦恼的网络信号弱速度慢的问题,当然,如果再买电视机,一定坚持5不买,不是固执,是连买三台的经验电视换新该怎么选,注意哪些参数,哪些品牌更靠谱,这是很多朋友的烦恼,毕竟自己不是专业的从业人士,对很多东西并没有那么了解。关于性价比,是一件很神奇的事情,例如小米之类的品牌确实将参大S具俊晔合拍封面,被赞美女野兽好养眼,更自曝受够了结婚的一切近日,大S和老公具俊晔合作的一组杂志封面大片曝光,引发网友热议。两人风格大胆,尝试了居家浴袍风格。照片中,大S手里拿着刮胡刀具,搂着端坐着的老公,细心地给具俊晔刮着胡子。夫妻俩看起陈妍希晒母子合照,小星星穿皮衣戴墨镜臭美,酷拽样像极爸爸陈晓10月3日晚,陈妍希久违晒出母子合照,并开心发文称出门帅一个。所以,陈妍希这是要带着儿子小星星一起出门玩耍了吗?赶在出门之前,陈妍希还不忘带着儿子小星星一起整理下造型,做好形象工作CBA最美女老板久违现身!一袭黑色连衣裙亮相,干练短发气场十足还记得有着标志性短发的CBA最美女老板伍佰兰吗?伍佰兰是CBA福建队的总经理,这次她久违地出现在球队出征联赛的赛前仪式上,让不少球迷终于看到了她的近态。现身仪式的伍佰兰穿着一身黑色马蓉罕携女儿高调走机场,她一身大牌只顾自己美,女儿像她小跟班中年女性在穿衣搭配上存在很多误区和迷茫,因为年龄处于中间位置,造型既不可以打造得过于成熟,也不能让自己有故意扮嫩的嫌疑,所以想要真正实现高质量的打扮,无疑是一件不容易的事情,不过只背薄了,才显年轻!背部吸脂术后即刻效果真实记录先说一下这位求美者的情况,小姑娘23岁,刚毕业实习,她的困扰就是因为背厚穿衣服不好看,和朋友走在一起,明明同样的年龄,自己总是很显老,没有少女感。她呢,体重105斤,不重,但上半身GIVENCHY女郎,凌厉而柔软不同文化间的相互影响,在这一季的系列中得以充分体现。当地时间10月2日1600,GIVENCHY纪梵希2023春夏女士成衣及配饰系列于巴黎植物园(JardindesPlantes)少女写真6变白皮肤可以通过光子嫩肤黑脸娃娃等方式,另外还可以通过食物调理改善。1光子嫩肤变白皮肤可以通过光子嫩肤的方式,利用特定仪器发射彩光光束,能够粉碎皮下色素细胞,并促使其代谢排出,可以刘亦菲不愧是人间仙子,穿玫红色抹胸连衣裙,气场不输超模刘亦菲的美貌在整个娱乐圈中都是顶级的,她的颜值和气质让人非常羡慕,而且出道这么多年还是很美。这一次就搭配了玫红色抹胸连衣裙,秀出了好身材,看起来太温柔了,这种抹胸连衣裙搭配起来,修
潘妮妮这背后的东西比辱华二字更沉重视频潘妮妮内容提要最近日本有一个国内新闻,说是东京池袋区某一个餐厅,一群古惑仔为了庆祝同伙出狱,搞了个100人左右的大party。那中间不知道怎么就打起来了,打到后面有人报警,但是石家庄躺平了吗?石家庄躺平了吗?作者李万卿网传,石家庄躺平了!真的吗?人们关注的目光,唰地一下从郑州广州移开,亿万双眼睛盯上了石家庄。网上说,石家庄所有商超全都开门纳客了,社区开放了,学校复课了,银发世代给我的启示只有让老年人过得好,年轻人才有希望物有本末,事有终始。每个人都会老去,但永远有人年轻。路易斯阿伦森在她的银发世代一书中指出,老年阶段要占据我们人生3040年的漫长时光,但很多人对此都没有认真的规划。事实上,在媒体和交广会客厅退伍不褪色西安局集团公司工务机械段换轨一车间换轨二班长罗宪军10月31日17时,在西康线西安南至青岔区间的换轨一车间施工现场,民指班工长罗宪军显得格外紧张严肃,民指班负责的百余名劳务工人身安全和两公里的线路作业质量,在铁路大修施工作业中发挥三个边际变化在10月21日报告中,我们指出宏观面仍存在四个不确定性但一些主要线索已现拐点或处于经验上的极值位置,逻辑改善的空间大于逻辑恶化的空间。当时我们结论是权益资产角度处于胜率线索并不清晰拧巴的女生,是真的不会幸福作者腊月南枝,出生于十二月,凌寒独自开。讲你爱听的故事,说你不敢说的真心话。图片来自网络,如有侵权请联系我删除。01hr有的人可能要问了,拧巴是什么意思?百度上解释说,这个词语是比生活不简单,何不简单过曾有个提问为什么人越长大越感觉不到快乐?有位网友回答因为随着我们长大的,除了不断膨胀的欲望,还有越来越浮躁的人心。很多事情过于执着,就会增添烦恼让人心累很多东西过度索求,就会成为肩原创人生感悟人穷莫言孝父母已老我亦老,养家的钱没赚到。风风雨雨三十年,原来尽是瞎胡闹。人穷轻易莫言孝,廉价孝心不如草。三女拜寿已荒唐,原来现实更烧烤。上面的打油诗,是我在写这篇文章时临时写的,是我的真实话说一半,事做一半(一)把真话说一半是水平,也是方法对于一个反应能力差的人,你对他说真话,只会给自己制造麻烦。谁不知道话说三遍淡如水。可在实际工作中,一些人还是话说三遍,甚至更多。尽管事与愿违,但说话者却秋雨乡野昨日一场秋雨,及时而准确,不早不晚,不偏不倚,正是北方小麦出青需要一场雨水的时候,秋雨伴随着降温,如约而至。秋雨是肃杀的,下得悲凉,路上行人也因为寒风雨凉,脚步匆匆,避之不及。田野小鹏汽车组织架构调整基本结束,涉及少部分员工裁退记者周姝祺编辑11月9日,界面新闻从知情人处获悉,小鹏汽车内部组织架构调整已经基本接近尾声,部分条线涉及人员裁退,但比例不高,属于正常的人事调整。上个月,小鹏汽车开始着手一场深度的