范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文

GPT4王者加冕!读图做题性能炸天,凭自己就能考上斯坦福

  #科技之巅#
  编辑:编辑部  【新智元导读】OpenAI的GPT-4在万众瞩目中闪亮登场,多模态功能太炸裂,简直要闪瞎人类的双眼。李飞飞高徒、斯坦福博士Jim Fan表示,GPT4凭借如此强大的推理能力,已经可以自己考上斯坦福了!
  果然,能打败昨天的OpenAI的,只有今天的OpenAI。
  刚刚,OpenAI震撼发布了大型多模态模型GPT-4,支持图像和文本的输入,并生成文本结果。
  号称史上最先进的AI系统!
  GPT-4不仅有了眼睛可以看懂图片,而且在各大考试包括GRE几乎取得了满分成绩,横扫各种benchmark,性能指标爆棚。
  OpenAI 花了 6 个月的时间使用对抗性测试程序和 ChatGPT 的经验教训对 GPT-4 进行迭代调整 ,从而在真实性、可控性等方面取得了有史以来最好的结果。
  大家都还记得,2月初时微软和谷歌鏖战三天,2月8日微软发布ChatGPT版必应时,说法是必应「基于类ChatGPT技术」。
  今天,谜底终于解开了——它背后的大模型,就是GPT-4!
  图灵奖三巨头之一Geoffrey Hinton对此赞叹不已,「毛虫吸取了营养之后,就会化茧为蝶。而人类提取了数十亿个理解的金块,GPT-4,就是人类的蝴蝶。」
  顺便提一句,ChatGPT Plus用户现在可以先上手了。
  考试几乎满分,性能跃迁炸天
  在随意谈话中,GPT-3.5和GPT-4之间的区别是很微妙的。只有当任务的复杂性达到足够的阈值时,差异就出现了,GPT-4比GPT-3.5 更可靠、更有创意,并且能够处理更细微的指令。
  为了了解这两种模型之间的差异,OpenAI在各种基准测试和一些为人类设计的模拟考试上进行了测试。
  GPT-4在各种考试中,有几个测试几乎接近了满分: USABO Semifinal 2020(美国生物奥林匹克竞赛) GRE Writing
  以美国 BAR律师执照统考为例,GPT3.5可以达到 10%水平,GPT4可以达到90%水平。生物奥林匹克竞赛从GPT3.5的31%水平,直接飙升到 99%水平。
  此外,OpenAI 还在为机器学习模型设计的传统基准上评估了 GPT-4。从实验结果来看,GPT-4 大大优于现有的大型语言模型,以及大多数 SOTA 模型:
  另外,GPT-4在不同语种上的能力表现:中文的准确度大概在 80% 左右,已经要优于GPT-3.5的英文表现了。
  许多现有的 ML 基准测试都是用英语编写的。为了初步了解GPT-4其他语言的能力,研究人员使用 Azure翻译将 MMLU 基准(一套涵盖57个主题的14000个多项选择题)翻译成多种语言。
  在测试的 26 种语言的 24 种中,GPT-4 优于 GPT-3.5 和其他大语言模型(Chinchilla、PaLM)的英语语言性能:
  OpenAI表示在内部使用 GPT-4,因此也关注大型语言模型在内容生成、销售和编程等方面的应用效果。另外,内部人员还使用它来帮助人类评估人工智能输出。
  对此,李飞飞高徒、英伟达AI科学家Jim Fan点评道:「GPT-4最强的其实就是推理能力。它在GRE、SAT、法学院考试上的得分,几乎和人类考生没有区别。也就是说,GPT-4可以全靠自己考进斯坦福了。」
  (Jim Fan自己就是斯坦福毕业的!)
  网友:完了,GPT-4一发布,就不需要我们人类了……
  读图做题小case,甚至比网友还懂梗
  GPT-4此次升级的亮点,当然就是多模态。
  GPT-4不仅能分析汇总图文图标,甚至还能读懂梗图,解释梗在哪里,为什么好笑。从这个意义上说,它甚至能秒杀许多人类。
  OpenAI称,GPT-4比以往模型都更具创造力和协作性。它可以生成、编辑和迭代用户进行创意和技术写作任务,例如创作歌曲、编写剧本或学习用户的写作风格。
  GPT-4可以将图像作为输入,并生成标题、分类和分析。比如给它一张食材图,问它用这些食材能做什么。
  另外,GPT-4能够处理超过25,000字的文本,允许用长形式的内容创建、扩展会话、文档搜索和分析。
  GPT-4在其先进的推理能力方面超过了ChatGPT。如下:
  梗图识别
  比如,给它看一张奇怪的梗图,然后问图中搞笑在哪里。
  GPT-4拿到之后,会先分析一波图片的内容,然后给出答案。
  比如,逐图分析下面这个。
  GPT-4立马反应过来:图里的这个「Lighting充电线」,看起来就是个又大又过气的VGA接口,插在这个又小又现代的智能手机上,反差强烈。
  再给出这么一个梗图,问问GPT-4梗在哪里?
  它流利地回答说:这个梗搞笑的地方在于「图文不符」。
  文字明明说是从太空拍摄的地球照片,然而,图里实际上只是一堆排列起来像地图的鸡块。
  GPT-4还能看懂漫画:为什么要给神经网络加层数?
  它一针见血地点出,这副漫画讽刺了统计学习和神经网络在提高模型性能方法上的差异。
  图表分析
  格鲁吉亚和西亚的平均每日肉类消费量总和是多少?在给出答案前,请提供循序渐进的推理。
  果然,GPT-4清楚地列出了自己的解题步骤——
  1. 确定格鲁吉亚的平均每日肉类消费量。
  2. 确定西亚的平均每日肉类消费量。
  3. 添加步骤1和2中的值。
  做物理题
  要求GPT-4解出巴黎综合理工的一道物理题,测辐射热计的辐射检测原理。值得注意的是,这还是一道法语题。
  GPT-4开始解题:要回答问题 I.1.a,我们需要每个点的温度 T(x),用导电棒的横坐标x表示。
  随后解题过程全程高能。
  你以为这就是GPT-4能力的全部?
  老板Greg Brockman直接上线进行了演示。
  最惊艳的是,GPT-4对代码的超强的理解能力,帮你生成代码。
  Greg直接在纸上画了一个潦草的示意图,拍个照,发给 GPT说,给我按照这个布局写网页代码,就写出来了。
  另外,如果运行出错了把错误信息,甚至错误信息截图,扔给GPT-4都能帮你给出相应的提示。
  网友直呼:GPT-4发布会,手把手教你怎么取代程序员。
  顺便提一句,用GPT-4还可以进行报税 。要知道,每年美国人要花好多时间金钱在报税上面。
  训练过程
  和以前的GPT模型一样,GPT-4基础模型的训练使用的是公开的互联网数据以及OpenAI授权的数据,目的是为了预测文档中的下一个词。
  这些数据是一个基于互联网的语料库,其中包括对数学问题的正确/错误的解决方案,薄弱/强大的推理,自相矛盾/一致的声明,足以代表了大量的意识形态和想法。
  当用户给出提示进行提问时,基础模型可以做出各种各样的反应,然而答案可能与用户的意图相差甚远。
  因此,为了使其与用户的意图保持一致,OpenAI使用基于人类反馈的强化学习(RLHF)对模型的行为进行了微调。
  不过,模型的能力似乎主要来自于预训练过程,RLHF并不能提高考试成绩(如果不主动进行强化,它实际上会降低考试成绩)。
  基础模型需要提示工程,才能知道它应该回答问题,所以说,对模型的引导主要来自于训练后的过程。
  GPT-4模型的一大重点是建立了一个可预测扩展的深度学习栈。因为对于像GPT-4这样的大型训练,进行广泛的特定模型调整是不可行的。
  因此,OpenAI团队开发了基础设施和优化,在多种规模下都有可预测的行为。
  为了验证这种可扩展性,研究人员提前准确地预测了GPT-4在内部代码库(不属于训练集)上的最终损失,方法是通过使用相同的方法训练的模型进行推断,但使用的计算量为1/10000。
  现在,OpenAI 可以准确地预测在训练过程中优化的指标损失。例如从计算量为1/1000的模型中推断并成功地预测了HumanEval数据集的一个子集的通过率:
  还有些能力仍然难以预测。比如,Inverse Scaling竞赛旨在找到一个随着模型计算量的增加而变得更糟的指标,而 hindsight neglect任务是获胜者之一。但是GPT-4 扭转了这一趋势:
  OpenAI认为能够准确预测未来的机器学习能力对于技术安全来说至关重要,但它并没有得到足够的重视。
  而现在,OpenAI正在投入更多精力开发相关方法,并呼吁业界共同努力。
  贡献名单
  就在GPT-4发布的同时,Open AI还公开了GPT-4这份组织架构及人员清单。
  上下滑动查看全部
  北大陈宝权教授称, 再好看的电影,最后的演职员名单也不会有人从头看到尾。Open AI的这台戏连这个也不走寻常路。毫无疑问这将是一份不仅最被人阅读,也被人仔细研究的「演职员」(贡献者) 名单,而最大的看头,是详细的贡献分类,几乎就是一个粗略的部门设置架构了。
  这个很「大胆」的公开其实意义挺深远的,体现了Open AI背后的核心理念,也一定程度预示了未来进步的走向。
  参考资料:
  https://openai.com/product/gpt-4

多行诗我叫湄南河为母亲我叫湄南河为母亲我从小就没有父母她也是我面前的镜子看见她也看见我自己那天我站在她面前她盯着我肮脏的双手我也看见我自己一双发窘的眼睛她一定知道我把一支手枪偷偷埋在了榴槤树下枪是我偷的仅仅两大招,美国制造业掏空全球?中国日韩德国等惨了?在所有国人的印象当中,美国的制造业一直在衰落,中国制造已经统治了全球的制造业。但是我告诉你这只是假象。那不只是假象,而且最近7个月美国的制造业正在加速回流。那么我们看到上个世纪60画面曝光!美国新一代B21突袭者轰炸机首次对外公开环球网报道当地时间12月2日,美国空军首次公开展示B21突袭者隐身战略轰炸机,揭幕仪式在诺斯罗普格鲁曼公司位于加利福尼亚州帕姆代尔的工厂举行。图自美国爱德华兹空军基地视频账号直播截从伊朗27岁男子因庆祝美国队打败伊朗队遭击毙,看被带偏的体育据卫报报道,伊朗27岁男子Samak在庆祝世界杯伊朗队输给美国队时,被伊朗安全部队击毙,也许他至死都不明白,体育从来都是有国界的。27岁真的是太年轻了,热情又冲动,不懂透过表面看本卡塔尔小王子于内地爆红开抖音20小时粉丝破千万媲美刘德华2022卡塔尔世界杯掀起全球热潮,首场卡塔尔对阵厄瓜多尔失利,一位卡塔尔观众因在看台激动摆手的表情在内地迅速走红,加之因神似世界杯吉祥物拉伊卜,被戏称为饺子皮王子,连日来微博上有不教育部等两部门最新发布教育部国家语委最新发布关于加强高等学校服务国家通用语言文字高质量推广普及的若干意见教育部国家语委关于加强高等学校服务国家通用语言文字高质量推广普及的若干意见各省自治区直辖市教育厅(浏阳廖勇主任,入室打人事件最新,开除党籍政务撤职被律所起诉11月30日,浏阳市委宣传部发出情况通报网传浏阳市荷花街道工作人员在入户沟通工作过程中,与当事人发生言语冲突并打人,浏阳市纪委监委已介入,涉事干部现已停职,相关调查处理情况将及时向闪电解码六个坚持坚持守正创新视频加载中版权与免责声明凡本网注明来源东营日报黄河口晚刊东营网的所有文字图片和音视频稿件,版权均属东营日报社所有,东营网拥有东营日报社所属东营日报黄河口晚刊东营网的电子信息网络发布人生一刹,我遇见了你11月份的午后还是二十多度的气温,偶尔会有一丝阳光晒落,路上行人行色匆匆,戴着口罩的脸多了一丝陌生。我站在公交站前,准备踏上回家的旅程,等了二十多分钟,公交车才缓缓驶入站点。上了车人生过半,一切看淡文飞鱼01hr有一句话说,心无增减,得失随缘。人生,其实很多东西都是冥冥之中注定好的,是你的,就是你的,不是你的,强求也没有用。人的命,天注定。命中有时终须有,命中无时莫强求。年少落马县委书记好兄弟三天就把我交代了12月2日,廉洁四川微信公众号忏悔实录栏目播发四川省凉山州宁南县委原书记郭均的忏悔实录。郭均,男,1969年12月生,历任西昌市建设局副局长建管局局长发改局常务副局长发改局局长,成
吕不韦的传奇人生谋立储君谁孕姬,巨商贩鬻巧观时。十年富贵随轻覆,奇货元来祸更奇秦市金悬鲁史修,措辞当日两难求。书传果在西迁后,锥口诸儒未必休。吕不韦(?前235年),姜姓,吕氏,名不韦,卫国濮阳(火星尘魔的声音是如何被人类捕捉到的?原作者GeorginaTorbet毅力号火星漫游车在火星上听见了一个尘魔从它的位置呼啸而过。这些是由漫游者的导航相机(Navcam)拍摄的遇见尘魔的图像。这些图像已经被处理过,色阶河南有个中华第一县,3000年从未改名,只因出了个倾国倾城的美女在河南有一个县,将近三千年未曾改过名字,被很多人称之为中华第一县。那么,这背后到底有着怎样动人的故事?她是被称为春秋四大美女之一的息妫。息妫其实并不姓息,她出生在陈国,且是陈国的公如果金钱有灵,会收听到全世界最多的情话,它从何处来?家人阳了,我没啥事,只是嗓子轻微干疼,这大概就是别人眼中的天选做饭人。午间在阳与不阳的纠结中昏昏欲睡,脑子里好似飘过无数金色光斑,就像传说中的黄金钱,忽地惊醒,很多念头不可遏制地冒日本2023年粮油价持续持续上涨增速超过今年的1。5倍日本明年(2023年)食品价格可能会继续飙升。根据日本帝国数据库于2022年12月21日公布了特别项目105家主要食品公司价格修正趋势调查2022年趋势和2023年展望,已经确定了圆通改名,透露出圆通的国际化野心圆通速递更名,加码物流出海低调的圆通,在出海方面正暗暗发力。12月21日,圆通速递国际在港交所发布公告称,公司中文名称已由圆通速递(国际)控股有限公司更改为圆通国际快递供应链科技有汽车降碳,有啥新招?制造端部分国内汽车工厂实现100电能碳中和技术端吉利雷神混动技术平台文图广州日报全媒体记者邓莉虽然今年车市遭遇各种波折,但新能源汽车继续一路高歌。中汽协最新数据显示,今年11月,我关注借壳上市交易完成,亿咖通科技正式登陆纳斯达克文懂车帝原创常思玥懂车帝原创行业12月21日,亿咖通科技宣布,与公开上市的特殊目的收购公司COVAAcquisitionCorp。,(以下简称COVA)此前公布的合并交易已经于20马斯克的学费在马斯克与推特的纠缠中,只有特斯拉受伤的世界达成了。自从马斯克收购推特,开始把重心放在推特运营上后,特斯拉不仅股价与市值暴跌,裁员的阴影也一直挥之不去。虽然马斯克将一切归因于美国宏赚大钱靠巧不靠苦,巧用这5个赚钱秘诀,比努力管用赚大钱靠巧不靠苦,巧用这5个赚钱秘诀,比努力管用浅梦谈金融202205161438山东每个人生来都是有价值的,一生之中最重要的任务就是找到自己,成就自己,诚实待人,努力进取,这样在应对放开,零售企业的生存法则这是灵兽第1251篇原创文章零售企业如何做好短期的应对?作者楚勿留香IDlingshouke1hr很多人还在盼望着疫情结束了,我们的生意就恢复到以前了。生意有可能会恢复到以前的购买