为何最近突然火了?没有颠覆性创新?关于ChatGPTAIGC的核心问答
近期,ChatGPT火爆全球,仅用了两个月就达到1亿活跃用户,成为史上用户增长最快的消费应用。
不仅如此,ChatGPT在资本市场掀投资狂潮,多只概念股持续走高,还吸引众多科技巨头争相入局。
同时,也有不少有关ChatGPT的问题,如为何最近突然火了?到底没有颠覆性创新?申万宏源证券洪依真团队在最新的报告中对这些关键问题一一作出解答。
Q1:为何GPT-3在2020年就推出了,而资本市场近期才开始对大模型高关注?
申万宏源指出,2020年的GPT-3仍有较多缺陷,其中无法商用的最大问题是输出结果有毒或不真实,OpenAI2022年1月正式公开了改良版InstructGPT。比GPT-3小了100多倍,仅有13亿个参数。
OpenAI使用了一种通过人类反馈来强化学习(RLHF)的现有技术,根据用户和API的交互结果,对模型的多个输出进行了排名,然后再利用这些数据微调GPT-3,大幅减少了有毒结果的输出。因此,我们现在看到的ChatGPT可以优化负面结果,同时连贯对话也更加流畅,达到了可以商用的效果。
Q2:为何也有人认为GPT等大模型并未对NLP做出颠覆式创新?
传统NLP最大缺陷,即自然语言理解、缺乏逻辑等问题,在GPT中仍未被解决。
GPT等模型依赖于大规模离线收集的语料进行训练,但是对于在线提供的即时信息,往往并不能进行充分理解并且纳入自己的回复中。更进一步的,对于对话中提供的因果关系,ChatGPT也往往缺乏很好的理解能力。
此外,GPT会给出部分问题貌似合理但不正确或荒谬的答案,或者过度使用一些词句和特定表达,同时缺乏类似人类的举一反三的能力等。
Q3:国内transformer大模型做的怎样?
申万宏源指出,首先需要承认这一类大模型底层创新在美国开始,2017年Google《AttentionIsAllYouNeed》首次提出了NLP模型Transformer,OpenAI的GPT-3等。中国在2021年后加速追赶,尤其是在CV大模型和多模态融合。
据国内OpenBMB开源社区统计,目前,在全球超千亿参数的大模型中,中国企业或机构贡献了1/3,美国贡献了1/2,世界其他国家或组织贡献了剩下的1/6。
其次,国内大部分视觉类AI公司都以小模型路线为主,投入大模型研发较多的包括百度、华为等,优势可能会在多模态融合。
申万宏源在这里列剧了百度文心和华为盘古大模型:百度文心大模型:NLP+CV,基本实现跨模态和多下游应用。应用场景涵盖:NLP大模型、CV大模型、跨模态大模型、生物计算大模型、行业大模型。API包括了:1)ERNIE3.0文本理解与创作:预置作文生成、文案创作、情感分析等任务提示,2)ERNIE-ViLGAI作画大模型,3)PLATO大模型开放域对话服务。
华为盘古大模型:最大中文语言预训练模型。2021年4月华为发布千亿参数40TB训练数据的全球最大中文语言(NLP)预训练模型,30亿参数的全球最大视觉(CV)预训练模型。将P-tuning、priming等最新技术融入到盘古的微调框架中,提升微调效果;在样本极少的情况下,盘古的少样本学习能力远超GPT系列和BERT系列;要得到相同的F1结果,盘古所需的数据量仅为中文 GPT-3的1/9,实现了近10倍的生产效率提升。
Q4:大规模预训练模型(大模型)与小模型的核心区别?大模型有什么优势?
最核心区别在于参数量,例如GPT-3参数量达到了1,750亿个,是传统深度学习小模型参数量的至少一万倍以上。申万宏源表示,通过模型的扩大,可以带来提升包括:1)GPT-2等大模型舍弃了小模型中常见的调参Fine-Tuning过程,转向容量更大、无监督训练。
2)在自然语言理解NLP中,常见任务包括翻译、问答、文本填空等,常见小模型需要对不同的任务使用不同模型分别训练解决,而GPT-3等大规模预训练模型不再规定任务,而是对以上不同任务都有较好效果。
3)传统的模型训练方式是反向传播算法,先对网络中的参数进行随机初始化,再利用随机梯度下降等优化算法不断优化模型参数,这种方式下对数据需求量较大。GPT-3先使用海量数据预训练大模型,得到一套模型参数,然后用这套参数对模型进行初始化,再进行训练。大幅降低后续对数据量的需求。
Q5:GPT-3等大模型和Transformer的关联?
Transformer是目前NLP领域效果较好的深度学习模型,因此GPT/Bert等都使用了Transformer。
Transformer引入了Self-Attention自注意力机制:让机器注意到整个输入中不同部分之间的相关性。Transformer最大的特点是,可以让每个单元都可以捕捉到整句的信息,这也是RNN/LSTM等更早期NLP模型无法做到的一点。
Q6:大规模预训练思路对AI应用落地有什么帮助?
小模型时代,商用模型开发会综合考虑调参等研发投入量和带来的商业价值,模型开发出来后能否复用以摊薄研发成本,同时对于部分训练样本量较少的场景,没有很好解决方法。
大模型可以在长尾场景应用落地,降低训练成本、减少数据要求。基于大规模预训练思路,一方面大模型可以应对多个泛化任务,大模型+细分场景微调,更适合长尾落地;另一方面,对于小样本训练,大模型也有较好提升。
Q7:那Transformer对于CV机器视觉可以有类似NLP的提升吗?
Transformers用在CV上的难点,Transformers自注意力操作中,每个元素需要和每个元素互相进行两两互动,最后算得一个Attention自注意力图,通过加权平均,最后得到输出。由于单元间两两互动,因此复杂度是序列长度的平方,也就是n^2,在自然语言处理中,一个句子的长度一般就是几百或上千,例如BERT为512序列长度。
而对于一个比较常见的224x224大小的图片,如果直接以每一个像素点为单位进行两两互动的话,那序列长度为50176,大概为BERT序列长度的100倍,因此复杂度极高。
但在2021年后,随着swintransformer、mae等论文推出,transformer在CV和跨模态等应用增加。因此,国内擅长CV的AI公司,在2022年前对于基于transformer的大模型关注投入较少,但是申万宏源认为随着VIT等效果提升,应用类的CV公司也会开始关注并投入大模型。
Q8:怎样的公司有机会参与大模型底层技术研发?
申万宏源认为大模型对存储、算力要求极高,普通机构或难以复现。GPT-3发布一年后,只有NVIDIA、微软等大企业可以复现。
据NVIDIA估算,如果要训练GPT-3,即使单个机器的显存/内存能装得下,用8张V100的显卡,训练时长预计要36年;如果拥有1024张80GBA100,那么完整训练GPT-3的时长可以缩减到1个月。
以微软与OpenAI合作建造的AzureA工智能算力平台为例,该算力平台投资约10亿美元,使用该超算中心训练一次超大模型GPT-3大约花费1200万美元。同时需要解决分布式训练问题:上百台服务器之间的通信、拓扑、模型并行、流水并行等问题,模型训练是显存峰值问题。
本文主要摘取自申万宏源报告《ChatGPT/AIGC 九问九答》
本文来自华尔街见闻,欢迎下载APP查看更多
小学英语除了背单词还要怎么学习?记忆单词是小学英语学习的基础,但背单词并不是目的,英语学习的目的,主要是用于交流,因为它是一个交际工具,需要用它去跟别人交流思想与感情,因此我们还需要去学习语法词类,逐步具有遣词造
你见过哪些让人耳目一新的饮料?小茗同学。这款饮料让我耳目一新,因为我儿子就叫小茗呲牙呲牙呲牙喝过一种带气的矿泉水,忘了名字了蜂蜜抽子,茶几,雷碧,都让人耳目一新捂脸捂脸捂脸华润集团魔力维他命,这款饮料是为年轻人
乌鲁木齐让你最难忘的美食是什么?乌鲁木齐是我国西北新疆维吾尔自治区的省会城市,历史悠久,风土人情十分富有特色。说起乌鲁木齐的美食,那可真是数不胜数。接下来我就为大家介绍一下令我十分难忘的乌鲁木齐的美食吧。新疆大盘
长沙理工大学在全国排名多少?学校怎么样?1,长沙理工大学的历史和定位。长沙理工大学是湖南省与交通运输部共建高校,由原交通部所属长沙交通学院和国家电力公司所属的长沙电子学院合并而成(2003),是湖南省2011计划,教育部
为什么长沙松雅湖公园周围一直没开发起来?没为什么,就是因为长沙县偏居一偶,松雅湖北边是农田和储备土地,南边又留点土地以后等升值卖,当然也是想找合适的机会,同时,北边是捞刀河,也不好开发。目前准备把捞刀河桥修起来,链接安沙
淮南这座非一线城市为什么建了4个高铁站?淮南是我国较大的市之一,是国家重要能源城市,有5个市辖区,常住人口349万人,城市规模还不错,市区有2个高铁站,另外2个高铁站在下面的寿县和凤台县,高铁站数量并不算过多,有利于来往
首次买房,你会选择大城市还是选择老家?没感觉,打小生在北京,换房也别出二环,过去住东单姥姥带着我们走着去故宫,首次买房的人该如何选择买房的策略呢?这完全要取决于个人对于房子的需求和能力了。现如今年轻人去大城市打拼的越来
微信聊天语音记录会在腾讯服务器保存多久?微信的文字和语音聊天记录都是保存在手机本地的。你用一段时间微信就会发现微信的体积越来越大,有好几个G,这全部都是微信的聊天记录。微信所有的聊天记录都是通过腾讯的服务器进行缓存的。以
现在助听器处于什么技术水平?从最早的模拟机到数字机,现在是全数字助听器了。除了运算速度,降噪技术的进一步细化,目前无线技术也在不断的完善。你如果还想了解的更详细些,可以到连锁中心实际试听下新技术的助听器产品,
有人称现在王者峡谷平衡的崩塌源自于马可波罗这个英雄,你认同吗?本期话题王者峡谷平衡的崩塌源自于马可波罗这个英雄,你同意这种说法吗?王者荣耀英雄众多,每个英雄都有其独特的玩法,我们不好评判单个英雄的技能机制是否合理,因为那是策划的事情。但有件事
你在魔兽世界中见过最欧皇的玩家是什么样的?你怎么看?魔兽世界欧皇玩家自从魔兽世界7。0版本加入个人掉落橙,并且在8。0版本强制使用个人拾取机制后,欧皇一词就频繁的出现在玩家们的视野中,不过欧皇并不是从7。0才出现的,早期版本中的各类