如何加速大模型开发？技术方案拆解来了昇思MindSpore技术一览

　　随着ChatGPT爆火出圈，狂飙之势从22年底持续到23年初，与以往的技术突破不同的是，此次的大模型不仅被技术界关注，而且备受投资界、产业界和大众消费者的追捧，使它成为历史上最快月活过亿的现象级应用，继而引发全球科技巨头的AI竞赛。
　　大模型的高智能化离不开对模型的大规模预训练，这背后需要强大的AI框架作底层支持。面对动辄千亿级参数的大模型，如何使能广大开发者和用户进行开发，在当前大模型研究分秒必争之时弯道超车？且让我们顺着大模型技术的方案拆解，一探昇思MindSpore AI框架的技术能力。预训练大模型的开发之路
　　大规模预训练——GPT3与鹏程.盘古
　　2020年，OpenAI祭出了远超同期所有预训练模型的大杀器GPT3。凭借着1750亿参数量，300B Token的预训练，GPT3展现出非常强悍的自然语言处理能力，包括：文本生成：根据Prompt来续写（补全）句子。上下文学习(In-context Learning): 遵循给定任务的几个示例，然后为新的测试用例生成解决方案。世界知识(World Knowledge): 包括事实性知识和常识。
　　此时与GPT3同量级的大规模预训练语言模型仍是国内外难以逾越的大山。2021年4月，基于昇思MindSpore AI框架的多维度自动混合并行能力，以鹏城实验室为首的联合科研团队在大规模AI算力平台鹏城云脑II上，训练出业界首个2000亿参数、以中文为核心的预训练生成语言模型鹏程.盘古。联合团队从开源开放数据集、common crawl网页数据、电子书等收集了近80TB原始数据，搭建了面向大型语料库预处理的分布式集群，通过数据清洗过滤、去重、质量评估等处理流程，构建了一个约1.1TB大小的高质量中文语料数据集，经统计Token数量约为250B规模。
　　凭借着与GPT3相同量级的参数量，鹏程.盘古预训练模型拥有不逊于GPT3的上下文学习和世界知识能力。
　　△图1 鹏程.盘古模型架构
　　利用昇思MindSpore AI框架的自动并行能力，开发者只需一行代码就能实现模型自动切分、分布式并行计算，省却大量复杂设计，在大集群上高效训练千亿至万亿参数模型。关于昇思MindSpore的自动并行能力，这里先按下不表，让我们继续看下一个技术要素。
　　思维链的必经之路——Code预训练
　　思维链（Chain of Thoughs，即链式思维推理）是大模型能够拥有拟人化对话能力的关键。在GPT3之后，思维链能力开始被认为是通过few shot learning进行激发，后续有＂lets think step by step＂的zero shot prompt进一步触发了该能力。但是此时的大模型仍旧仅限于在各类数据集上呈现弱思维链能力。
　　直到代码数据的预训练模型出现并融入到自然语言预训练模型中，大模型的思维链接能力跃上新的台阶。下图是OpenAI从GPT3以来的演进路线图。左侧的分支是代码大模型的持续演进，一直到code-davinci-002将LM和Code训练进行融合，再加入instruct tuning，最终催生出耳熟能详的ChatGPT。
　　△图2 ChatGPT演进路线
　　2022年9月，清华大学团队基于昇思MindSpore 1.7研发了CodeGeeX代码预训练大模型，并使用鹏城实验室的大规模AI算力平台（鹏城云脑II）进行训练。CodeGeeX的训练语料由两部分组成：第一部分是开源代码数据集，The Pile与CodeParrot；第二部分是补充数据，直接从GitHub开源仓库中爬取Python、Java、C++代码。整个代码语料含有23种编程语言、总计1587亿个标识符（不含填充符）。
　　在开发与训练过程中，清华大学与昇思MindSpore团队深度合作，实现了一系列算子融合优化，包括单元素算子融合、层归一化算子融合、FastGelu与矩阵乘法融合、批量矩阵乘法与加法融合等, 为训练速度带来了显著提升。
　　撬动人类的智慧——RLHF与PPO
　　ChatGPT令人震惊的能力在于其能够真正拟人化地进行对话，生成内容更加符合人类的认知和价值观。在大模型已经具备充足的世界知识、上下文学习能力和思维链能力的情况下，虽然可以在各大NLP数据集持续刷榜，但是仍旧存在一个问题——与人类的表达习惯差异巨大。而ChatGPT的前身InstructGPT，向我们展示了人类反馈加入模型训练的循环当中，所能呈现的巨大改变，那就是RLHF（Reinforcement Learning from Human Feedback，即使用人类反馈强化学习）。
　　RLHF技术主要分为如下4个步骤：
　　1) 无监督预训练: 预训练一个语言模型如GPT-3。
　　2) 有监督的微调：生成一组Prompt，以及对每个Prompt的人类反馈。即一个由对组成的训练数据集。然后对预训练的模型进行微调。
　　3) 训练＂人类反馈＂的奖励模型：建立一个奖励模型，对预训练语言模型输出进行评分。首先给定一组Prompt，机器生成对这些指令的Answer，并由人类对其质量进行评分或排名。使用这个数据集来训练一个奖励模型，为任何对输出一个质量分数。
　　4) 训练一个基于奖励模型进行优化的强化学习策略。
　　下图是RLHF的核心PPO算法的示意图：
　　△图3 PPO算法逻辑
　　针对RLHF所需的强化学习算法，昇思MindSpore进行了布局，发布MindSpore Reinforcement Learning套件，为编写强化学习算法提供了简洁的API抽象，将算法与部署和调度解耦；将强化学习算法转换为一系列编译后的计算图，然后由昇思MindSpore AI框架在昇腾AI处理器、CPU、GPU上高效运行。目前MindSpore Reinforcement Learning套件提供下述能力：
　　1) 提供丰富的强化学习算法：当前已支持15+经典强化学习算法，涵盖Model-free/Model-based/Offline-RL/Imitation Learning，单智能体/多智能体，连续/离散动作空间，Episodic/Non-Episodic等算法；接入Mujoco、MPE、StarCraft2、DeepMind Control等常用模拟环境。
　　2) 专注高性能训练：通过计算图和ReplayBuffer加速、异步环境并行和高性能领域组件，已支持算法的平均吞吐率相比主流框架提升120%。
　　3) 支持大规模分式训练：通过将强化学习算法分割成多个数据流片段（Fragmented Dataflow Graphs），并映射到异构设备上高效执行，对比业界主流框架实现了3~5倍的性能提升。昇思MindSpore使能大模型历程
　　随着AI技术的发展，预训练大模型成为世界各科技强国竞争的焦点。预训练大模型率先在自然语言处理领域取得突破性的进展，并迅速拓展到涉及图像、视频、图形、语言等跨媒体推理的各类任务和大量的商业应用之中，展现了巨大的发展潜力。在过去的几年，产业界基于昇思MindSpore先后发布了一系列有影响力的大模型，下图为这些大模型的训练时间轴。
　　△图4 昇思MindSpore大模型历程
　　上图模型结构涉及Transformer Encoder、Transformer Decoder、MOE、乃至Clip与Diffusion，均基于昇思MindSpore AI框架训练。
　　昇思MindSpore具备丰富的并行能力，能轻松完成4096卡集群、万亿参数规模的训练任务，因此支撑了国内多个领域首发大模型的训练，这些大模型涉及知识问答、知识检索、知识推理、阅读理解、文本/视觉/语音多模态、生物制药、遥感、代码生成等。大模型的底座——昇思MindSpore的分布式并行能力
　　在梳理完ChatGPT的技术方案和昇思MindSpore的大模型历程之后，我们再深入展开昇思MindSpore AI框架支撑一众大模型的核心——分布式并行能力。
　　分布式训练
　　昇思MindSpore支持当前主流的分布式训练范式并开发了一套自动混合并行解决方案，提供以下关键技术：
　　1）数据切片预处理：对训练数据进行任意维度切片后再导入到设备进行训练；
　　2）算子级并行：对正向网络中的每个算子都独立建模，每个算子可以拥有不同的切分策略；
　　3）优化器并行：将数据并行的参数副本切分到多个设备上，以节省内存占用；
　　4）Pipeline并行：将神经网络中的计算图切分成多个阶段(Stage)，再把阶段映射到不同的设备上，使得不同设备去计算神经网络的不同部分；
　　5）MOE并行：为每个专家分配专门的计算任务，不同的专家可以托管在不同的设备上；
　　6）多副本并行：在一个迭代步骤中，将一个训练batch拆分成多个micro-batch，将模型并行通信与计算进行并发；
　　7）异构并行：将算子分配到异构硬件上执行，充分利用硬件资源，提升整体训练吞吐量；
　　8）正向重计算：在正向计算时，不保存占用大量内存的中间输出结果，而是保存占用少量内存的输入；而在反向计算时，根据输入重新计算正向输出，从而大大削减正向计算累积的内存峰值；
　　9）全局内存复用：对计算图进行静态编译寻优得到最优内存复用策略；
　　相较于业界的深度学习框架或分布式并行框架，昇思MindSpore在分布式关键技术上，支持能力范围广、自动化程度高、易用性好，具备如下优势：
　　1）支持的模型类型更丰富（Transformer、超分图像、推荐等），通用性更强，而像业界Megatron框架则是面向Transformer定制的框架；
　　2）相同算力和网络下，丰富的并行策略可实现更大的计算通信比，性能更优（相同硬件平台(V100、A100)，性能超越Megatron 15%）；
　　3）并行策略丰富，无需手动切分，大模型开发和调优效率优于业界；
　　分布式推理
　　相较于训练，推理对计算性能的要求更高。如何在集群上实现高效快速的大模型推理，是目前各种框架研究的一个重点和难点。为了解决上述问题，昇思MindSpore提出了分布式推理+增量推理的解决方案，使用数据并行、模型并行、流水并行等多维度混合并在大集群上面进行推理。此外，由于Transformer Decoder类自回归语言模型，在传统的推理模式下存在很多重复计算，昇思MindSpore提供的增量推理能力能够省掉这些重复计算，增强推理效率。
　　△图5 增量推理流程图
　　如上图所示，第一阶段将使用完整输入推理，保存当前字（词）对应的向量。在第二阶段，输入仅为上一步推理得到的字（词），然后将本步推理得到的向量与保存下来的前序向量拼接，作为本步推理的完整向量，得到本步的输出字（词）。重复以上两个阶段。极简易用的大模型训练——大模型套件
　　在现有的大模型开发过程中，用户经常会发现SOTA基础模型代码非模块化从而影响进一步的创新开发。不仅如此，用户在模型实现中，经常找不到对应的SOTA模型以及相应的下游任务，从而加长了开发周期，影响论文或项目的进度。为了解决这些痛点，基于昇思MindSpore的大模型套件——MindSpore Transformers应声而出。
　　MindSpore Transformers是基于昇思MindSpore的深度学习大模型开发套件，其目标是构建一个大模型训练、微调、评估、推理、部署的全流程开发套件。套件覆盖了CV、NLP等AIGC的热门领域，提供模型生命周期中的全流程快速开发能力，支持开箱即用，并具有四个特点：MindSpore Transformers中提供了非常丰富的预置模型，包含了当下典型的预训练大模型(Bert、T5、VIT等)，涵盖当下CV、NLP等AIGC的热门领域。同时，套件也包含了丰富的下游微调任务，精度与SOTA基本持平。MindSpore Transformers中提供了统一的开发范式。套件开放了Trainer、pipeline等特性接口，实现模块化、配置化的开发，大大提高典型模型(尤其是基于transformer结构的网络)的开发效率。模型部署方面， 套件支持昇腾AI基础软硬件平台，提供了一键云上部署接口。MindSpore Transformers提供了统一的对外接口。在现有版本中，套件和业界流行的Huggingface 接口保持一致，用户可以一键切换，从而极大地降低代码迁移的成本。MindSpore Transformers套件天然包含昇思MindSpore AI框架自身优势，包含多维度并行(模型并行、流水线并行、优化器并行、多副本并行等)、图算融合等能力，可以在模型训练时有效地提升内存使用效率和速度，帮助用户快速训练百亿、千亿甚至是万亿级别的模型。
　　△图6 MindSpore Transformers 架构图
　　通过以上技术拆解和案例可以看出，昇思MindSpore发展至今，已经具备了支持大模型开发所需的各项核心技术，同时提供了一整套高效、易用的大模型使能套件，形成了端到端的使能大模型开发能力。昇思MindSpore AI框架为助力大模型创新、繁荣AI产业生态铺就了一条信心之路。
　　△图7 昇思MindSpore原生支持大模型的能力优势
　　欢迎使用昇思MindSporeAI框架：
　　https://mindspore.cn/
　　https://gitee.com/mindspore/mindformers
　　引用：
　　[1]Zeng W, Ren X, Su T, et al. Large-scale Autoregressive Pretrained Chinese Language Models with Auto-parallel Computation[J]. arXiv preprint arXiv:2104.12369
　　[2]https://yaofu.notion.site/GPT-3-5-360081d91ec245f29029d37b54573756
　　[3]https://huggingface.co/blog/rlhf
　　[4] https://aijishu.com/a/1060000000222564
　　[5]https://gitee.com/mindspore/mindformers/wikis/%E7%89%B9%E6%80%A7%E8%AE%BE%E8%AE%A1%E6%96%87%E6%A1%A3

意外！中超顶薪先生刚加盟新球队就遭弃用，后悔当初离开山东泰山在经历了一个糟糕的中超联赛上半程后，上海海港在联赛下半程开始发力。8月的夏季转会窗，海港俱乐部一口气引进了武磊巴尔德斯蒋光太和李帅等多位国内外强援，球队的实力因此而得到了大幅的提升NBA能影响全世界的球星有几位？艾弗森仅4人，我和麦迪不够格近日有媒体采访到了艾弗森这位巨星，作为1996年的选秀状元，艾弗森在赛场上展现出了非常强悍的水平，这位出色的巨星带领过费城76人进入总决赛的舞台，同时也在多支球队展现出了自己强硬的哈兰德成夏窗转会性价比最高球员，切尔西有点冤大头随着新一轮国家队比赛周的到来，欧洲各大俱乐部的比赛也暂时告一段落，以五大联赛为例，新赛季欧洲各大联赛普遍进行了7到8轮的比赛，欧冠联赛和欧联杯也都踢完了两轮小组赛。各大俱乐部在20不装了！夏奇拉发火了，巴萨巨星怒怼，双方爆发冲突，球迷活该头条创作挑战赛据西班牙知名媒体NuestroDiario爆料称，巴萨巨星皮克和夏奇拉爆发了冲突，他们现在公开撕破脸不装了，夏奇拉也发火了，而皮克也并没有打算给她面子直接怒怼，球迷们任正非讲话让寒气传递到每个人后，目前的经济形势如何？秋高气爽的天气，华为却让我们雪上加霜，感到了寒冷！大佬一句话，盘面都整崩，这寒气直接传递给了每一个人包括大A。最近华为一封内部信引起了大家的讨论。任正非在文中提到，把活下来作为最主LOLGEN五年征程终夺联赛首冠，打野Peanut荣获FMVP8月28日下午，2022LCK夏季总决赛圆满落下帷幕，常规赛霸主Gen。G战队在决赛中用无可置疑的强势发挥30击败了春季赛卫冕冠军T1战队夺得冠军。这是Gen。G战队队史上的首座联中超联赛2022赛季第十四轮广州队旧将出场动态大连人20沧州雄狮沧州雄狮方面，布格拉汗斯坎旦尔（00，前锋）首发，第77分钟被何友族换下。河北队17长春亚泰长春亚泰方面，刘伟国（92，守门员）韩鹏飞（93，后卫）进入大名单但未C罗拟转投切尔西，与梅西继续欧冠一决雌雄有消息称，门德斯可能会最后一次尝试让C罗从曼联转会到切尔西。最近几个月，C罗一直是曼联的一个麻烦，他希望自己能离开曼联。这名前锋上赛季在红魔的个人表现很好，他在英超打进了18球。但张本美和打疯了！连赢9场夺得冠军，正式入选世青赛约战中国队2022年成都世界乒乓球锦标赛即将开打，虽然日本小将张本美和未能像哥哥张本智和一样入选，但她却获得了另一个重要大赛的资格，那就是世界青少年乒乓球锦标赛。据悉，张本美和在日本国内的世怎么欧洲冠军又是西班牙，约基奇扬尼斯卢卡都进不了四强？2022男篮欧锦赛结束，西班牙拿下近六届第四个冠军。与此同时过去四届NBA常规赛MVP希腊的扬尼斯，塞尔维亚的约基奇以及在欧洲与美国都风生水起的欧洲小王子斯洛文尼亚的卢卡，这几位N孙准浩参加韩国队合练，郝伟周六过招沈祥福近日，随着孙兴慜等旅欧球员的报到，韩国国家队新一期的集训阵容已经组建完毕，在经过短期调整后，韩国队主帅本托也开始按部就班地组织球队进行合练。在韩国队阵容之中，最受泰山队关注的非中场

<<<<<<－>>>>>>

WIN7真的走到尽头了吗？为什么新电脑不支持安装WIN7？win7更新了，win10卖谁？系统不更新，谁买新cpu？系统来适配硬件功能才做的升级，不然微软闲的慌了，一直做新系统？反正你电脑厂商生产一个电脑都需要向微软买系统，win10家庭穿衣不好看是一种什么体验？我就是这样，穿上龙袍也不像太子的主儿！曾经尝试不同风格的衣服，最后都是一个结果，穿什么都土的掉渣！现在年纪大了也看开了，反正就是件衣服，穿着舒服就行！捂脸会觉得自己很土吧，要锻炼身乡村振兴，普通农村人需要先干什么？乡村振兴如何振兴，只凭嘴就能振兴吗？想要好的乡村振兴必须走集体道路，把农民变成职业工人，进行农产品深加工，供向城市提升农业真正收入。扩大养殖业发展，进行产业再加工使农民有更大的就业邮政储蓄银行存了5万定期二年，取钱时发现存折是5千怎么回事？如何咨询银行处理？存了5万定期两年，取钱时存折上只有5千，根据多年从业经验分析，出现如此大差距的可能性并不大，其余4。5万很可能被买成了其他金融产品。结合几种可能性，做进一步分析。首先分析一下柜员是SYMFNX150三阳的小排量运动踏板感觉怎么样？说起排量小的踏板车，更多人的印象是省油实用经济环保，并不会和运动有太多关系，这也难怪，因为国内125mL150mL级别的运动踏板车真的屈指可数，国内的踏板车运动文化并不盛行，这也间烹饪食品不放油你能做出多少种美食？你好，我是小七妈，很高兴回答这个问题。不放油能做的美食其实非常多，有的是借助食材本身的天然油脂，有的是借助水分，无论是哪一种，没有油能做出来的美食也非常的好吃。我是一个孩子的妈妈，为什么山西运城和临汾的方言相近但和其它地方相差甚远？首先我是临汾人，主要原因我觉得有这几个，从地理上看，山西两侧是山脉，中间是珍珠似的小盆地，从而内部是相对隔绝的小的地形单元，给人类的沟通带来很大不便，但是，从临汾往北，交通条件明显湖南最涩人脸红的高山风景在哪里？湖南最涩人脸红的高山风景在湘西永顺的万坪镇，也是全国最高的涩人的男柱，上下两根。明清时期是上湖南土家先人膜拜的地方，高度约1200百米，是今发现全国第一高的高山男人的雄伟。此景如开相比较iPhone13有必要多花2000元买iPhone13Pro吗？iPhone13和iPhone13Pro的区别仔细一看，还是挺多的首先自然是性能部分，iPhone13Pro采用的是满血版A15芯片，而iPhone13是残血版的A15，满血版相比为什么国人那么多人喜欢买iPhone，国产手机不好吗？一是审美观不同二是思想认识不同三是道德品质不同。感谢您的阅读！为什么国人那么多喜欢买iPhone，国产手机不好吗？首先你得承认，iPhone手机它确实有着独特的优势，包括它本身所拥普洱市有哪些大学？根据教育部最新发布的2015年全国普通高等学校名单，普洱共有2所大学，其中一本二本三本大学共1所，专科学校1所，以下是普洱所有大学名单。本科普洱学院专科云南热带作物职业学院1普洱学