范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文

GPT3的工作原理可视化和动画

  How GPT3 Works - Visualizations and AnimationsGPT3 的工作原理 - 可视化和动画
  Jay Alammar 发表的一篇blog,我用机器翻译转给大家看看,关于最火热的GPT3的工作原理。
  原文地址:
  https://jalammar.github.io/how-gpt3-works-visualizations-animations/
  The tech world is abuzz with GPT3 hype. Massive language models (like GPT3) are starting to surprise us with their abilities. While not yet completely reliable for most businesses to put in front of their customers, these models are showing sparks of cleverness that are sure to accelerate the march of automation and the possibilities of intelligent computer systems. Let’s remove the aura of mystery around GPT3 and learn how it’s trained and how it works.
  科技界充斥着 GPT3 炒作。大规模语言模型(如 GPT3)的能力开始让我们大吃一惊。虽然对于大多数企业来说,展示在客户面前的这些模型还不是完全可靠,但这些模型正在显示出聪明的火花,这些火花肯定会加速自动化的进程和智能计算机系统的可能性。让我们揭开 GPT3 的神秘面纱,了解它的训练方式和工作原理。
  A trained language model generates text.
  经过训练的语言模型生成文本。
  We can optionally pass it some text as input, which influences its output.
  我们可以选择将一些文本作为输入传递给它,这会影响它的输出。
  The output is generated from what the model "learned" during its training period where it scanned vast amounts of text.
  输出是根据模型在扫描大量文本的训练期间"学习"的内容生成的。
  Training is the process of exposing the model to lots of text. That process has been completed. All the experiments you see now are from that one trained model. It was estimated to cost 355 GPU years and cost $4.6m.
  训练是将模型暴露于大量文本的过程。该过程已经完成。你现在看到的所有实验都来自那个训练有素的模型。估计耗资 355 GPU 年,耗资 460 万美元。
  The dataset of 300 billion tokens of text is used to generate training examples for the model. For example, these are three training examples generated from the one sentence at the top.
  3000 亿个文本标记的数据集用于生成模型的训练示例。例如,这些是从顶部的一个句子生成的三个训练示例。
  You can see how you can slide a window across all the text and make lots of examples.
  您可以看到如何在所有文本上滑动一个窗口并提供大量示例。
  The model is presented with an example. We only show it the features and ask it to predict the next word.
  该模型提供了一个示例。我们只向它展示特征并要求它预测下一个单词。
  The model’s prediction will be wrong. We calculate the error in its prediction and update the model so next time it makes a better prediction.
  模型的预测将是错误的。我们计算其预测中的误差并更新模型,以便下次做出更好的预测。
  Repeat millions of times 重复数百万次
  Now let’s look at these same steps with a bit more detail.
  现在让我们更详细地看一下这些相同的步骤。
  GPT3 actually generates output one token at a time (let’s assume a token is a word for now).
  GPT3 实际上一次生成一个输出标记(让我们假设一个标记现在是一个词)。
  Please note: This is a description of how GPT-3 works and not a discussion of what is novel about it (which is mainly the ridiculously large scale). The architecture is a transformer decoder model based on this paper https://arxiv.org/pdf/1801.10198.pdf
  请注意:这是对 GPT-3 工作原理的描述,而不是讨论它的新颖之处(主要是荒谬的大规模)。该架构是基于本文https://arxiv.org/pdf/1801.10198.pdf的transformer解码器模型
  GPT3 is MASSIVE. It encodes what it learns from training in 175 billion numbers (called parameters). These numbers are used to calculate which token to generate at each run.
  GPT3 是巨大的。它用 1750 亿个数字(称为参数)对从训练中学到的内容进行编码。这些数字用于计算每次运行时要生成的令牌。
  The untrained model starts with random parameters. Training finds values that lead to better predictions.
  未经训练的模型以随机参数开始。训练会找到导致更好预测的值。
  These numbers are part of hundreds of matrices inside the model. Prediction is mostly a lot of matrix multiplication.
  这些数字是模型中数百个矩阵的一部分。预测主要是很多矩阵乘法。
  In my Intro to AI on YouTube, I showed a simple ML model with one parameter. A good start to unpack this 175B monstrosity.
  在我在 YouTube 上的人工智能介绍中,我展示了一个带有一个参数的简单 ML 模型。打开这个 175B 怪物的包装是一个好的开始。
  To shed light on how these parameters are distributed and used, we’ll need to open the model and look inside.
  为了阐明这些参数的分布和使用方式,我们需要打开模型并查看内部。
  GPT3 is 2048 tokens wide. That is its "context window". That means it has 2048 tracks along which tokens are processed.
  GPT3 是 2048 个令牌宽。那就是它的"上下文窗口"。这意味着它有 2048 个处理令牌的轨道。
  Let’s follow the purple track. How does a system process the word "robotics" and produce "A"?
  让我们跟随紫色轨道。系统如何处理"robotics"这个词并产生"A"?
  High-level steps: 高级步骤:Convert the word to a vector (list of numbers) representing the word
  将单词转换为表示单词的向量(数字列表)Compute prediction 计算预测Convert resulting vector to word 将生成的向量转换为单词
  The important calculations of the GPT3 occur inside its stack of 96 transformer decoder layers.
  GPT3 的重要计算发生在其 96 个转换器解码器层的堆栈中。
  See all these layers? This is the "depth" in "deep learning".
  看到所有这些图层了吗?这就是"深度学习"中的"深度"。
  Each of these layers has its own 1.8B parameter to make its calculations. That is where the "magic" happens. This is a high-level view of that process:
  这些层中的每一层都有自己的 1.8B 参数来进行计算。这就是"魔法"发生的地方。这是该过程的高级视图:
  You can see a detailed explanation of everything inside the decoder in my blog post The Illustrated GPT2.
  您可以在我的博文 The Illustrated GPT2 中看到解码器内部所有内容的详细解释。
  The difference with GPT3 is the alternating dense and sparse self-attention layers.
  与 GPT3 的不同之处在于密集和稀疏自注意力层的交替。
  This is an X-ray of an input and response ("Okay human") within GPT3. Notice how every token flows through the entire layer stack. We don’t care about the output of the first words. When the input is done, we start caring about the output. We feed every word back into the model.
  这是 GPT3 中输入和响应("Okay human")的 X 射线图。注意每个令牌如何流经整个层堆栈。我们不关心第一个单词的输出。输入完成后,我们开始关心输出。我们将每个词反馈回模型。
  In the React code generation example, the description would be the input prompt (in green), in addition to a couple of examples of description=>code, I believe. And the react code would be generated like the pink tokens here token after token.
  在 React code generation example 中,描述将是输入提示(绿色),此外还有几个 description=>code 示例,我相信。反应代码将像这里的粉红色令牌一样生成一个又一个令牌。
  My assumption is that the priming examples and the description are appended as input, with specific tokens separating examples and the results. Then fed into the model.
  我的假设是启动示例和描述作为输入附加,并使用特定标记分隔示例和结果。然后输入到模型中。
  It’s impressive that this works like this. Because you just wait until fine-tuning is rolled out for the GPT3. The possibilities will be even more amazing.
  令人印象深刻的是,它是这样工作的。因为您只需等到 GPT3 推出微调。可能性将更加惊人。
  Fine-tuning actually updates the model’s weights to make the model better at a certain task.
  微调实际上是更新模型的权重,使模型在某个任务上表现更好。
  Written on July 27, 2020 写于 2020 年 7 月 27 日

为什么个别南方人吃蔬菜沙拉,反而嫌弃东北人吃蘸酱菜?沙拉,是近些年才流行起来的,有些人可能觉得吃沙拉显得高端洋气,而东北人吃蘸酱菜,有几百年历史了,属于习惯性常规饮食。南方经济发达地区的傲慢,沙拉本身加上酱是重油重蛋白的(沙拉酱,油重庆歌乐山著名景点是什么?重庆歌乐山,位于重庆市沙坪坝区歌乐山镇。它是属于缙云山的一条余脉,因抗战时期的陪都遗迹白公馆和渣滓洞监狱而出名,特别是当长篇小说红岩的广泛流传,歌乐山更是成了一座具有军魂的伟大山脉为什么地球是圆的,地面却是平的?首先,地球是圆的,这是毋庸置疑的。公元前3世纪,古希腊天文学家埃拉托斯特尼根据正午射向地球的太阳光和两观测地的距离,第一次算出地球的周长。1622年葡萄牙航海家麦哲仑领导的环球航行女人和男人点外卖有什么不同,为什么外卖员都不愿意送?女人和男人点外卖有什么不同,为什么外卖员都不愿意送?随着时代的发展,手机已经成了我们生活中的一部分,如果哪天没有了手机,相信不少人都会难以接受,手机和网络的出现真的是为我们的生活提我是一个差生,同学不待见我,老师讽刺我,我该怎么办?我从小生活在部队干部家庭,生活优渥,无忧无虑,不知道学习的目的和意义何在。上初中时我虽然在普通学校的重点班,却是班里最差的学生,真是同学不待见老师常讽刺,但仍不知努力。考高中时同班你觉得华为手机未来会超越三星和苹果吗?在技术上还有很长的路要走,但是目前已经可以看出华为在迅速的进步了。都在奔跑。看谁体能好!诚信大。个人认为华为的逆势回升就像中华民族的复兴一样,是不可逆转的。华为因为漂亮国不顾脸面举孩子4岁多,从幼儿园回来就抱着手机玩怎么办?孩子玩手机的可能无法杜绝不玩,但可以限制时间。从幼儿园回来,应该时间还比较早,可以带孩子在小区的广场玩玩滑板车,骑自行车之类的。如果有给孩子报兴趣班,运动类,书画类,音乐类都可以分为什么石家庄工资这么低,房价这么贵?高低贵贱都是相对的,你仔细品!很简单,人口多,产业少,就业难。透过现象看本质,工资低房价高都是事实。工资低是收入分配决定的,只能是我们在社会收入分配时处于低收入人群,有低就有高,放国产新能源汽车和特斯拉差距到底在哪里?特斯拉只有美国品牌这一条比国产受欢迎,而产品力则全面落后。无论是硬件,软件,自动驾驶,座舱系统,三电系统,以及企业对待安全的态度,还有服务,都有国产超越特斯拉。现在的汽车市场国产的徐州睢宁县城有哪些好玩的景点?睢宁县十大旅游景点1。水月禅寺AAAA水月禅寺前后历程据后汉书载笮融在下邳(今睢宁县)大起浮屠寺,上累金盘,下为重楼,又堂阁周回,可容三千许人。作黄金2。水袖天桥水袖天桥通过简单而你有没有发现最近四五月份世界各地都频繁出现UFO?这是啥预兆吗?你有没有发现最近四五月份世界各地都频繁的出现UFO?这是啥征兆?其实一直以来UFO事件都挺多的,到目前为止也没有真正的确定哪一次是外星人的智能飞碟。目前我们已经可以确定UFO是存在
英超综合曼城大胜阿森纳告捷新华社伦敦2月25日电(记者张薇)英超前两名25日双双得胜,阿森纳到访莱斯特城10小胜,曼城客场41大胜伯恩茅斯。阿森纳在少赛一场的情况下以2分优势继续领跑。客场作战的阿森纳当日占12分战胜伊朗男篮!末节打崩伊朗男篮!乔帅是否比杜锋厉害?北京时间2月26号中午12点中国男篮在香港荃湾主场迎战伊朗男篮!今天的对阵伊朗的名单有了很大的调整,郭艾伦,胡明轩,王哲林,朱俊龙没进大名单。吴前,胡金秋,曾凡博,程帅彭进入大名单济南市召开台港澳同胞商量工作室圆桌恳谈会听心声促服务谋发展济南市召开台港澳同胞商量工作室圆桌恳谈会(图片来源济南市台港澳办)中国台湾网2月27日讯近日,济南市召开台港澳同胞商量工作室圆桌恳谈会,听取住济台商台企代表意见建议,共叙友谊,共话用心灵的感动和力量改变世界人类是一个充满感性的物种,我们总是被那些温暖真实有温度的故事所打动,所感动,所影响。今天,我想要讲一个故事,这个故事不是发生在现实中,而是发生在一个虚构的世界中。在这个世界里,人们文旅动态新疆文旅投携手博湖县唱响中国西海博斯腾湖品牌近日,新疆文化旅游投资集团与博湖县经过洽谈,达成初步共识,将共同合作开发博湖旅游相关产业及项目,进一步擦亮中国西海博斯腾湖品牌。春节期间,游客在博斯腾湖大河口景区体验冰雪游乐项目年全国人大代表金立奎税惠政策助力企业研发创新全国两会召开在即,2月23日,国家税务总局珠海市税务局局长李政科率队走访十四届全国人大代表珠海方正科技高密电子有限公司技术中心经理金立奎,并与金立奎代表及企业相关负责人举行座谈,详好生态迎来国宝级鸟类欢驻淮南湿地河南日报客户端记者胡巨成通讯员李汶哲鸟类是反映生态环境的晴雨表,更是最好的环评师。又是候鸟迁飞的季节,2月23日,在信阳市淮滨县的淮南湿地上,雁鹤归来,万鸟翔集。这些珍稀鸟类或安然新闻多一度中国驾照全球使用指南出境游哪里可以自驾?5月16日起,内地与澳门驾驶证可互认换领。这一举措大大便利粤港澳大湾区居民往来。之后可以直接开车到澳门吗?出境旅游,中国驾照可以在哪些国家或地区使用?1月18日,游客在澳门大三巴牌春色满园关不住游园不值应怜屐齿印苍苔,小扣柴扉久不开。春色满园关不住,一枝红杏出墙来。宋叶绍翁早春时节,随着气温回暖,春花次第开放,人们踏青赏花,亲近自然,尽享迷人春色。2月18日,游客在江苏省滑县杀妻案女孩遗体被偷?真假不知,但死者哥哥发布最新突发消息无辜被丈夫杀害的滑县女孩芳芳头七刚过,却再次引起了轩然大波,一些离奇的信息在网络上传开。这其中包括有网传的死者芳芳的遗体被婆家人连夜从安葬的堂屋内偷走。此消息是出自死者的哥哥发布的银行存款变天,如果你还把钱存在银行,这三类存款不能碰?是竭力为您服务还是让您竭力服务?毋庸置疑,一定的现金在手着实可以给人以安全感,但大量现金在手就不是安全感了。若问怎么可以得到更多的钱?那答案必然就是钱生钱。而实施这种方法较为稳妥同