范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文

深度学习读论文AttentionIsAllYouNeed2017年

  hello,大家好,我是小孟,欢迎来到我的频道,如果喜欢,请三连:关注、点赞、转发。您的支持是我创作的动力源泉。今天我们来读一篇论文,Transformer 的新型神经网络架构,它彻底改变了自然语言处理(NLP)领域,目前非常火的ChatGPT就是采用Transformer框架。一、作者简介
  这篇论文在文中标注了所有作者是同等贡献,这在其他论文中是比较少遇到的,一般情况下,论文的第一作者贡献度是最大的,越靠后贡献度越低。
  这篇论文是由Google Brain团队的Ashish Vaswani、Noam Shazeer、Niki Parmar、Jakob Uszkoreit、Llion Jones和Aidan N. Gomez共同撰写的论文。其中,Ashish Vaswani现为加州大学伯克利分校计算机科学系助理教授;Noam Shazeer是Google Brain的研究员;Niki Parmar是Google Brain的研究员;Jakob Uszkoreit是Google研究院的研究员;Llion Jones是Google Brain的研究员;Aidan N. Gomez则是OpenAI的研究员,曾在Google Brain工作。二、摘要
  主流的序列转换模型基于复杂的循环神经网络或卷积神经网络,包括编码器和解码器。表现最好的模型还通过注意力机制连接编码器和解码器。我们提出了一种新的简单网络架构,Transformer,完全基于注意机制,完全摒弃循环和卷积。在两个机器翻译任务的实验中,这些模型在质量上表现优异,同时更易并行化,需要更少的训练时间。我们的模型在 WMT 2014 英德翻译任务上取得了28.4的BLEU分数,优于现有最佳结果,包括集合模型,超过2个BLEU。在 WMT 2014 英法翻译任务上,我们的模型在8个GPU上训练3.5天后,建立了一个新的单模型最优BLEU分数,为41.8,这只是文献中最佳模型的训练成本的一小部分。我们证明了 Transformer 在其他任务中具有良好的泛化能力,成功地将其应用于英语语法分析,无论是使用大量还是有限的训练数据。三、引言
  循环神经网络、长短时记忆网络(LSTM)和门控循环神经网络已被牢牢确立为序列建模和转换问题(如语言建模和机器翻译)的最先进方法。自那以后,许多工作一直在继续推动循环语言模型和编码器-解码器体系结构的发展。
  循环模型通常沿着输入和输出序列的符号位置分解计算。将位置与计算时间步对齐,它们生成一系列隐藏状态ht,作为先前隐藏状态ht-1和位置t的输入的函数。这种固有的序列性质排除了训练示例内部的并行化,这在较长的序列长度下变得至关重要,因为内存限制限制了跨示例的批处理。最近的工作通过分解技巧和条件计算在计算效率方面取得了显著改进,同时在后者的情况下也改善了模型性能。然而,顺序计算的根本约束仍然存在。
  注意力机制已经成为各种任务中引人注目的序列建模和转换模型的一个重要组成部分,允许对依赖性进行建模,而不考虑它们在输入或输出序列中的距离。然而,在很少几种情况下,这种注意力机制是与循环网络一起使用的。
  在本文中,我们提出了Transformer,这是一种模型架构,放弃了循环,并完全依赖于注意力机制来绘制输入和输出之间的全局依赖关系。Transformer允许更大程度的并行化,并且在仅在八个P100 GPU上进行了12小时的训练后,就可以达到新的翻译质量最高水平。四、背景
  减少顺序计算的目标也构成了Extended Neural GPU、ByteNet和ConvS2S的基础,它们都使用卷积神经网络作为基本构建块,为所有输入和输出位置并行计算隐藏表示。在这些模型中,将两个任意输入或输出位置的信号相关联所需的操作数量随着位置之间的距离增加而增长,对于ConvS2S是线性增长,对于ByteNet是对数增长。这使得学习远距离位置之间的依赖关系更加困难。在Transformer中,这被减少为一定数量的操作,尽管由于平均注意加权位置而导致有效分辨率降低,但我们在第3.2节中介绍的多头注意力机制抵消了这种影响。
  自注意力(self-attention),有时也称为内部注意力(intra-attention),是一种注意力机制,用于关联同一序列中不同的位置,以计算序列的表示。自注意力已成功地应用于各种任务,包括阅读理解、抽象摘要、文本蕴涵和学习任务无关的句子表示。
  端到端记忆网络是基于一种循环注意力机制而非序列对齐循环,已被证明在简单语言问答和语言建模任务中表现良好。
  据我们所知,Transformer是第一个完全依赖于自注意力机制计算其输入和输出表示的传导模型,而不使用序列对齐的循环神经网络或卷积神经网络。在接下来的几节中,我们将描述Transformer,解释自注意力机制的动机。五、模型结构
  大多数有竞争力的神经序列转换模型都具有编码器-解码器结构。在这里,编码器将符号表示(,...,)的输入序列映射到连续表示z = (,...,)的序列中。给定z,解码器然后一次生成一个符号输出序列(,...,)。在每一步中,模型都是自回归的,在生成下一个符号时,消耗先前生成的符号作为附加输入。
  Transformer模型采用这种总体架构,使用堆叠的自注意力机制和点对点的全连接层作为编码器和解码器,分别显示在图1的左半部分和右半部分。
  Figure 1: The Transformer - model architecture.
  5.1、编码器和解码器堆
  编码器:编码器由N = 6个相同的层堆叠而成。每个层包含两个子层。第一个子层是多头自注意机制,第二个是一个简单的位置逐点的全连接前馈网络。我们在每个子层周围使用残差连接,然后是层归一化。也就是说,每个子层的输出是LayerNorm(x + Sublayer(x)),其中Sublayer(x)是子层本身实现的函数。为了方便这些残差连接,模型中的所有子层,以及嵌入层,都会产生512维的输出。
  解码器:解码器也由 N=6 个相同的层组成。除了每个编码器层中的两个子层外,解码器还插入了第三个子层,对编码器堆栈的输出执行多头注意力。与编码器类似,我们在每个子层周围使用残差连接,然后进行层归一化。我们还修改了解码器堆栈中的自注意子层,以防止位置注意到后续位置。这种掩码,加上输出嵌入偏移一个位置,确保位置 i 的预测仅依赖于小于 i 的已知输出。
  5.2、注意力
  一个注意力函数可以被描述为将一个查询(query)和一组键值对(key-value pairs)映射到一个输出(output)的函数,其中查询、键、值和输出都是向量。输出被计算为值的加权和,每个值被赋予的权重是由查询与相应键的兼容性函数计算的。
  图2:(左)缩放点积注意力。(右)多头注意由并行运行的多个注意层组成。
  5.2.1、缩放点积注意力
  我们将我们特定的注意力机制称为"缩放点积注意力"(图2)。输入由维度为的查询和键以及维度为的值组成。我们计算查询与所有键的点积,将每个点积除以,并应用softmax函数来获得值的权重.
  在实践中,我们同时对一组查询进行注意力函数的计算,将这些查询打包成一个矩阵 Q。键和值也被打包成矩阵 K 和 V。我们通过以下方式计算输出矩阵:
  两种最常用的注意力函数是加法注意力和点积(乘法)注意力。点积注意力与我们的算法相同,除了缩放因子。加法注意力使用带有单个隐藏层的前馈网络计算兼容性函数。虽然两者在理论复杂度上类似,但在实践中,点积注意力更快、更节省空间,因为它可以使用高度优化的矩阵乘法代码实现。
  当的值比较小的时候,这两种机制的表现相似,但对于较大的值,加法注意力机制优于没有缩放的点积注意力机制。我们怀疑在值很大的情况下,点积的结果会变得很大,将softmax函数推到具有极小梯度的区域。为了抵消这种影响,我们将点积结果除以进行缩放。
  5.2.2、多头注意力
  我们发现,与其使用具有维度的键、值和查询进行单个注意力函数,将查询、键和值线性投影次,使用不同的可学习线性投影将它们投影到、和维度上,效果更好。在这些投影版本的查询、键和值上,我们并行执行注意力函数,得到维的输出值。然后将这些值进行串联,再次进行投影,最终得到最终的值,如图2所示。
  多头注意力机制使模型能够同时关注不同位置上来自不同表示子空间的信息。使用单个注意力头进行平均处理会抑制这种能力。
  这里的投影是指参数矩阵,,,和。在这项工作中,我们使用h = 8个并行的注意力层或头。对于每个头,我们使用。由于每个头的维度降低,总的计算成本类似于具有完整维度的单头注意力。
  5.2.3、在我们的模型中使用注意力
  Transformer在三个不同的方面使用多头注意力:
  • 在"编码器-解码器注意力"层中,查询来自前一个解码器层,而记忆键和值来自编码器的输出。这允许解码器中的每个位置关注输入序列中的所有位置。这模仿了序列到序列模型中的典型编码器-解码器注意机制。
  • 编码器包含自注意层。在自注意层中,所有键、值和查询都来自同一个位置,即编码器中上一层的输出。编码器中的每个位置都可以关注编码器上一层中的所有位置。
  • 同样,解码器中的自注意层允许解码器中的每个位置关注到该位置及其之前的解码器中的所有位置。我们需要防止解码器中的向左信息流以保留自回归属性。我们通过在缩放点积注意力中屏蔽(将其设置为-∞)与非法连接对应的所有softmax输入值来实现这一点。请参见图2。
  5.3、位置编码前馈网络
  除了注意力子层,我们的编码器和解码器的每个层还包含一个全连接的前馈网络,它分别且相同地应用于每个位置。该网络由两个线性变换组成,其中间有一个ReLU激活函数。
  (2)
  虽然在不同位置上线性变换的方式相同,但是它们在不同层之间使用不同的参数。另一种描述方法是,它们是使用内核大小为1的两个卷积。输入和输出的维度是 = 512,内层的维度是 = 2048。
  5.4、嵌入和Softmax
  类似于其他序列转导模型,我们使用学习到的嵌入将输入标记和输出标记转换为维度为的向量。我们还使用通常的学习线性变换和softmax函数将解码器的输出转换为预测的下一个标记的概率。在我们的模型中,我们在两个嵌入层和预softmax线性变换之间共享相同的权重矩阵。在嵌入层中,我们将这些权重乘以。
  5.5、位置编码
  由于我们的模型不包含循环和卷积,为了使模型利用序列的顺序信息,我们必须注入一些有关序列中标记的相对或绝对位置的信息。为此,在编码器和解码器堆栈底部的输入嵌入中添加"位置编码"。位置编码与嵌入具有相同的维度,因此可以将它们相加。有许多位置编码的选择,可以学习或固定不变。
  表格1:n是序列长度,d是表示维度,k是卷积核大小,r是受限自注意力中邻域的大小。
  在这项工作中,我们使用了不同频率的正弦和余弦函数:
  其中 是位置, 是维度。也就是说,位置编码的每个维度对应一个正弦波。这些波长形成了一个从 到 的几何级数。我们选择这个函数是因为我们假设它能够让模型轻松地学会按照相对位置进行注意力,因为对于任意固定的偏移量 , 可以表示为 的线性函数。
  我们也尝试使用学习的位置嵌入代替正弦位置编码,并发现这两个版本产生的结果几乎相同(见表3的E行)。我们选择正弦版本,因为它可以使模型对训练期间未遇到的更长序列长度进行外推。六、为什么用自注意力
  本节中,我们比较了自注意力层与常用的循环层和卷积层在将一个变长符号表示的序列(,...,)映射到另一个等长序列(,...,)的方面。这些序列的每个元素都是维实数,例如,它们可以是典型序列传导编码器或解码器中的隐藏层。激励我们使用自注意力的是三个需求。
  其中一个是每个层的总计算复杂度。另一个是可以并行计算的计算量,这是用最少的顺序操作来衡量的。
  第三个是网络中长程依赖之间的路径长度。学习长程依赖是许多序列传导任务的关键挑战。影响学习这种依赖的一个关键因素是前向和后向信号在网络中必须遍历的路径长度。这些路径在输入和输出序列的任何两个位置之间的长度越短,学习长程依赖就越容易 。因此,我们还比较了由不同类型层组成的网络中任意两个输入和输出位置之间的最大路径长度。
  如表1所示,自注意力层使用恒定数量的顺序操作连接所有位置,而循环层需要个顺序操作。从计算复杂度的角度来看,当序列长度小于表示维度时,自注意力层比循环层更快。这通常是最先进的机器翻译模型中使用的句子表示的情况,例如word-piece和byte-pair表示。为了提高处理非常长序列任务的计算性能,自注意力可以被限制为仅考虑以相应输出位置为中心的输入序列中大小为的邻域。这将增加最大路径长度为。我们计划在未来的工作中进一步研究这种方法。
  使用宽度为的单个卷积层不能连接所有输入和输出位置对。在连续内核的情况下,这需要个卷积层,或在膨胀卷积的情况下需要个卷积层,从而增加了网络中任意两个位置之间的最长路径的长度。卷积层通常比循环层更昂贵,因为它们的计算复杂度是的倍数。但是,可分离卷积大大减少了计算复杂度,降至。即使,可分离卷积的复杂度也等于自注意力层和逐点前馈层的组合,这是我们模型所采用的方法。
  此外,自注意力还可以产生更易于解释的模型。我们检查了模型的注意力分布,并在附录中呈现和讨论了示例。不仅单个注意力头明显学习执行不同的任务,而且许多注意力头似乎表现出与句子的句法和语义结构相关的行为。七、总结
  本文提出了Transformer,这是第一个完全基于注意力机制的序列转换模型,用多头自注意力取代了编码器-解码器架构中最常用的循环层。 对于翻译任务,相较于基于循环或卷积层的架构,Transformer的训练速度更快。在WMT 2014英德翻译和英法翻译任务中,我们都取得了新的最佳表现。在前者任务中,我们的最佳模型甚至优于以前所有报告的集成模型。 我们对基于注意力机制的模型的未来感到兴奋,并计划将其应用于其他任务。我们计划将Transformer扩展到涉及文本以外的输入和输出模态的问题,并研究局部的、受限制的注意力机制,以有效地处理诸如图像、音频和视频之类的大型输入和输出。使生成结果不再顺序化也是我们的另一个研究目标。 我们用于训练和评估模型的代码可在https://github.com/tensorflow/tensor2tensor上获得。
  论文地址:https://arxiv.org/abs/1706.03762

最美的瞬间头条创作挑战赛这人世间最美好的事情,便是一场说走就走的旅行。我感觉最能治愈人心的,就是一路上沿途的美景,将你的心放飞在天空之城,所有的忧愁,都能烟消云散。三年的疫情终于过去了,一切荣耀80GT上新12512GB版本,实际使用体验如何?值不值得购买?最近,已经发布有一段时间的荣耀80GT又上新了一个12GB512GB的大存储空间版本,售价3299元。这对于大多数消费者来说的确是好事,毕竟选择更多了,只不过对于部分已经入手了荣耀在pom文件中增加依赖时IDEA没有辅助提示的解决办法在SpringBoot项目的POM文件中增加依赖时,首先需要获取依赖的Maven坐标信息,一般是在Maven仓库中搜索(网址httpsmvnrepository。com)。如果之前京东百亿补贴正面PK拼多多,网友玩不起!提到百亿补贴,你第一时间会想到谁?如果是拼多多的话,那恭喜你是个普通人如果还有淘宝的话,那恭喜你心思比较细腻如果还有京东的话,那你绝对是个互联网人。不同于拼多多百亿补贴早先在微信铺ampampquot乌佐酒效应ampampquot背后的小把戏可能启发更好的乳剂出现向乌佐酒(Ouzo)中加水会使其变浑浊,这种效果被称为乌佐效应。这种效应可以产生稳定的乳状液,即通常不能很好地混合在一起的液体的混合物。然而,科学家们还没有完全理解这种作用。最近的园区可视化大屏管理吉优赛维园区数字孪生园区可视化大屏管理,吉优赛维园区数字孪生整体解决方案供应商。吉优赛维(北京)科技有限责任公司是一家致力于数字孪生系统建设技术服务企业,集Web3D三维可视化数据层应用层交互层平台层蔡斌迎来好消息!3大球星闪耀意甲联赛,朱婷大爆发超新星成惊喜中国女排国家队正在全力备战巴黎奥运会。由于中国女排在东京奥运会上没有能够取得理想中的成绩,因此球迷们非常希望中国女排能够在巴黎奥运会上展现出高水平。虽然中国女排在巴黎奥运会上劲敌很央视公开发声!女足核心王霜迎来好消息,退役后不用愁了中国女足被称为铿锵玫瑰。在历史上,中国女足获得过奥运会和世界杯的亚军,中国女足也出现过非常多优秀的运动员。目前,中国女足的头号球星毫无疑问就是王霜。王霜作为中国女足的核心,代表中国一觉醒来!数码领域传来三大好消息,换手机就一步到位如果您喜欢,可以点击上面的关注二字。后续会为您提供更多有价值的内容。美国一研究院经贸专家被采访时说道今年中国经济有望实现强劲增长。的确,疫情过后,各行各业百废待兴,生产逐渐恢复并向好消息!2023年养老金上涨,工龄35年能多涨钱!咋回事呢?2023年的养老金上涨大势已定!工龄35年的人能多涨钱吗?答案是肯定的。2023年刚开年,职工医保个人账户改革让许多人每年损失超过了2000元以上,许多退休人员觉得非常肉疼情绪低落CBA消息曝纪检委已撤出篮协,杨鸣或身价提高,张春军依旧首发曝调查组撤出篮协北京时间3月9日,CBA常规赛第三阶段的比赛已经进行了一个星期。得益于恢复主客场,使得每一场焦点大战的热度都非常高,不过随着比赛的持续推进,在赛场上总是有不和谐的声
猛龙会成为东部黑马,永远不要低估了一颗总冠军的心大话西游里有一句经典的台词曾经有一份真诚的爱情摆在我面前,可是我没有去珍惜,等到失去的时候才后悔莫及,尘世间最痛苦的事莫过于此,如果上天能够给我一个再来一次的机会,我会对那个女孩说开门黑!湖人惨遭国王逆转,詹姆斯7中0,浓眉哥1111,威少5分10月4日,NBA季前赛,湖人惨遭国王逆转,吃到开门黑。这场比赛湖人上半场一度领先两位数,无奈第三节被对手一波流反超,末节没有翻盘,吃到败仗。詹姆斯表现不佳,投篮只有7中0,贝弗利见仁见智!国内名记坦言快船冲冠毫无希望,并给出三大理由支撑随着科怀莱昂纳德伤愈归来,快船再次成为了争冠球队之一。鲍威尔考文顿以及沃尔的加盟,让这支球队如虎添翼,甚至有不少媒体认为快船现在的阵容深度绝对排在全联盟第一。不过仁者见仁智者见智,德约状态惊人横扫夺冠,单打冠军数量迫近纳达尔因为未接种疫苗,德约科维奇消失在ATP巡回赛已经有近3个月时间了,即便如此,前世界第一的状态依然保持得非常之好。北京时间10月3日凌晨,2022年ATP250特拉维夫站结束男单决赛巴尔韦德相比欧冠冠军我更想要世界杯,我确实挺像杰拉德直播吧10月4日讯据马卡报报道,巴尔韦德接受乌拉圭媒体采访,谈到世界杯等话题,巴尔韦德表示相比欧冠冠军我更想要世界杯,我(踢球的风格)确实挺像杰拉德。关于安切洛蒂巴尔韦德现在安切洛金州勇士休赛期签约解析整体刚刚好Hi掌握篮板球,掌握命运。迪文琴佐金州勇士用一份两年930万的合约签下迪文琴佐,合同的最后一年为球员选项。个人觉得这笔签约对金州勇士来说算得上是十分划算了,以下是我们以勇士签约他之西甲首位下课主帅诞生!7轮1分,高层失去耐心,前阿根廷助教接任西甲战至7轮,首位下课主帅诞生!据升班马埃尔切的官方网站透露俱乐部管理层已告知弗朗西斯科罗德里格斯,他将不再担任埃尔切俱乐部的主教练,俱乐部对他的工作和贡献表示感谢,希望他和其他教梅雷特和金玟哉会用英语交流与那不勒斯续约已达协议只待官宣直播吧10月4日讯北京时间10月5日凌晨3点,欧冠小组赛,那不勒斯将在客场对阵阿贾克斯。那不勒斯门将梅雷特随主帅斯帕莱蒂一同出席了赛前新闻发布会。关于球队状态从赛季初,我们就展现出人类学家获诺贝尔奖板凳十年寒窗苦一朝成名天下知人类学家研究人类,不只十年人类学家认为目前的现代人类起源于非洲,距今20万年的样子。那么,各地的人类化石代表什么意义?代表了人类已经存在过,代表了动物也SpinLaunch的创新卫星发射系统完成第10次试飞总部位于美国LongBeach的太空公司SpinLaunch近日宣布成功完成了第10次试飞,通过旋转离心力这种创新方式将小型卫星送上轨道。公告称,该试飞于9月27日发射,是11个月宇宙6大速度,人类仅仅达到第三,如果达到第六能飞到宇宙边缘学物理的时候学过三大宇宙速度,然而宇宙中的速度并非只有这三个,课本上的三大速度只是人类能够达到的速度而已。实际上,根据天体的等级划分,宇宙中的速度有六个,它们分别代表离开这个天体系