热门文档
- 2021-08-10 10:51:27 附件预览阅读一键文库插件配置使用说明书
- 2021-08-05 14:38:16 【微信,支付宝支付类插件】参数获取以及设置方法
- 2022-07-02 14:21:14 【警钟】文库类dz网站涉嫌侵害作品信息⽹络传播权纠纷案例
- 2021-08-05 14:38:16 设置可可某一款插件为网站首页的方法
- 2021-11-04 09:11:58 国际版手机登录注册插件 使用说明书
- 2021-08-05 14:30:40 it618在线考试答题 题库题目数据库结构与批量导入说明
- 2021-08-05 14:23:06 【西瓜】分类信息 如何添加禁止词
- 2021-08-05 13:34:26 艺迪DzNice轻社区PC模板安装说明
- 2021-08-05 14:13:50 [1314]SEO伪原创插件教程
- 2021-08-05 14:07:17 星点互联装修公司设计案例模板使用说明
- 2021-08-05 14:00:42 销售经理总监简历-多年经验
- 2021-08-05 14:26:31 国家广电总局电影开头PPT模板

1、本文档共计 62 页,下载后文档不带水印,支持完整阅读内容或进行编辑。
2、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。
4、如文档内容存在违规,或者侵犯商业秘密、侵犯著作权等,请点击“违规举报”。
2、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。
4、如文档内容存在违规,或者侵犯商业秘密、侵犯著作权等,请点击“违规举报”。
一切所需都是注意力Ashish VaswaniGoogle Brainavaswani@google.comNoam Shazeer*Google Brainnoam@google.comNiki ParmarGoogle Researchnikip@google.comJakob Uszkoreit*Google ResearchLlion Jones*Google ResearchAidan N.Gomez*University of Torontoaidan@cs.toronto.edutukasz Kaiser*Google Brainlukaszkaiser@google.comIllia Polosukhin*illia.polosukhin@gmail.comAttention is All You Need一切所需都是注意力1/62努力验证这个想法。Ashish.和Ilia设计并实现第一个Transformer模型,并在这项顶工作中的各个方面起着至关重要的作用。Noam提出缩放版的点积attention、muli-head attention和与参数无关的位置表示,并成为在几乎每个细节中都涉及的另外一个人。Nⅵkⅵ在我们最初的代码库和tensora2 tensor中设计、实现、调优和评估了无数的模型变体。L/ion还尝试了新的模型变体,负责我们的初始代码库,以及高效的推断和可视化。Lukasz和Aidan花费了无数的时间来设计tensora2 tensor的各个部分,取代了我们之前的代码库,极大地改进了结果并大大加快了我们的研究tWorkperformedwhileatGoogleBrain.Work performed while at Google Research.第31届神经网络信息处理系统会议(N川PS2017),美国加州长滩市。摘要主流序列转导模型基于复杂的循环神经网络或卷积神经网络,这些神经网络包含一个编码器和一个解码器。性能最好的模型还通过attention机制将编码器和解码器连接起来。我们提出一种新的简单的网络架构Transformer,仅基于attention机制并完全避免循环和卷积。对两个机器翻译任务的实验表明,这些模型在质量上更加优越、并行性更好并且需要的训练时间显著减少。我们的模型在WMT2014英语-德语翻译任务上达到28.4BLEU,超过现有最佳结果(包括整合模型)2个BLEU。在WMT2014英语-法语翻译任务中,我们的模型建立了单模型新的最先进的BLEU分数41.8,它在8个GPU上训练了3.5天,这个时间只是目前文献中记载的最好的模型训练成本的一小部分。通过在解析大量训练数据和有限训练数据的两种情况下将其应Attention is All You Need一切所需都是注意力2/62任务。1简介在序列建模和转换问题中,如语言建模和机器翻译[35,2,5],循环神经网络特别是长短期记忆13]和门控循环7]神经网络,已经被确立为最先进的方法。自那以后,许多努力一直在推动循环语言模型和编码器-解码器架构的界限[38,24,15]。循环模型通常是对输入和输出序列的符号位置进行因子计算。通过在计算期间将位置与步骤对挤,它们根据前一步的隐藏状态h和输入产生位置的隐藏状态序列h。这种固有的顺序特性阻碍样本训练的并行化,这在更长的序列长度上变得至关重要,因为有限的内存限制样本的批次大小。最近的工作通过巧妙的因子分解21]和条件计算[32]在计算效率方面取得重大进展,后者还同时提高了模型性能。然而,顺序计算的基本约束依然存在。在各种任务中,attention机制已经成为序列建模和转导模型不可或缺的一部分,它可以建模依赖关系而不考虑其在输入或输出序列中的距离[2,19]。除少数情况外[27],这种attention机制都与循环网络一起使用。在这项工作中我们提出Transformer,这种模型架构避免循环并完全依赖于attention机制来绘制输入和输出之间的全局依赖关系。Transformer允许进行更多的并行化,并且可以在八个P100GPU上接受少至十二小时的训练后达到翻译质量的新的最佳结果。2背景减少顺序计算的目标也构成扩展的神经网络GPU[16]、ByteNet[18]和ConvS2S[9]的基础,它们都使用卷积神经网络作为基本构建模块、并行计算所有输入和输出位置的隐藏表示。在这些模型中,关联任意两个输入和输出位置的信号所需的操作次数会随着位置之间的距离而增加,ConvS2S是线性增加,而ByteNet是对数增加。这使得学习远程位置[12]之间的依赖性变得更加困难。在Transformer中,这种操作减少到固定的次数,尽Attention is All You Need一切所需都是注意力3/62
请如实的对该文档进行评分-
-
-
-
-
0 分