当前位置 首页 欧美剧 《机器之心》

机器之心9.0

类型:欧美剧 美国 2013

主演:卡尔·厄本  迈克尔·伊雷  莉莉·泰勒  麦肯锡·克鲁克  迈克尔·埃尔比  乔·史密..  

导演:Sam  Hill  

观看《机器之心》的还喜欢

  • 14集全

    魔界奇谭第四季

  • 13集全

    魔界奇谭第五季

  • 18集全

    魔界奇谭第二季

  • 14集全

    魔界奇谭第三季

  • 20集全

    时空游侠

机器之心剧情介绍

  数小时前发表的论文《DeepNet:Scoling Transformers to 1000 Layers》来自微软研究院。   这项研究将Transformer的深度直接提高到1000层!   接下来,让我们来看看你在这项研究中说了什么吧。   近年来,在大规模的Transformer模型中,随着模型参数从数百万增加到几十亿,甚至数兆,性能有显著提高的倾向。大规模模型在一系列任务中获得SOTA性能,并显示了在小样本和零样本学习设置中受到关注的能力。如下面的图1所示,参数量已经大,Transformer模型的深度被限制为训练不稳定。      Nguyen和Salazar(2019)发现,基于post-norm连接(Post-LN),pre-norm残差连接(Proe-LN)提高了Transformer的稳定性。然而,下层中的Ple-LN的梯度往往大于上层,并且与Post-LN相比性能降低。为了缓解这个问题,研究人员努力通过更好的初始化或更好的架构来优化深度Transformer。这些方法可以稳定到数百层的Transformer模型,但是传统方法没有成功地扩展到1000层。   微软研究院在新论文《DeepNet:Scoling Transformers to 1000 Layers》中,将Transformer的深度扩大到1000层。      论文地址:   https://arxiv.org/pdf/2203.00555.pdf   研究人员的目标是提高Transformer模型的训练稳定性,并将模型深度扩展几级。因此,他们研究了不稳定优化的原因,发现爆炸模型的更新是不稳定的元凶。基于这些观察,我们将DEEPNORM引入残差连接,该DEEPNORM是一个理论有效的归一化函数,用于限制模型更新的常数。这个方法简单而高效,只需要更改几行代码。最终,该方法实现了提高Transformer模型的稳定性,并将模型深度扩展到1000多层。   此外,实验结果表明,DEEPNORM可以有效地结合Post-LN的良好性能和Pre-LN的稳定训练。研究人员提出的方法是Transformers的第一选择的替代方案,不仅可以应用于非常深的(超过1000层)模型,也可以应用于现有的大规模模型。另外,在大规模多语种机器翻译标准中,32亿参数的200层模型(DeepNet)比120亿参数的48层SOTA模型(Facebook AI的M2M模型)提高了5%的BLEU值。   如图2所示,用PostLN实现基于Transformer的方法是简单的。与Post-LN相比,DEEPNORM在执行层归一化之前将残差连接到up-scale。      图2:(a)DEEPNORM的伪代码可以使用其他标准初始化来代替例如Xavier初始化(Glot and Bengio,2010)。α常数。(b)不同架构的DEEPNORM参数(N层编码器、M层解码器)。   此外,这项研究在初始化期间还初始化了down-Sale的参数。值得注意的是,这项研究仅扩展前馈网络的权重和注意力层的值投影和输出投影。此外,残差连接和初始化的规模取决于图2的不同架构。   这项研究分析了深度Transformer不稳定的原因。   首先,根据研究人员的观察,更好的初始化方法可以使Transformer的训练更加稳定。到目前为止的工作(Zhangetal,2019a;华为etal,2020;Xuetal,2021)也得到了确认。   因此,我们分析了适当初始化的Post-LN的训练过程的有无。通过更好的初始化,在执行Xavier初始化之后      第l层的重量。例如,第1层FFN的输出投影      初期化      其中d’是输入/输出维度的平均值。研究人员将这个模型命名为Post-Linit。与之前的工作(Zhangetal,2019a)不同,请注意Post-Linit缩小了较低级别的扩展,而不是较高级别。研究人员认为,这种方法有助于将梯度扩展的影响与模型更新区分开来。此外,Post-Linit具有与Post-LN相同的架构,以消除架构的影响。   这项研究在IWSLT-14 De-En机械翻译数据组上训练了18L-18L Post-LN和18L-18L Post-LN init。图3显示了这些梯度和验证损耗曲线。如图3C所示,Post-Linit收敛,但是Post-LN不收敛。尽管权重按比例减小,Post-Linit在最后一层具有更大的梯度范数。此外,研究人员还显示了从6L-6L到24L-24L的模型深度的最后解码器层的梯度范数。   下一图3示出了与模型的深度无关的最后一层Post-Linit的梯度图案远大于Post-LN的梯度图案。我们得出的结论是,深层梯度爆炸不应该是Post-LN不稳定的根本原因,而模型更新的扩展通常可以解释这一点。      此后,研究人员证实,Post-LN的不稳定性是由一系列问题引起的,包括梯度的消失和大模型更新。如图4A所示,首先可视化模型更新的范数。ΔF‖训练的初期阶段:      在这里和xθ_i分别表示输入和第i次更新后的模型参数。Post-LN从训练开始就有爆炸性的更新,几乎没有马上更新。这表明这个模型陷入了虚假的局部优化。   warm-up和更好的初始化有助于缓解这个问题,顺利更新模型。当更新爆炸时,LN的输入变大(参照图4(b)以及图4(c))。根据Xiong等(2020)的理论分析,LN的梯度大小与输入的大小成反比。      与没有warm-up或没有正确初始化的情况相比,图4(b)和图4(c)示出了|x||显著大。      。这描述了Post-LN训练中的梯度消失问题(参见图4(d))。   最重要的是,不稳定性从训练开始时的大型模型更新开始。它使模型陷入恶劣的局部最佳状态,反而增加了每LN的输入量。随着训练的持续,通过LN的梯度越来越小,从而导致严重的梯度消失,难以从局部优化中摆脱,并且进一步破坏了优化的稳定性。相反,Post-Linit的更新相对较小,向LN的输入相对稳定。这减轻了梯度消失的问题,使优化更加稳定。   研究人员首先介绍了一个非常深的Transformer模型DeepNet,它可以通过缓解爆炸模型更新问题来稳定优化过程。   DeepNet基于Transformer架构。与原版Transformer相比,DeepNet在每个子层使用了新的方法DEEPNORM,而不是传统的Post-LN。DEEPNORM的官方如下。      在这里α常数Gl(x_l , θ_l)参数为θ_第l个Transformer子层(即注意力或前馈网络)的函数。DeepNet还将残差内部的权重θ_扩展β。   接下来,研究人员提供了DeepNet模型的更新预测尺寸的估计。   他们在IWSLT-14 De-En翻译数据组上,使Post-LN和DeepNet的初始训练阶段的模型更新情况如图5所示那样可视化。与Post-LN相比,DeepNet的模型更新保持大致恒定。      最后,研究人员提供了理论分析,表明DeepNet的更新受DEEPNORM常数的限制。具体而言,DeepNet的预测模型更新显示了适当的参数。α 以及β的常数。研究人员的分析是基于SGD更新的,并证明了Adam optimina的良好效果。   研究人员提供了编码器-解码器架构的分析,编码器-解码器架构可以自然地扩展到仅编码器和解码器的模型。具体来说,如下图所示,将模型更新的目标设定为:。      仅编码器(例如BERT)和仅解码器(例如GPT)架构的导出可以以相同的方式进行。研究人员总结了以下程序。      这项研究验证了DeepNet在大众机器翻译标准中的有效性,包括IWSLT-14德语(De-En)数据集和WMT-17英语-德语(En-De)数据集。这项研究比较了多个SOTA深度Transformer模型,包括DLLCL,正规Former,ReZero,R-Fexup,T-Fixup,DS-iit和Admin。   表1报告了WMT-17En-de翻译数据组上的基线和DeepNet的结果。      图6是示出IWSLT-14数据集的结果的图      图7报告WMT-17验证集的损耗曲线      在这项研究中,我们首先使用OPPUS-100语料库来评估模型。OPUS 100是以英语为中心的多语言语料库,覆盖100种语言并从OPUS集合随机提取。这项研究将DeepNet扩展到1000层,该模型有500层编码器500层解码器512个隐藏尺寸,8个注意力头,2048维前馈层。   表2总结了DeepNet和基线的结果。结果表明,网络深度的增加显着提高了NMT的翻译质量:48层模型比12层模型平均提高了3.2点。DeepNet成功将4.4 BLEU的深度扩展到1000层。DeepNet只训练4个epoch,应该注意到如果计算预算增加的话,性能就能进一步提高。      深度扩展定律:本研究在OPUS 100数据集上训练了具有{12,2010,010001000}层的DeepNet,图8显示深度扩展曲线。与双语NMT相比,多语NMT从扩展模型的深度获得更多的益处。观察到多语言NMT的BLEU值在对数上增加,法则可以写作L(d)=A log(d)+B,其中d是深度,A,B是其他超参数的常数。      更多数据和语言描述:本研究随后使用Schwenk等人提出的CCMatrix扩展训练数据来搜索多国NMT中DeepNet的极限。此外,本研究还扩展了CCAligned、OPUS和Tatoeba的数据,以覆盖Flowers 101评估集的所有语言。最终数据由102个语言、1932个方向、12B对组成。利用这些数据,本研究使用100层编码器、100层解码器、1024个隐藏维度、16个头部、4096个前馈层中间维度来训练DeepNet。   在这项研究中,DeepNet与SOTA多语言NMT模型M2M-100进行了比较。M2M-100具有24层编码器、24层解码器和4096个隐藏大小,并且生成到12B的参数。与M2M-100相比,DeepNet深窄,参数仅为3.2B。   在M2M-100之后,本研究在包括WMT、OPS、TED、Flowes的若干多语种翻译评估数据集合上评估模型。WMT的语言对以英语为中心。包括英语在内的10种语言中,大部分是高资源语言。对于OPUS数据集,这项研究从包括30个评估对的测试集中选择了非英语方向。TED评估组有28种语言和756种方向,数据来自口语区域。Flares数据集包含102种语言的全部翻译对。这项研究使用覆盖M2M-100和DeepNet支持的语言的子集来生成87种语言和7482种翻译方向。   表3报告与基线相同的评估方法的结果,以进行公平比较。结果表明,DeepNet的所有评估数据集的性能明显优于M2M-100,表明深化模型是提高NMT模型质量的非常有前途的方向。      有兴趣的读者可以阅读论文的原文,了解更详细的内容。

机器之心全集高清完整版视频免费在线观看,求百度网盘资源??

机器之心全集高清完整版视频免费在线观看: ?pwd=qr8i 提取码: qr8i 9345d688d43f8794a7acc6bcc01b0ef41ad53ad4

机器之心评论

..
**挥笔李21** 2018-05-22

..
SleepyPinoDD 2019-01-05

..
rESTARSD外星** 2021-11-03

加载中...

Copyright © 2008-2022