英文字典中文字典Word104.com



中文字典辭典   英文字典 a   b   c   d   e   f   g   h   i   j   k   l   m   n   o   p   q   r   s   t   u   v   w   x   y   z   


安裝中文字典英文字典辭典工具!

安裝中文字典英文字典辭典工具!








  • 神经正切核 (ntk)的进展如何,好像热度不高了? - 知乎
    但是在应用方面,我认为它的热度依然很高。目前很多Transformer架构的大语言模型使用了RoPE这种位置编码,而如何将大语言模型的上下文扩展到更长以充分利用大语言模型的上下文学习能力依然是一个开放问题。在上下文扩展算法中,有很多在理论推导中使用了NTK理论,如NTK aware scaled RoPE [1,2],YaRN
  • RoPE外推优化——支持192K上下文长度 - 知乎
    Baichuan2-Turbo-192k 今天,我们要介绍的就是其背后的技术, 通过 dynamic ntk 等方法提升大模型的长文本理解、外推能力。 在上一篇文章中,我们详细介绍了旋转位置编码 RoPE,以及提升外推性的方法(线性插值、NTK等)。本文主要介绍下目前主流大模型如何优化长文本理解。
  • 再论大模型位置编码及其外推性(万字长文) - 知乎
    图4-6 不同插值方法的效果(这里的scale是指位置插值中扩大的倍数k,alpha是指NTK中的lambda参数或者是公式(15)中的alpha参数) 从图中可以看出在 时,NTK可以在比较小的PPL情况下,外推8k左右的长文本。
  • 深度学习理论之Neural Tangent Kernel第一讲:介绍和文献总结 - 知乎
    基本介绍在神经网络中,neural tangent kernel (NTK) 是描述无限宽深度神经网络在梯度下降训练过程中演化的核。它最开始由Arthur Jacot, Franck Gabriel, 和Clément Hongler在2018年发表的一篇论文中引入 [1]。在…
  • 基于Transformer的LLM的context length是由什么决定的? - 知乎
    Dynamic NTK Scaling: 一种更复杂但效果显著的 RoPE 缩放变体。 不仅仅是线性缩放频率,而是对 RoPE 中的旋转角频率 θ 作分层或非线性放大 压缩。 源于神经正切核 (Neural Tangent Kernel, NTK) 理论,认为当网络层数趋于无穷大时,网络行为可以用一个核函数来描述。
  • 神经正切核 (ntk)的进展如何,好像热度不高了? - 知乎
    我对神经正切核的理论进展了解不多,只是看过维基的程度,理论上的进展确实可能热度没那么高了,毕竟像NTK这样的大突破不是天天有。 但是在应用方面,我认为它的热度依然很高。目前很多Transformer架构的大语言模型使用了RoPE这种位置编码,而如何将大语言模型的上下文扩展到更长以充分利用
  • 深度学习理论研究之路 - 知乎
    深度学习理论之Feature Learning 综述和介绍 继Neural Tangent Kernel (NTK)之后,深度学习理论出现了一个理论分支,人们常常称它为feature learning (theory)。 不同于NTK,feature learning认为神经网络在梯度下降过程中可以学习到数据中的feature或者signal。 Feature learning理论…
  • 300ntk-436女主是谁啊? - 知乎
    知乎,中文互联网高质量的问答社区和创作者聚集的原创内容平台,于 2011 年 1 月正式上线,以「让人们更好的分享知识、经验和见解,找到自己的解答」为品牌使命。知乎凭借认真、专业、友善的社区氛围、独特的产品机制以及结构化和易获得的优质内容,聚集了中文互联网科技、商业、影视


















中文字典-英文字典  2005-2009

|中文姓名英譯,姓名翻譯 |简体中文英文字典