安裝中文字典英文字典辭典工具!
安裝中文字典英文字典辭典工具!
|
- 神经正切核(ntk)的进展如何,好像热度不高了? - 知乎
目前很多Transformer架构的大语言模型使用了RoPE这种位置编码,而如何将大语言模型的上下文扩展到更长以充分利用大语言模型的上下文学习能力依然是一个开放问题。在上下文扩展算法中,有很多在理论推导中使用了NTK理论,如NTK aware scaled RoPE[1,2],YaRN[3]。
- 深度学习理论之Neural Tangent Kernel第一讲:介绍和文献总结 - 知乎
一篇文章研究了NTK在全连接ReLU网络上,NTK的有限宽度和有限深度修正。文章证明,只有网络深度固定的时候,网络宽度趋于无穷的时候NTK会趋于一个确定的核。而当网络深度和宽度同时趋于无限的时候,NTK在训练过程中有一个非平凡(non-trivial)的演变 。
- 深度学习理论研究之路 - 知乎
继Neural Tangent Kernel (NTK)之后,深度学习理论出现了一个理论分支,人们常常称它为feature learning (theory)。不同于NTK,feature learning认为神经网络在梯度下降过程中可以学习到数据中的feature或者signal。 Feature learning理论…
- 罗德ntk以及k2和akg214那个好? - 知乎
罗德ntk这两款我都用过,现在也还一直用着一款,给我的感觉比较适合男生,一千多价位下很不错。 不差这个钱,就214。 发布于 2021-09-29 19:28
- 再论大模型位置编码及其外推性(万字长文) - 知乎
NTK-Aware Scaled RoPE非线性内插,是对base进行修改(base变成 )。 NTK-Aware Scaled RoPE在 不微调的情况下,就能取得不错的外推效果 。 (训练2048长度的文本,就能在较低PPL情况下,外推8k左右的长文本)
- RoPE外推优化——支持192K上下文长度 - 知乎
dynamic ntk 是基于前面的 ntk 做了改进,ntk base 放大的系数是固定的,随着推理上下文的增长,我们可以通过动态放大 base,让 RoPE 不断适应新的上下文长度,如公式(3)所示,这就是 dynamic ntk。 可以看到随着推理上下文的增长, 逐渐变大,也就是 base 逐渐变大。
- 目前深度学习理论研究有哪些重要的成果、论文、热点和工具? - 知乎
8 网络动力学和NTK 无限宽网络在参数空间的梯度下降等价于函数空间的kernel的梯度 ,这个kernel就是Neural Tangent Kernel,且在训练过程中不随着时间变化。 在梯度下降的情况下,任何深度的无限宽神经网络都可以等价于梯度下降下的线性模型 。这个工作是上一个
- RoPE外推优化——支持192K上下文长度 - 知乎
2 2 dynamic ntk + logn + window attn——Qwen dynamic ntk 是基于前面的 ntk 做了改进,ntk base 放大的系数是固定的,随着推理上下文的增长,我们可以通过动态放大 base,让 RoPE 不断适应新的上下文长度,如公式(3)所示,这就是 dynamic ntk。
|
|
|