英文字典中文字典Word104.com



中文字典辭典   英文字典 a   b   c   d   e   f   g   h   i   j   k   l   m   n   o   p   q   r   s   t   u   v   w   x   y   z   


安裝中文字典英文字典辭典工具!

安裝中文字典英文字典辭典工具!








  • 稀疏(sparse)在机器学习中很重要吗?为什么? - 知乎
    深度学习论文中经常看到"sparse",所以应该是重要的概念,但一直不理解很困惑; 刚才在quora上的回答感觉很有帮助,尝试总结以下: sparse 代表数据为0,sparse数据的存在让不为0的dense数据聚集在一起; 因为存在数据聚集效应,所以才能学到特征和规律; 如果数据维度很高,噪音很多,原本为0的
  • 通俗理解,Sparse Attention是什么原理? - 知乎
    通俗解释 Sparse Attention 的原理: 想象你在读一本长篇小说,如果每一页都要仔细读完全文才能理解剧情,效率会非常低。实际上,你会 快速跳过无关段落,只聚焦关键章节和人物对话,这就是 Sparse Attention(稀疏注意力) 的核心思想——让AI模型像人类一样“选择性关注重点,忽略次要信息
  • Sparse Transformer - 知乎
    Sparse Transformer 减轻计算量的方式通过让连接模式作用到 上,从而减轻 的复杂度。 如式 (3)。 对于第 个时间片的输入,首先使用 Key 和 Value 的权值矩阵乘以输入特征,得到 和 。 然后再将连接模式 作用到 和 上,得到稀疏的特征 和 。
  • 如何看待Native Sparse Attention? - 知乎
    准确率上,sparse 的模型比 full 还要搞一些。 这个我猜一点原因:(1)模型还不算大,NSA 和 full 还没遇到“瓶颈”,所以 full attention 还没摸到其上限,不能和 NSA 拉开差距;(2)sparse attention 本质上可以看做是对训练的一种正则,所以也许会有更好的泛化能力。
  • 强化学习奖励函数设计有没有什么经验之谈? - 知乎
    主要是把任务拆分成一些基础的逻辑模块,每一部都需要有一个dense reward来引导,当然这种适用于random policy的,如果你有一个很好的pretrain policy,可以拿到一定成功率的话,可以直接搞阶段性稀疏奖励,这种也不错,但对于random policy不太ok。 当然也可以试试LLM生成奖励,现在效果也相当不错,甚至
  • DeepSeek-V3. 2-Exp版本更新,有哪些信息值得关注? - 知乎
    DeepSeek V3 2,可以说是算法同学最想要、最符合直觉的top 2048 token的sparse attention了,然而,经历过这场适配才能知道,背后有多少infra的坑要踩。
  • DeepSeek-V3. 2-Exp 和 Qwen3-Next 哪个才是未来? - 知乎
    对于(1)来说,dynamic sparse attention就是一个比较promising来解的方向,代表工作包括不限于Native Sparse Attention(NSA),MOBA,以及DeepSeek-V3 2-Exp里面的Deepseek Sparse Attention (DSA)。
  • 如何理解稀疏主成分分析 (Sparse Principal Component Analysis)?
    稀疏主成分分析简介 变量经过PCA后得到的主成分通常在多个原始变量上都不为 0 ,这导致进行PCA后的主成分的含义较为模糊,给数据分析带来了一定难度,因此Zou等(2006)提出的一种新的主成分分析方法,稀疏主成分分析(Sparse Principal Component Analysis [1],SPCA)。


















中文字典-英文字典  2005-2009

|中文姓名英譯,姓名翻譯 |简体中文英文字典