英文字典中文字典Word104.com

中文字典辭典英文字典 a b c d e f g h i j k l m n o p q r s t u v w x y z

安裝中文字典英文字典辭典工具!

安裝中文字典英文字典辭典工具!

深度学习的loss一般收敛到多少？ - 知乎
这个链接是回归问题的loss，本回答说一下分类问题的。交叉熵公式这里就不放了（手机打字不方便），可以看出，其实loss就是log(Pi)的平均值，Pi指的是预测ground truth的概率。所以，如果你希望预测概率超过0 5就好，那么loss就训练到log(0 5)。
大模型优化利器：RLHF之PPO、DPO - 知乎
最终，我们可以得出 DPO 的 loss 如下所示：这就是 DPO 的 loss。DPO 通过以上的公式转换把 RLHF 巧妙地转化为了 SFT，在训练的时候不再需要同时跑 4 个模型（Actor Model 、Reward Mode、Critic Model 和 Reference Model），而是只用跑 Actor 和 Reference 2 个模型。
请教一个问题，训练网络时loss为什么要写成running_loss += loss. item()？
因为一个epochs里也是按照很多个batchs进行训练。所以需要把一个epochs里的每次的batchs的loss加起来，等这一个epochs训练完后，会把累加的loss除以batchs的数量，得到这个epochs的损失。
损失函数｜交叉熵损失函数 - 知乎
Deng [4]在2019年提出了ArcFace Loss，并在论文里说了Softmax Loss的两个缺点：1、随着分类数目的增大，分类层的线性变化矩阵参数也随着增大；2、对于封闭集分类问题，学习到的特征是可分离的，但对于开放集人脸识别问题，所学特征却没有足够的区分性。
DeepSeek的GRPO算法是什么？ - 知乎
计算损失（Computing the loss） 1 生成补全（Generating completions）在每一个训练步骤中，我们从提示（prompts）中采样一个批次（batch），并为每个提示生成一组 G 个补全（completions）（记为 o_i ）。 2 计算优势值（Computing the advantage）
请问MSE loss 大小多少才表示模型优化效果好呢？0. 01大概是什么水平？ - 知乎
主要看评价指标是什么，评价指标是检验模型好坏的标准之一（对，就是之一如果你的评价指标就是mseloss，验证集的loss和训练集的loss相差不大（说明没有过拟合），而且你的loss是在可接受范围内（说明优化到位了），那模型效果完全可以接受。
训练网络时为什么会出现loss逐渐增大的情况？ - 知乎
综上，初期loss上升，不一定发散，是正常的。在不带momentum的情况下，一般不应该出现这种情况。解决方案:训练到loss稳定下降很缓慢时，降低学习率，或者试试不用momentum，或者多训练一段时间看看
哪里有标准的机器学习术语(翻译)对照表？ - 知乎
损失 (Loss) 一种衡量指标，用于衡量模型的预测偏离其标签的程度。或者更悲观地说是衡量模型有多差。要确定此值，模型必须定义损失函数。例如，线性回归模型通常将均方误差用作损失函数，而逻辑回归模型则使用对数损失函数。 L_1 损失函数 ( L_1 Loss)