如何评价Anthropic最新发布的Claude Opus 4. 7? - 知乎 opus 4 7在长上下文benchmark MRCR v2的1M tokens上,只有上一代opus 4 6的一半还不到: Boris Cherny的解释如下: 我们出于科学诚实(scientific honesty),把 MRCR 还写在系统卡里,但老实说,我们已经在逐步放弃用它来衡量模型的长上下文能力了,具体来说,有两个原因: 1
Qwen3. 6-Plus 大家实际体感怎样,有达到 Opus 级别么? - 知乎 如果说千问到时候出个Max,参数量达到万亿级以上,有可能和GLM5、Kimi系列能够打一打。 但是到那个时候的话,Claude肯定已经出5或者是比Opus更强一档的模型,我估计在五月份就会出。 现在国产编程模型和Claude差距大概是半年左右。
Anthropic 推出 Claude Opus 4. 1 模型,实际体验如何?相比前代模型有哪些提升? - 知乎 Claude Opus 4 原本就是之前的编程最强模型,甚至没有之一,Gemini 2 5 Pro也比不了。 Anthropic又发布了Claude Opus 4 1,编程能力全方位再次升级,这是不给其他AI厂商留活路啊,卷! 1、性能测试 Opus 4 1 将我们最先进的编码性能在SWE-bench Verified上提升至 74 5% 。