Deepseek能力太夸张了吧…..

作者：Deepseek能力太夸张了吧…..

简单看了下V4的 Bench 有七点比较值得看⬇️ 1️⃣V4-Pro的综合能力已经稳进顶级闭源模型区间。 V4-Pro在很多关键项上都和Opus 4.6、GPT、Gemini贴得很近 V4-Pro在英文知识、硬推理、通用学术任务上都能站住。 2️⃣数学和竞赛能力很强 V4的Codeforces Rating高于GPT和Gemini 在IMOAnswerBench上 V4-Pro比Opus 4.6和Gemini高不少只略低于GPT 数学/竞赛推理已经非常能打。 3️⃣代码能力是最大卖点之一 LiveCodeBench上 V4-Pro高于Opus 4.6和Gemini SWE Verified上V4-Pro和Opus 4.6、Gemini 几乎打平 SWE Multilingual上 V4-Pro接近Opus 4.6和K2.6 这说明它在软件工程修 bug、真实仓库任务多语言工程上也能进第一梯队 4️⃣Agent 能力整体很稳 BrowseComp上V4-Pro 接近Opus略低于Gemini MCPAtlas Public上V4-Pro 基本追平Opus低于GPT和Gemini 但在Terminal Bench 2.0 上V4-Pro低于GPT 说明复杂终端操作/环境执行能力还有差距 5️⃣长上下文表现不错 V4 的1M长上下文可用性明显强于 Gemini 但Opus 4.6仍然领先最关键的是V4-Flash 便宜/快模型没有被阉得太狠 V4-Flash在不少项目上和Pro差距不大这说明Flash保留了大部分核心能力对于产品落地来说这比旗舰模型某个榜第一更有价值 7️⃣效率图是最值得单独拎出来讲的。 V3.2在单token计算量和KV cache占用上下降非常明显尤其到1M token级别时 V3.2的计算量和KV缓存增长都非常夸张而V4的曲线低很多 V4不只是跑分升级更像是架构效率升级更低推理计算、更低KV缓存更适合长上下文和高并发部署 Pro负责冲上限 Flash负责规模化落地真正危险的是后者因为便宜好用的模型才会让Dario继续发癫🤪 #大模型 #互联网 #AI #ai #人工智能 #机器学习 #科技 #deepseek

文章详情

Deepseek能力太夸张了吧…..

推荐阅读