简单看了下V4的 Bench 有七点比较值得看⬇️ 1️⃣V4-Pro的综合能力已经稳进顶级闭源模型区间。 V4-Pro在很多关键项上 都和Opus 4.6、GPT、Gemini贴得很近 V4-Pro在英文知识、硬推理、通用学术任务上都能站住。 2️⃣数学和竞赛能力很强 V4的Codeforces Rating高于GPT和Gemini 在IMOAnswerBench上 V4-Pro比Opus 4.6和Gemini高不少 只略低于GPT 数学/竞赛推理已经非常能打。 3️⃣代码能力是最大卖点之一 LiveCodeBench上 V4-Pro高于Opus 4.6和Gemini SWE Verified上V4-Pro和Opus 4.6、Gemini 几乎打平 SWE Multilingual上 V4-Pro接近Opus 4.6和K2.6 这说明它在软件工程修 bug、真实仓库任务 多语言工程上也能进第一梯队 4️⃣Agent 能力整体很稳 BrowseComp上V4-Pro 接近Opus略低于Gemini MCPAtlas Public上V4-Pro 基本追平Opus低于GPT和Gemini 但在Terminal Bench 2.0 上V4-Pro低于GPT 说明复杂终端操作/环境执行能力还有差距 5️⃣长上下文表现不错 V4 的1M长上下文可用性明显强于 Gemini 但Opus 4.6仍然领先 最关键的是V4-Flash 便宜/快模型没有被阉得太狠 V4-Flash在不少项目上和Pro差距不大 这说明Flash保留了大部分核心能力 对于产品落地来说 这比旗舰模型某个榜第一更有价值 7️⃣效率图是最值得单独拎出来讲的。 V3.2在单token计算量和KV cache占用上下降非常明显 尤其到1M token级别时 V3.2的计算量和KV缓存增长都非常夸张 而V4的曲线低很多 V4不只是跑分升级 更像是架构效率升级 更低推理计算、更低KV缓存 更适合长上下文和高并发部署 Pro负责冲上限 Flash负责规模化落地 真正危险的是后者 因为便宜好用的模型才会让Dario继续发癫🤪 #大模型 #互联网 #AI #ai #人工智能 #机器学习 #科技 #deepseek