晓天衡宇评测社区最新垂类榜单发布,10款顶流大模型集体参加2026年新高考I卷!数学、语文、英语三科全真原题,Pass@1实测,谁才是真正的“AI学霸”?速来围观👇 语文科目:Kimi Kimi-K2.6以139分强势拿下语文第一,Qwen3.7-Max排第七(133分)。 有意思的是,Qwen客观题全对,和Top3的差距全在主观题上——作文和问答题才是真正的“分水岭”! 数学科目:四大模型并列第一 GPT-5.5、Claude-Opus-4.8、Gemini-3.5-Flash、Qwen3.7-Max四个模型并列榜首,Pass@1统统拿下146分!2026年新高考数学一卷整体难度明显提升、反套路特点突出,除了最后一问压轴题,其他题全部满分通过。 英语科目:竞争最激烈的一科 所有模型分差极小,基本在141~148分之间。MiniMax-M3和Claude-Opus-4.8并列第一(148分) ,Qwen3.7-Max第五(145分)。英语果然是AI的“舒适区”? 🏆 三科总分TOP5 🥇 Claude Opus 4.8 — 429分 🥈 GPT-5.5 — 427分 🥉 Qwen3.7-Max — 424分 🏅 Kimi-K2.6 — 424分 🏅 MiniMax-M3 — 421分 💡 评测方法论: 本次评测采用2026年新高考I卷全量原题,零删改! 客观题精确匹配自动评分,主观题采用LLM-as-Judge+人工复核双重校验。 数学73分客观+77分主观,语文27分客观+123分主观,英语80分客观+40分主观,主客观分层评分确保结果真实可信。 参评的10款模型: Claude Opus 4.8、GPT-5.5、Qwen3.7-Max、Kimi-K2.6、MiniMax-M3、Gemini 3.5 flash、Doubao Seed 2.0 Pro、GLM-5.1、MiMo-V2.5 Pro、DeepSeek-V4 Pro。 三科满分450分(每科150分),Pass@1评测口径——每题只取第一次回答的得分,不做多次采样,贴近真实使用场景! 看完这份榜单,你觉得哪个模型的表现最让你意外?评论区聊聊👇 更多完整垂类榜单🔍【晓天衡宇评测社区】官网 #大模型评测 #2026新高考 #Kimi #claude #Qwen #晓天衡宇 #晓天衡宇评测社区 #大模型 #LLM