学习AI的友友们大多都见过这些词: 总参数、激活参数、Prefill、Decode、FLOPs……,但这些概念容易出现混淆🤔 ⭐️本篇是关于 LLM 推理成本的三组关键概念(总参数&激活参数、Prefill&Decode、FLOPs ) 的深入辨析,后续打算出 KV Cache、MQA/GQA/MLA 演化、Flash-Decoding等LLM推理速率的底层优化机制的整理。 搞清楚了这些概念, "大模型推理的速率有什么决定"、"DeepSeek-V4 怎么把 FLOPs 砍 90%" 这类问题就能明了很多。 ━━━ 三个核心概念辨析 ━━━ ① 总参数 vs 激活参数(Dense vs MoE) Dense:每个 token 用上全部参数 MoE:每个 token 只激活部分专家 —— N 个专家的权重都得驻留 HBM,激活参数只决定每 token 算力 ② Prefill vs Decode(推理双阶段) Prefill: 并行处理整段输入 → 生成首个 token。计算密集(Compute-Bound), 瓶颈在算力, 决定 TTFT(首 token 延迟) Decode:自回归逐 token 生成。访存密集(Memory-Bound), 瓶颈在 HBM 带宽, 决定 TPS(吐字速度) ③ FLOPs / Single-token Inference FLOPs 总推理 FLOPs ≈ Prefill FLOPs + 输出 token 数 × Single-token FLOPs Single-token FLOPs 由 attention + FFN/MoE 决定,长上下文下 attention 是主导项 📊 DeepSeek-V4-Pro 在 1M 上下文下 single-token FLOPs 仅为 V3.2 的 27%,V4-Flash 进一步压到 10% —— 用 稀疏注意力(DSA)+ 压缩注意力(CSA/HCA)+ MoE 稀疏激活 + FP4 联合实现 #大模型 #LLM #moe #ai #算法原理 #推理优化