🧠 核心参数 * 总参数:1.6T * 激活参数:49B * 层数:61层 * 隐藏维度:7168 * 上下文长度:1M tokens 👉 关键结构: 每个 token 激活 6 个专家(MoE) ⚙️ MoE 2.0 * 路由专家数:384 * 每层: * 1个共享专家(所有token必过) * 6个路由专家激活 关键机制: * 前3层:Hash路由 * 路由预判(使用历史参数) * 激活函数:Sqrt(Softplus) 负载均衡: * Auxiliary-loss-free * 偏置更新速度:0.001 * 均衡损失权重:0.0001 🔥 Attention(长上下文实现) CSA(压缩稀疏注意力) * 压缩比:4x * Top-k:1024 * QK精度:FP4 HCA(重压缩注意力) * 压缩比:128x * 全局访问 其他 * 滑动窗口:128 token * KV Cache:压缩至约 2% * 精度:RoPE BF16,其他 FP8 🧩 mHC 超连接 公式: X_{l+1} = B_l X_l + C_l F_l(A_l X_l) 关键约束: * B_l ∈ 双随机矩阵空间 * ‖B_l‖ ≤ 1(稳定性约束) 参数: * 扩展因子:4 * Sinkhorn迭代:20次 开销: * 额外时间:约 6.7% 🚀 训练配置 * 训练数据:33T tokens * Batch size:94.4M tokens * 序列长度: 4K → 16K → 64K → 1M 优化器: * Muon(主参数) * AdamW(Embedding等) 学习率: * 峰值:2.0e-4 * 余弦衰减 🏗️ 训练工程 * DualPipe(流水线优化) * 专家并行(EP) * MegaMoE CUDA融合内核(1.5~1.7x加速) * FP4量化训练(QAT) 🤖 后训练 两阶段: 1️⃣ 专家模型训练 2️⃣ OPD(在线蒸馏) 强化学习: * GRPO * 生成式奖励模型(GRM) 推理模式: * Non-think * Think High * Think Max 📊 一句话总结:请亲自读paper。 #DeepSeek #大模型 #AI架构 #MoE #技术拆解 #AGI