为什么 DeepSeek 这么便宜还能这么强？

作者：为什么 DeepSeek 这么便宜还能这么强？

你有没有想过——一家不到200人的中国创业公司，用两千块GPU训出了GPT-4级别的大模型，成本只要五百六十万美元。OpenAI训GPT-4花了一亿多。同样水平，成本二十分之一，还全部开源。硅谷炸了。然后美国禁了GPU。DeepSeek换国产昇腾芯片继续干。2026年6月，V4 Pro 1.6万亿参数在华为硬件上跑通。怎么做到的？四个字：稀疏、压缩、预测、硬磕。 🔑 稀疏：MoE混合专家 671亿参数分成若干专家，每次只激活37亿——不到6%。大量参数在但不费电。推理成本约等于70亿参数小模型。 🔑 压缩：MLA多头潜在注意力 KV缓存压缩到低维潜在空间，压缩比5到10倍。同样硬件处理更长上下文，推理效率高一个数量级。 🔑 预测：多Token同时预测不只预测下一个token，同时预测2到3个。梯度更密，训练效率翻倍。全部开源——伯克利博士生花30美元就复现了核心思路。 🔑 硬磕：极致工程优化 FP8训练省一半带宽显存。PTX汇编绕过CUDA榨出20%性能。自研文件系统。Engram条件记忆模块解耦计算和存储。Vision-Text压缩token消耗最多减20倍。 🔑 制裁逼出了新路 GPU断供后把整个训练栈搬到华为昇腾910C。1000块国产芯片完成V4 Pro 1.6万亿参数后训练。从省钱到换芯——四件事同时做到极致，只有DeepSeek。 #DeepSeek #AI #大模型 #MoE #国产芯片 #华为昇腾 #为什么系列 #观界

文章详情

为什么 DeepSeek 这么便宜还能这么强？

推荐阅读