昨天晚上,DeepSeek V3 毫无征兆地来了一波更新,升级到了「DeepSeek-V3-0324」版本。经过大家实测,新模型在数学、编程等能力上表现优秀,而且也是开源的。 以下是关于 DeepSeek V3-0324 的核心信息: ✨核心特点 ✅模型架构:采用混合专家(MoE)架构,总参数量达到685B(6850亿),每个token仅激活37B参数,实现高效推理。 ✨技术突破 ✅采用多头潜在注意力机制(MLA)和多token预测(MTP)技术。MLA增强了模型在长文本中保持上下文的能力,而MTP每步可以生成多个token,而不是通常的一次一个的方法。这些创新一起将输出速度提高了近80%。 ✨在线体验 ✅官方网页、App、小程序试用体验(关闭深度思考),API接口和使用方式保持不变。 ✨本地部署 ✅完整的模型权重可从 Hugging Face 获得,但 641GB 的大小使得直接下载只对那些拥有大量存储空间和计算资源的人实用。 ✅4位量化版本将存储占用减少至352GB,使其可以在高端消费级硬件上运行,如搭载M3 Ultra芯片的Mac Studio。传统AI基础设施通常依赖于多个消耗数千瓦电力的Nvidia GPU,而Mac Studio在推理过程中耗电不到200瓦。 ✅在4位量化下,使用512GB M3 Ultra配合mlx-lm能够达到每秒超过20个token的处理速度。 ✨云端调用 ✅在 api-docs.deepseek.com 上使用 model='deepseek-chat' ✨实测消息 ✅网友实测显示,DeepSeek V3-0324现在是最好的非推理模型,超过了 Sonnet 3.5 ✅与之前的 DeepSeek 模型相比,编码能力看起来更好,可以编写 800 行代码而不出错。编程能力几乎可以媲美Claude 3.7 Sonnet,但价格便宜50多倍。 ✨开源与社区 ✅开源协议:升级为MIT许可证,允许商业项目自由集成和修改,推动企业级应用发展。 ✅社区影响:被视为R2或V4大版本发布前的铺垫,业界预期每季度会有新版本发布,API定价优势吸引开发者,加速模型商品化趋势。 #Deepseek #AI #科技创新 #人工智能 #机器之心