文章详情

专注互联网科技,赋能企业数字化发展

dpsk 最新论文!创始人署名

作者:dpsk 最新论文!创始人署名

Dpsk 公布最新成果:NSA(Native Sparse Attention),这是比传统方法更快、更有效地处理超长文本的新方法。 以下来自 dpsk 介绍: 🚀NSA:一种硬件适配且原生可训练的稀疏注意力机制,用于超快速长上下文训练与推理! 👋NSA 的核心组件:动态分层稀疏策略、粗粒度词元压缩、细粒度词元选择 💡 通过针对现代硬件的优化设计,NSA 在提升推理速度的同时降低了预训练成本,且不影响性能。在通用基准测试、长上下文任务以及基于指令的推理方面,它的表现与全注意力模型相当,甚至更优。 值得一提的是 dpsk 创始人也是作者之一,今天中午马斯克才发 Grok 3,下午 dpsk 就更新了论文(怀疑他们俩在暗中较劲,但我没有证据) anyway,为大家梳理了论文框架,感兴趣的家人们也可阅读全文,获取更多信息 #deepseek #论文带读 #arxiv #马斯克 #ai #llm #长上下文

返回新闻列表