您现在的位置是: > 快讯快讯
DeepSeek发布《原生稀疏注意力:硬件对齐且可原生训练的稀疏注意力机制》论文
zhoucl 2025-02-18 21:42:30 快讯 已有人查阅
导读 2月18日消息,DeepSeek团队近日发布了一篇题为《原生稀疏注意力:硬件对齐且可原生训练的稀疏注意力机制》的技术论文,介绍了他们提出的NSA(Natively Sparse Attention)机制。NSA结合了算法创新和硬件优化,旨在实现高效的长文本建模。其核心创新包括:
2月18日,DeepSeek团队发布论文《原生稀疏注意力:硬件对齐且可原生训练的稀疏注意力机制》,介绍NSA(Natively Sparse Attention)机制。NSA结合算法创新与硬件优化,旨在高效处理长文本建模。
- 动态分层稀疏策略:通过粗粒度令牌压缩和细粒度令牌选择,保留全局上下文信息和局部精度;
- 平衡算术强度设计:加速计算,充分利用现代硬件;
- 支持端到端训练:降低预训练成本,保持模型性能。
实验表明,NSA在长文本任务和指令推理中表现出色,尤其在64k长度序列处理中显著加速解码、前向传播和反向传播。
本文标签:
很赞哦! ()
相关文章
随机图文
DeepSeek发布《原生稀疏注意力:硬件对齐且可原生训练的稀疏注意力机制》论文
2月18日消息,DeepSeek团队近日发布了一篇题为《原生稀疏注意力:硬件对齐且可原生训练的Strategy上周未进行任何股票出售或比特币购买操作
2月18日消息,据Strategy(前身为MicroStrategy)发布的8-K报告,公司的股票交易计划下未出售JPMorgan报告:美国上市比特币矿工在全球算力中占29%
2月18日消息,据CoinDesk报道,JPMorgan发布的报告显示,美国上市的比特币矿工在2025年2月Gate.io Launchpool首发上线Rivalz(RIZ):质押代币即可轻松赚取2000万枚RIZ空投
2月18日消息,据官方公告,Gate.io将于2025年2月21日21:00 (UTC 8)上线 Rivalz(RIZ) 现货