DeepSeek 再放降本大招：NSA 官宣發(fā)布，加速推理降低成本，并且不犧牲性能

2025/2/18 16:50:36 來(lái)源：IT之家作者：汪淼責(zé)編：汪淼

評(píng)論：

感謝IT之家網(wǎng)友軟媒新友1933769 的線索投遞！

IT之家 2 月 18 日消息，DeepSeek 今日官宣推出 NSA（Native Sparse Attention），這是一種硬件對(duì)齊且原生可訓(xùn)練的稀疏注意力機(jī)制，用于超快速長(zhǎng)上下文訓(xùn)練與推理。

NSA 的核心組件包括：

動(dòng)態(tài)分層稀疏策略
粗粒度 token 壓縮
細(xì)粒度 token 選擇

DeepSeek 官方表示，該機(jī)制可優(yōu)化現(xiàn)代硬件設(shè)計(jì)，加速推理同時(shí)降低預(yù)訓(xùn)練成本，并且不犧牲性能。在通用基準(zhǔn)、長(zhǎng)上下文任務(wù)和基于指令的推理上，其表現(xiàn)與全注意力模型相當(dāng)或更加優(yōu)秀。

DeepSeek 再放降本大招：NSA 官宣發(fā)布，加速推理降低成本，并且不犧牲性能

IT之家附論文鏈接：

https://arxiv.org/abs/2502.11089

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

DeepSeek 再放降本大招：NSA 官宣發(fā)布，加速推理降低成本，并且不犧牲性能

相關(guān)文章

DeepSeek 再放降本大招：NSA 官宣發(fā)布，加速推理降低成本，并且不犧牲性能