設置
  • 日夜間
    隨系統
    淺色
    深色
  • 主題色

DeepSeek 再放降本大招:NSA 官宣發(fā)布,加速推理降低成本,并且不犧牲性能

2025/2/18 16:50:36 來源:IT之家 作者:汪淼 責編:汪淼
感謝IT之家網友 軟媒新友1933769 的線索投遞!

IT之家 2 月 18 日消息,DeepSeek 今日官宣推出 NSA(Native Sparse Attention),這是一種硬件對齊且原生可訓練的稀疏注意力機制,用于超快速長上下文訓練與推理。

NSA 的核心組件包括:

  • 動態(tài)分層稀疏策略

  • 粗粒度 token 壓縮

  • 細粒度 token 選擇

DeepSeek 官方表示,該機制可優(yōu)化現代硬件設計,加速推理同時降低預訓練成本,并且不犧牲性能。在通用基準、長上下文任務和基于指令的推理上,其表現與全注意力模型相當或更加優(yōu)秀。

IT之家附論文鏈接:

https://arxiv.org/abs/2502.11089

廣告聲明:文內含有的對外跳轉鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結果僅供參考,IT之家所有文章均包含本聲明。

相關文章

關鍵詞:DeepSeek

軟媒旗下網站: IT之家 最會買 - 返利返現優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機APP應用 魔方 最會買 要知