AMD：已將 DeepSeek-V3 模型集成到 Instinct MI300X GPU 上，利用 SGLang 徹底改變 AI 開發(fā)

2025/1/25 17:30:39 來源：IT之家作者：問舟責(zé)編：問舟

評論：

感謝IT之家網(wǎng)友 HH_KK 的線索投遞！

IT之家 1 月 25 日消息，AMD 宣布，已將新的 DeepSeek-V3 模型集成到 Instinct MI300X GPU 上，該模型經(jīng)過 SGLang 強(qiáng)化，針對 Al 推理進(jìn)行了優(yōu)化。

IT之家查詢發(fā)現(xiàn)，AMD 早在去年 12 月 26 日就在 Github 上公布了支持 DeepSeek-V3 模型的 SGLang v0.4.1。

AMD：已將 DeepSeek-V3 模型集成到 Instinct MI300X GPU 上，利用 SGLang 徹底改變 AI 開發(fā)

AMD 表示， DeepSeek V3 是目前最強(qiáng)的開源 LLM，甚至超過了 GPT-4o。AMD 還透露，SGLang 和 DeepSeek 團(tuán)隊通力合作，使 DeepSeek V3 FP8 從首發(fā)當(dāng)天就能在英偉達(dá)和 AMD GPU 上運行。此外，AMD 還感謝了美團(tuán)搜索與推薦算法平臺團(tuán)隊以及 DataCrunch 提供 GPU 資源。

據(jù)介紹，DeepSeek-V3 模型是一個強(qiáng)大的混合專家 (MoE) 語言模型，總參數(shù)量為 671B，每個 token 激活 37B 參數(shù)。

為了實現(xiàn)高效推理和高經(jīng)濟(jì)效益的訓(xùn)練，DeepSeek-V3 采用了多頭潛在注意力 (MLA) 和 DeepSeekMoE 架構(gòu)。

此外，DeepSeek-V3 開創(chuàng)了一種無輔助損失的負(fù)載平衡策略，并設(shè)置了多標(biāo)記預(yù)測訓(xùn)練目標(biāo)以實現(xiàn)更強(qiáng)勁的性能。

DeepSeek-V3 使開發(fā)人員能夠使用高級模型，利用內(nèi)存能力同時處理文本和視覺數(shù)據(jù)，讓開發(fā)人員可以廣泛獲取先進(jìn)功能，并為其提供更多功能。

AMD Instinct GPU 加速器和 DeepSeek-V3

AMD 表示，ROCm 中廣泛的 FP8 支持可顯著改善運行 AI 模型的過程，尤其是在推理方面。它有助于解決諸如內(nèi)存瓶頸和與更多讀寫格式相關(guān)的高延遲問題等關(guān)鍵問題，使平臺能夠在相同的硬件限制下處理更大的模型或批處理，從而帶來更高效的訓(xùn)練和推理過程。

此外，F(xiàn)P8 降低精度計算可以減少數(shù)據(jù)傳輸和計算中的延遲。AMD ROCm 擴(kuò)展了其生態(tài)系統(tǒng)中對 FP8 的支持，從而能夠在各個方面（從框架到庫）改善性能和效率。

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

AMD：已將 DeepSeek-V3 模型集成到 Instinct MI300X GPU 上，利用 SGLang 徹底改變 AI 開發(fā)

AMD Instinct GPU 加速器和 DeepSeek-V3

相關(guān)文章