設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

27B 顯存需求 54 → 14.1GB:谷歌發(fā)布 Gemma 3 QAT AI 模型,RTX 3090 顯卡可運行

2025/4/19 9:52:27 來源:IT之家 作者:故淵 責(zé)編:故淵

IT之家 4 月 19 日消息,谷歌公司昨日(4 月 18 日)發(fā)布博文,發(fā)布了量化感知訓(xùn)練(QAT)優(yōu)化版 Gemma 3 模型,在保持高質(zhì)量的同時,降低內(nèi)存需求。

谷歌上月推出 Gemma 3 開源模型,能在單臺 NVIDIA H100 GPU 上以 BFloat16(BF16)精度高效運行。

IT之家援引博文介紹,谷歌為響應(yīng)用戶需求,致力于讓 Gemma 3 的強大性能適配普通硬件。量化技術(shù)是關(guān)鍵,通過降低模型參數(shù)的數(shù)值精度(如從 BF16 的 16 位降至 int4 的 4 位),類似圖像壓縮減少顏色數(shù)量,大幅減少數(shù)據(jù)存儲量。

以 int4 量化為例,Gemma 3 27B 顯存需求從 54GB 銳減至 14.1GB,Gemma 3 12B 則從 24GB 降至 6.6GB;Gemma 3 1B 僅需 0.5GB 顯存。

這意味著用戶可在桌面(NVIDIA RTX 3090)或筆記本(NVIDIA RTX 4060 Laptop GPU)上運行強大 AI 模型,甚至手機也能支持小型模型。

為避免量化導(dǎo)致性能下降,谷歌采用量化感知訓(xùn)練(QAT)技術(shù),在訓(xùn)練過程中模擬低精度運算,確保模型在壓縮后仍保持高準(zhǔn)確性。Gemma 3 QAT 模型在約 5000 步訓(xùn)練中,將困惑度下降減少了 54%。

Ollama、LM Studio 和 llama.cpp 等主流平臺已集成該模型,用戶可通過 Hugging Face 和 Kaggle 獲取官方 int4 和 Q4_0 模型,輕松在 Apple Silicon 或 CPU 上運行。此外,Gemmaverse 社區(qū)提供了更多量化選項,滿足不同需求。

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:Gemma,AI,谷歌

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機APP應(yīng)用 魔方 最會買 要知