IT之家 4 月 19 日消息,谷歌公司昨日(4 月 18 日)發(fā)布博文,發(fā)布了量化感知訓(xùn)練(QAT)優(yōu)化版 Gemma 3 模型,在保持高質(zhì)量的同時,降低內(nèi)存需求。
谷歌上月推出 Gemma 3 開源模型,能在單臺 NVIDIA H100 GPU 上以 BFloat16(BF16)精度高效運行。
IT之家援引博文介紹,谷歌為響應(yīng)用戶需求,致力于讓 Gemma 3 的強大性能適配普通硬件。量化技術(shù)是關(guān)鍵,通過降低模型參數(shù)的數(shù)值精度(如從 BF16 的 16 位降至 int4 的 4 位),類似圖像壓縮減少顏色數(shù)量,大幅減少數(shù)據(jù)存儲量。
以 int4 量化為例,Gemma 3 27B 顯存需求從 54GB 銳減至 14.1GB,Gemma 3 12B 則從 24GB 降至 6.6GB;Gemma 3 1B 僅需 0.5GB 顯存。
這意味著用戶可在桌面(NVIDIA RTX 3090)或筆記本(NVIDIA RTX 4060 Laptop GPU)上運行強大 AI 模型,甚至手機也能支持小型模型。
為避免量化導(dǎo)致性能下降,谷歌采用量化感知訓(xùn)練(QAT)技術(shù),在訓(xùn)練過程中模擬低精度運算,確保模型在壓縮后仍保持高準(zhǔn)確性。Gemma 3 QAT 模型在約 5000 步訓(xùn)練中,將困惑度下降減少了 54%。
Ollama、LM Studio 和 llama.cpp 等主流平臺已集成該模型,用戶可通過 Hugging Face 和 Kaggle 獲取官方 int4 和 Q4_0 模型,輕松在 Apple Silicon 或 CPU 上運行。此外,Gemmaverse 社區(qū)提供了更多量化選項,滿足不同需求。
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。