IT之家 10 月 27 日消息,繼今年 9 月開源 Llama 3.2 的 1B 與 3B 模型之后,Meta 于 10 月 24 日發(fā)布了這兩個模型的量化版本,量化后的模型大小平均減少了 56%,RAM 使用量平均減少了 41%,模型速度提高了 2 至 4 倍,同時降低了功耗,使這些模型能夠部署到更多移動設備上。
IT之家注:模型量化(Model Quantization)就是通過各種訓練方式將浮點模型轉為定點模型,可以壓縮模型參數(shù),降低模型的復雜性,以便于在更輕量的平臺運行。
Meta 表示,他們采用了量化感知訓練(Quantization-Aware Training,QAT)和后訓練量化(SpinQuant)兩種方法對模型進行量化,其中“量化感知訓練”更重視模型的準確性,而“后訓練量化”更強調(diào)模型的可移植性。
據(jù)介紹,研究人員一共為 Llama 3.2 的 1B 和 3B 模型各推出了兩款量化版本,分別為 Llama 3.2 1B QLoRA、Llama 3.2 1B SpinQuant、Llama 3.2 3B QLoRA 和 Llama 3.2 3B SpinQuant。
Meta 聲稱,這些量化模型比非量化的 Llama BF16 模型速度更快,占用更少的 RAM,并且功耗更低,同時保持與 Llama BF16 版本幾乎相同的精度。
盡管量化后的 Llama 3.2 1B 和 3B 模型僅支持 8000 個 Token 的上下文(原版模型支持 12.8 萬個 Token),但 Meta 的測試發(fā)現(xiàn),無論是 Llama QLoRA 還是 Llama SpinQuant 等量化版本的基準測試結果實際上與原來的 Llama BF16 版本相差不遠。
目前,Meta 已在一加 12、三星 S24+/S22 及蘋果 iOS 設備(未公布具體型號)等移動平臺測試這些經(jīng)過量化后模型,測試“運行結果良好”,研究人員未來還計劃通過神經(jīng)處理單元(NPU)提升這些量化模型的性能。
廣告聲明:文內(nèi)含有的對外跳轉鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結果僅供參考,IT之家所有文章均包含本聲明。