IT之家 11 月 8 日消息,Meta 于上周發(fā)布新聞稿,宣布正式開源可在智能手機上運行的小語言模型 MobileLLM 家族,并同時為系列模型新增 600M、1B 和 1.5B 三種不同參數(shù)版本,IT之家附項目 GitHub 項目頁如下(點此訪問)。
Meta 研究人員表示,MobileLLM 模型家族專為智能手機打造,該模型號稱采用了精簡架構,并引入了“SwiGLU 激活函數(shù)”、“分組查詢注意力(grouped-query attention)”機制,能夠在兼顧效率與表現(xiàn)成果。
此外,MobileLLM 模型據(jù)稱訓練速度較快,Meta 研究人員聲稱他們在 32 顆 Nvidia A100 80G GPU 的服務器環(huán)境下,以 1 萬億詞(tokens)訓練不同參數(shù)量的 MobileLLM 模型時,1.5B 版本只需 18 天,而 125M 版本僅需 3 天。
而從結果來看,MobileLLM 125M 和 350M 兩款模型在零樣本常識理解任務中的準確率比 Cerebras、OPT、BLOOM 等 State of the Art(SOTA)模型分別高出 2.7% 和 4.3%。
Meta 研究人員同時將 MobileLLM-1.5B 與業(yè)界其他參數(shù)量更大的模型進行比較,在結果測試方面據(jù)稱領先 GPT-neo-2.7B、OPT-2.7B、BLOOM-3B、Qwen 1.5-1.8B 等模型。
廣告聲明:文內含有的對外跳轉鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結果僅供參考,IT之家所有文章均包含本聲明。