設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

微軟組建王牌團(tuán)隊(duì)專攻“小模型”:擺脫 OpenAI 依賴,為大模型降本增效

新智元 2024/1/24 12:57:24 責(zé)編:問(wèn)舟

根據(jù) Theinformation 消息人士曝料,微軟調(diào)集了各組中的精英,組建了一支新的 AI 團(tuán)隊(duì),專攻小模型,希望能夠擺脫對(duì)于 OpenAI 的依賴。

憑借與 OpenAI 的緊密合作,微軟不僅一躍成為了大廠中模型能力最強(qiáng)的公司,而且股價(jià)也成功趕上了蘋果,成為了世界上市值最高的公司之一。

但是,去年 11 月份 OpenAI 的鬧劇也讓微軟明白,如果把自己最重要的技術(shù)押寶在一家初創(chuàng)公司上,最后翻車的風(fēng)險(xiǎn)也是相當(dāng)大的。

畢竟在商業(yè)世界里,「我能用」和「是我的」是兩個(gè)完全不同的概念。

達(dá)沃斯世界經(jīng)濟(jì)論壇上,微軟?席執(zhí)?官 Nadella 稱,在?型??智能模型??,微軟正在以?種 「掌控??命運(yùn) 」的?式取得突破。

納德拉說(shuō)「我們?常重視擁有最好的前沿模型,?如今最前沿的模型恰好是 GPT-4。同時(shí)我們也擁有最好的小語(yǔ)言模型--Phi,從而擁有了最強(qiáng)的多樣化的模型能力?!?/p>

而最近有外媒曝出,微軟正在組建一支自己的 LLM 嫡系部隊(duì)躬身入局,希望從「小模型」發(fā)力,讓微軟的肉身真正坐上「大模型之戰(zhàn)」的主桌。

根據(jù)微軟內(nèi)部知情人士透露,微軟組建了一個(gè)名為「GenAI」的團(tuán)隊(duì),由公司副總裁 Misha Bilenko 領(lǐng)頭,直接向公司 CTO Scott 匯報(bào)。

Bilenko 曾經(jīng)是「俄羅斯百度」Yandex 的人工智能研究主管,過(guò)去兩年里他一直在領(lǐng)導(dǎo) Azure 團(tuán)隊(duì),在微軟內(nèi)部部署 OpenAI 的系統(tǒng)。

這個(gè)「GenAI」團(tuán)隊(duì)的大部分成員,都是這兩年一直在微軟配合 OpenAI 團(tuán)隊(duì)落地的 Azure 工程師。

除了這些有工程經(jīng)驗(yàn)的人員,微軟還調(diào)配了最頂級(jí)的 AI 研究人員加入這個(gè)團(tuán)隊(duì),包括 Sébastien Bubeck 帶領(lǐng)的微軟研究院的研究人員。

他們開發(fā)的 Phi 這種輕體量的模型,體積?到可以在移動(dòng)設(shè)備上運(yùn)?,但在某些任務(wù)上能夠逼近 GPT-4 的性能。

Phi 團(tuán)隊(duì)去年使? GPT-4 ?成了數(shù)百萬(wàn)條?質(zhì)量的?本,并在這些數(shù)據(jù)上對(duì) Phi 進(jìn)?了訓(xùn)練,使其能夠模仿體量更?的模型進(jìn)行輸出。

而除了微軟,谷歌,Stability AI 等公司,也都推出了自己的「小模型」,希望能獲得低成本和移動(dòng)設(shè)備上 AI 競(jìng)爭(zhēng)的先發(fā)優(yōu)勢(shì)。

高質(zhì)量數(shù)據(jù)是小模型的關(guān)鍵

微軟在一個(gè)月前推出的 Phi-2 小模型,以不到 3B 的參數(shù)量,在很多測(cè)試集上跑到了 Llama 2 70B 的分?jǐn)?shù),著實(shí)把業(yè)界嚇了一跳。

Phi-2 只有 2.7B 的參數(shù),在各種基準(zhǔn)上,性能超過(guò)了 Mistral 7B 和 Llama-2 13B 的模型性能。

而且,與 25 倍體量的 Llama-2-70B 模型相比,它在多步推理任務(wù)(即編碼和數(shù)學(xué))上的性能還要更好。

此外,Phi-2 與谷歌最近發(fā)布的 Gemini Nano 2 相比,性能也更好,盡管它的體量還稍小一些。

微軟稱他們使用 1.4T 個(gè) token 進(jìn)行訓(xùn)練(包括用于 NLP 和編碼的合成數(shù)據(jù)集和 Web 數(shù)據(jù)集)。

而且訓(xùn)練 Phi-2 只使用了 96 塊 A100 GPU,耗時(shí) 14 天就完成了。

相比之下,Meta 在去年中推出的 Llama 2 70B,網(wǎng)友推算花了 170 萬(wàn) GPU / 小時(shí)來(lái)訓(xùn)練。

如果按 96 塊 A100 來(lái)算,需要 746 天。

而且 Phi-2 是一個(gè)完全沒有經(jīng)過(guò)微調(diào)和 RLHF 的基礎(chǔ)模型,與經(jīng)過(guò)對(duì)齊的現(xiàn)有開源模型相比,Phi-2 在毒性(toxicity)和偏見(bias)方面有更好的表現(xiàn)?!?這得益于采用了量身定制的數(shù)據(jù)整理技術(shù)。

上圖展示了根據(jù) ToxiGen 中的 13 個(gè)人口統(tǒng)計(jì)學(xué)數(shù)據(jù),計(jì)算出的安全性分?jǐn)?shù)。

可以說(shuō),之所以微軟要大力發(fā)展小模型,一個(gè)非常重要的原因是,他們找到了一條能夠在保證模型能力不受太大影響,但能有效降低模型參數(shù)的辦法。

大模型也要「降本增效」

微軟不但在訓(xùn)小模型上很有「天賦」,而且做這件事本身也非常有價(jià)值的。

眾所周知,在 GPU 一卡難求的今天,要訓(xùn)出能力超強(qiáng)的大模型,已經(jīng)完全不是一個(gè)和投入有關(guān)的問(wèn)題。

技術(shù)實(shí)力,算力限制等等都卡住了所有大廠的脖子。

而且即便獲得了能力最前沿的大模型,要把它和現(xiàn)有業(yè)務(wù)結(jié)合起來(lái),成功地賺到錢,也是一件很難的事情。

大模型居高不下的推理成本,讓大公司們現(xiàn)在推出的 AI 工具基本上都是在「虧本賺吆喝」。

業(yè)界有一個(gè)非常有意思的比喻,用 GPT-4 來(lái)總結(jié)郵件就相當(dāng)于開著蘭博基尼送外賣。

所以也就不奇怪為什么有媒體曾經(jīng)曝出,微軟的 GitHub Copilot 每個(gè)用戶平均每月要虧本 20 刀,因?yàn)榇竽P偷耐评沓杀緦?shí)在太高了。

在代碼生成和補(bǔ)全這種高頻次調(diào)用模型的場(chǎng)景下,廠商如果最終要靠服務(wù)賺錢,推理成本是必須要考慮的事情。

而模型越大,訓(xùn)練的成本也就越高,推理成本更是成十倍甚至百倍規(guī)模地上升。

如果生成式 AI 的浪潮最后要能轉(zhuǎn)化成真正提高生產(chǎn)力的技術(shù),讓推進(jìn)的廠商實(shí)實(shí)在在賺到錢是非常重要的。

所以,在盡量保證模型能力不變的前提下,盡可能地減少模型的規(guī)模,是在經(jīng)濟(jì)上找到出路的幾乎唯一的方式。

而在這個(gè)方向上,微軟已經(jīng)走在了行業(yè)的最前端。

而且除了出于成本之外的考慮,數(shù)據(jù)隱私,在移動(dòng)端部署等需求,也需要各大廠必須要有自己的「小模型」,才能滿足各種產(chǎn)品和服務(wù)的 AI 化需求。

參考資料:

  • https://www.theinformation.com/articles/microsoft-forms-team-to-make-cheaper-generative-ai?rc=epv9gi

廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:微軟,人工智能,OpenAI,ChatGPT超計(jì)算機(jī)

軟媒旗下網(wǎng)站: IT之家 最會(huì)買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會(huì)買 要知