【導讀】Meta 面臨著一個棘手問題:盡管對 AI 研究斥巨資,但產品轉化進展緩慢,直到 ChatGPT 火了之后才開始注重。Meta 之前對生成式 AI 需要的 GPU 這種更貴的芯片部署不夠,而是靠 CPU。當發(fā)現(xiàn)不可行之后,Meta 轉而采購數十億美元的英偉達 GPU,但這時候已經被微軟和谷歌等巨頭甩開。目前,Meta 計劃開發(fā)一款新型芯片,能像 GPU 一樣訓練 AI 模型并執(zhí)行推理,計劃在 2025 年左右完成。此外,相關負責人還表示,Meta 在 AI 開發(fā)的工具和流程方面都明顯需要改進。
Meta 的內部郵件顯示,2022 年夏季末,Meta 首席執(zhí)行官馬克?扎克伯格(Mark Zuckerberg)曾召集他的主要助手,對 Meta 的計算能力進行了 5 個小時的分析討論,重點是 Meta 開展先進人工智能(AI)工作的能力。
根據內部郵件、公司公告,以及相關知情人士的透露,Meta 面臨著一個棘手的問題:盡管在 AI 研究方面進行了大規(guī)模投資,但關于如何在主營業(yè)務中引入對 AI 友好的軟硬件系統(tǒng),Meta 進展緩慢。在 Meta 越來越依賴 AI 去支撐進一步增長的情況下,這影響了該公司推動全面創(chuàng)新的節(jié)奏。
這封來自 Meta 新任基礎設施負責人桑托什?賈納爾漢(Santosh Janardhan)的郵件顯示:“在針對 AI 的開發(fā)方面,我們在工具、工作流和流程方面明顯落后,需要在這方面進行大筆投資?!边@封郵件于 9 月份發(fā)布在 Meta 的內網,近期首次被曝光。
郵件中還表示,支撐 AI 工作需要 Meta“從根本上改變硬件基礎設施設計、軟件系統(tǒng),以及提供穩(wěn)定平臺的方法”。
在一年多時間里,Meta 正在開展一個龐大的項目,補足其 AI 基礎設施的短板。盡管 Meta 公開承認在 AI 的硬件發(fā)展上有些落后,但這方面的細節(jié),包括算力壓力、管理層更迭和一個被放棄的 AI 芯片項目,此前從未被報道過。
對于這封郵件和相關的重組舉措,Meta 發(fā)言人喬恩?卡維爾(Jon Carvill)表示,“憑借在 AI 研究和工程開發(fā)方面深厚的專業(yè)知識,Meta 在構建和部署最先進的大規(guī)模基礎設施方面已經得到了證明”。
他表示:“隨著我們?yōu)閼煤拖M產品提供新的 AI 體驗,我們很有信心能繼續(xù)拓展基礎設施能力,以滿足短期和長期的需求。”
但對 Meta 放棄 AI 芯片項目的消息,他拒絕回應。
根據 Meta 披露的信息,此次重組導致該公司的資本支出每季度增加了約 40 億美元,幾乎比 2021 年翻一番,并導致 4 個地點數據中心的建設計劃分別暫?;蛉∠?。
Meta 還正面臨財務壓力。自去年 11 月以來,Meta 啟動了自千禧年代互聯(lián)網破滅之后未曾有過的大規(guī)模裁員。
另一方面,微軟支持的 OpenAI 于去年 11 月 30 日發(fā)布了 ChatGPT,這一 AI 聊天機器人迅速成為有史以來用戶數增長最快的消費級應用,并引發(fā)了科技巨頭之間的 AI 軍備競賽。大型科技公司紛紛推出自己的生成式 AI 產品。這種 AI 除了可以識別數據中的模式之外,還能根據輸入信息以類似人工的方式生成文字和視覺內容。
多名消息人士稱,生成式 AI 消耗了大量算力,導致 Meta 更加迫切地需要擴大計算基礎設施。
1、曾對燒錢的項目投入不夠
消息人士稱,問題的一大關鍵在于 Meta 很遲才開始在 AI 工作中引入 GPU 芯片。GPU 非常適合 AI 計算,可以并行執(zhí)行大量任務,大幅減少處理海量數據的耗時。當然,價格也更貴,市場份額的 80% 都在英偉達手里。
所以,Meta 很大程度上是靠 CPU 來承擔 AI 計算任務。CPU 是計算機行業(yè)的主力芯片,在過去幾十年中遍布全球的數據中心,但不太適合處理 AI 計算任務。
根據兩名消息人士的說法,Meta 還使用自主設計的訂制芯片來進行 AI 推理。然而到 2021 年,事實證明,采用 CPU 和訂制芯片在 AI 領域比 GPU 速度更慢、效率更低。此外,與 Meta 采用的芯片相比,GPU 在運行不同類型的 AI 模型時也更具靈活性。
Meta 拒絕對其 AI 芯片的性能置評。
消息人士表示,隨著扎克伯格推動 Meta 轉向元宇宙,算力壓力影響了 Meta 部署 AI 以應對競爭威脅的能力,例如社交媒體對手 TikTok 的崛起,以及蘋果主導的廣告隱私政策調整。
這些挫折也引起了 Meta 前董事會成員彼得?蒂爾(Peter Thiel)的注意。他于 2022 年初從 Meta 董事會辭職,但沒有做出任何解釋。
知情人士稱,在他辭職前的一次董事會會議上,蒂爾對 Meta 高管們表示,他們對 Meta 的核心社交媒體業(yè)務太自滿,而且對元宇宙太走火入魔。
2、轉而選擇 GPU,但已落后
一名消息人士稱,2022 年,在取消了訂制推理芯片的大規(guī)模部署計劃后,Meta 高管們轉而開始采購價值數十億美元的英偉達 GPU。到這時,Meta 已經明顯落后于谷歌等競爭對手。谷歌早在 2015 年就開始部署訂制版本的 GPU,即 TPU。
2022 年春季,Meta 高管還著手重組 Meta 的 AI 部門,任命了兩名新的工程負責人,包括 9 月份郵件的作者賈納爾漢。根據領英平臺上的資料以及知情人士的說法,在長達數月的動蕩期內,十幾名管理者從 Meta 離職。MetaAI 基礎設施的管理團隊幾乎被徹底更換。
接下來,Meta 開始重新規(guī)劃數據中心基礎設施,以適應即將部署的 GPU 芯片。相比于 CPU,GPU 的耗電量和發(fā)熱量都更大,并且需要通過專門設計的網絡連接大量芯片,形成集群。
根據賈納爾漢的郵件以及消息人士提供的信息,這些設施需要 24 到 32 倍的網絡容量,以及新的水冷系統(tǒng)來管理芯片集群的散熱,因此相關設施需要“完全重新設計”。
隨著工作的推進,Meta 制定了內部計劃,著手開發(fā)一種新的自主芯片。這種芯片可以像 GPU 一樣訓練 AI 模型并執(zhí)行推理,目前計劃在 2025 年左右完成。
Meta 發(fā)言人卡維爾表示,一些數據中心建設項目目前處于暫停狀態(tài)并將過渡到新設計,這些項目將于今年晚些時候重新啟動。他拒絕就 Meta 內部的芯片項目置評。
3、產品落地進展緩慢
在擴大 GPU 算力的過程中,Meta 目前幾乎沒有任何新的產品技術可以展示。相比較之下,微軟和谷歌等公司正在推動生成式 AI 產品的公開商用(必應聊天、Bard 等)。
今年 2 月,Meta 首席財務官 Susan Li 承認目前沒有將太多算力投入到生成式 AI。她表示,“我們所有的 AI 能力基本上都給了廣告、信息流和短視頻 Reels”。
根據消息人士的說法,直到去年 11 月 ChatGPT 推出后,Meta 才開始重視生成式 AI 產品。他們表示,F(xiàn)acebook 的 AI 實驗室 FAIR 雖然從 2021 年末就開始發(fā)布相關技術的原型,但并沒有把研究轉化為產品。
隨著投資者興趣的提升,情況正在改變。2 月,扎克伯格宣布成立一支頂級生成式 AI 團隊,將“大幅推動”公司在該領域的工作。
Meta 首席技術官 Andrew Bosworth 本月也表示,生成式 AI 是目前他和扎克伯格花時間最多的領域,預計將在今年發(fā)布一款相關產品。
兩名熟悉新團隊的人士表示,該團隊的工作處于早期階段,重點是構建基礎模型作為核心,未來可以針對不同產品需求進行調整。
Meta 發(fā)言人卡維爾表示,一年多來,Meta 的許多團隊都在開發(fā)生成式 AI 產品。他證實,在 ChatGPT 到來后的幾個月里,這方面工作已經提速。
廣告聲明:文內含有的對外跳轉鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結果僅供參考,IT之家所有文章均包含本聲明。