近日訪談中,LeCun 親口證實:Meta 為購入英偉達 GPU 已經(jīng)花費了 300 億美元,成本超過阿波羅登月。
相比之下,微軟和 OpenAI 打造的星際之門耗資 1000 億美元,谷歌 DeepMind CEO Hassabis 則放出豪言:谷歌投入的,比這個數(shù)還多!大科技公司們燒起錢來是越來越不眨眼,畢竟,AGI 的前景實在是太誘人了。
就在剛剛,Meta AI 主管 Yann LeCun 證實:為了買英偉達 GPU,Meta 已經(jīng)花了 300 億美元,這個成本,已經(jīng)超過了阿波羅登月計劃!
300 億美元雖然驚人,但比起微軟和 OpenAI 計劃打造的 1000 億美元星際之門,這還是小 case 了。
谷歌 DeepMind CEO Hassabis 甚至放話稱:谷歌要砸進的數(shù),比這個還多。
這才哪到哪呢。
LeCun:Meta 買英偉達 GPU,的確超過阿波羅登月
為了發(fā)展 AI,Meta 是破釜沉舟了。
在這個訪談中,主持人問道:據(jù)說 Meta 購入了 50 萬塊英偉達 GPU,按照市價算的話,這個價格是 300 億美元。所以,整個成本比阿波羅登月項目話要高,對嗎?
對此,LeCun 表示承認:是的,的確如此。他補充道,「不僅是訓練,還包括部署的成本。我們面臨的最大問題,就是 GPU 的供給問題?!?/p>
有人提出質(zhì)疑,認為這應該不是真的。作為史上最大的推理組織,他們應該不是把所有的錢都花在了訓練上。
也有人戳破了這層泡沫,表示每個巨頭都在撒謊,以此營造「自己擁有更多 GPU」的假象 ——
雖然的確在英偉達硬件上投入大量資金,但其實只有一小部分用于實際訓練模型?!肝覀儞碛袛?shù)百萬個 GPU」的概念,就是聽起來好吹牛罷了。
當然,也有人提出質(zhì)疑:考慮通貨膨脹,阿波羅計劃的成本應該是接近 2000-2500 億美元才對。
的確,有人經(jīng)過測算,考慮阿波羅計劃 1969 年的原始價值、根據(jù)通貨膨脹進行調(diào)整的話,它的總成本應該在 2170 億或 2410 億美元。
而沃頓商學院教授 Ethan Mollick 表示,雖然遠不及阿波羅計劃,但以今天的美元計算,Meta 在 GPU 上的花費幾乎與曼哈頓計劃一樣多。
不過至少,網(wǎng)友們表示,很高興對巨頭的 AI 基礎設施有了一瞥:電能、土地、可容納 100 萬個 GPU 的機架。
開源 Llama 3 大獲成功
此外,在 Llama 3 上,Meta 也斬獲了亮眼的成績。在 Llama 3 的開發(fā)上,Meta 團隊主要有四個層面的考量:
模型架構(gòu)
架構(gòu)方面,團隊采用的是稠密自回歸 Transformer,并在模型中加入了分組查詢注意力(GQA)機制,以及一個新的分詞器。
訓練數(shù)據(jù)和計算資源
由于訓練過程使用了超過 15 萬億的 token,因此團隊自己搭建了兩個計算集群,分別具有 24000 塊 H100 GPU。
指令微調(diào)
實際上,模型的效果主要取決于后訓練階段,而這也是最耗費時間精力的地方。
為此,團隊擴大了人工標注 SFT 數(shù)據(jù)的規(guī)模(1000 萬),并且采用了諸如拒絕采樣、PPO、DPO 等技術(shù),來嘗試在可用性、人類特征以及預訓練中的大規(guī)模數(shù)據(jù)之間找到平衡。
如今,從最新出爐的代碼評測來看,Meta 團隊的這一系列探索可以說是大獲成功。
Symflower 首席技術(shù)官兼創(chuàng)始人 Markus Zimmermann 在對 GPT-3.5/4、Llama 3、Gemini 1.5 Pro、Command R + 等 130 多款 LLM 進行了全面評測之后表示:「大語言模型的王座屬于 Llama 3 70B!」
- 在覆蓋率上達到 100%,在代碼質(zhì)量上達到 70%
- 性價比最高的推理能力
- 模型權(quán)重開放
不過值得注意的是,GPT-4 Turbo 在性能方面是無可爭議的贏家 —— 拿下 150 分滿分。
可以看到,GPT-4(150 分,40 美元 / 百萬 token)和 Claude 3 Opus(142 分,90 美元 / 百萬 token)性能確實很好,但在價格上則要比 Llama、Wizard 和 Haiku 高了 25 到 55 倍。
具體來說,在 Java 中,Llama 3 70B 成功識別出了一個不容易發(fā)現(xiàn)的構(gòu)造函數(shù)測試用例,這一發(fā)現(xiàn)既出人意料又有效。
此外,它還能 70% 的時間編寫出高質(zhì)量的測試代碼。
GPT-4 Turbo 在生成測試代碼時傾向于加入一些明顯的注釋,但這在高質(zhì)量的代碼編寫中通常是需要避免的。
測試代碼的質(zhì)量大大受到微調(diào)的影響:在性能測試中,WizardLM-2 8x22B 比 Mixtral 8x22B-Instruct 高出 30%。
在生成可編譯代碼的能力方面,較小參數(shù)的模型如 Gemma 7B、Llama 3 8B 和 WizardLM 2 7B 表現(xiàn)不佳,但 Mistral 7B 卻做得很好。
團隊在評估了 138 款 LLM 之后發(fā)現(xiàn),其中有大約 80 個模型連生成簡單測試用例的能力都不可靠。
如果得分低于 85 分,就意味著模型的表現(xiàn)不盡如人意。不過,上圖并未完全反映評測中的全部發(fā)現(xiàn)和見解,團隊預計將在下個版本中進行補充
詳細評測可進入下面這篇文章查看:
想要贏得人工智能戰(zhàn)爭,代價昂貴到慘烈
如今,各大科技公司都在付出昂貴的代價,爭取打贏這場 AI 戰(zhàn)爭。
讓 AI 變得更智能,科技巨頭們需要花費多少資金?
谷歌 DeepMind 老板 Demis Hassabis 在半個月前的 TED 大會上做出了預測:在開發(fā) AI 方面,谷歌預計投入 1000 多億美元。
作為谷歌人工智能計劃最中心、最靈魂的人物,DeepMind 實驗室的領導者,Hassabis 的這番言論,也表達了對 OpenAI 的毫不示弱。
根據(jù) The Information 報道,微軟和 OpenAI 計劃花 1000 億美元打造「星際之門」,這臺超算預計包含數(shù)百萬個專用服務器芯片,為 GPT-5、GPT-6 等更高級的模型提供動力。
當 Hassabis 被問及競爭對手花在超算上的巨額成本時,他輕描淡寫地指出:谷歌的花費可能會超出這個數(shù)字。
我們現(xiàn)在不談具體的數(shù)字,不過我認為,隨著時間的推移,我們的投資會超過這個數(shù)。
如今,生成式 AI 的熱潮已經(jīng)引發(fā)了巨大的投資熱。
根據(jù) Crunchbase 的數(shù)據(jù),僅 AI 初創(chuàng)企業(yè),去年就籌集了近 500 億美元的資金。
而 Hassabis 的發(fā)言表明,AI 領域的競爭絲毫沒有放緩的意思,還將更加白熱化。
谷歌、微軟、OpenAI,都在為「第一個到達 AGI」這一壯舉,展開激烈角逐。
1000 億美元的瘋狂數(shù)字
在 AI 技術(shù)上要花掉超千億美元,這 1000 億都花會花在哪里呢?
首先,開發(fā)成本的大頭,就是芯片。
目前這一塊,英偉達還是說一不二的老大。谷歌 Gemini 和 OpenAI 的 GPT-4 Turbo,很大程度上還是依賴英偉達 GPU 等第三方芯片。
模型的訓練成本,也越來越昂貴。
斯坦福此前發(fā)布的年度 AI 指數(shù)報告就指出:「SOTA 模型的訓練成本,已經(jīng)達到前所未有的水平?!?/p>
報告數(shù)據(jù)顯示,GPT-4 使用了「價值約 7800 萬美元的計算量來進行訓練」,而 2020 年訓練 GPT-3 使用的計算量,僅為 430 萬美元。
與此同時,谷歌 Gemini Ultra 的訓練成本為 1.91 億美元。
而 AI 模型背后的原始技術(shù),在 2017 年的訓練成本僅為 900 美元。
報告還指出:AI 模型的訓練成本與其計算要求之間存在直接關聯(lián)。
如果目標是 AGI 的話,成本很可能會直線上升。
1.9 億美元:從谷歌到 OpenAI,訓練 AI 模型的成本是多少
說到這里,就讓我們盤一盤,各大科技公司訓練 AI 模型所需的成本,究竟是多少。
最近的《人工智能指數(shù)報告》,就披露了訓練迄今為止最復雜的 AI 模型所需要的驚人費用。
讓我們深入研究這些成本的細分,探討它們的含義。
Transformer(谷歌):930 美元
Transformer 模型是現(xiàn)代 AI 的開創(chuàng)性架構(gòu)之一,這種相對適中的成本,凸顯了早期 AI 訓練方法的效率。
它的成本,可以作為了解該領域在模型復雜性和相關費用方面進展的基準。
BERT-Large(谷歌):3,288 美元
與前身相比,BERT-Large 模型的訓練成本大幅增加。
BERT 以其對上下文表征的雙向預訓練而聞名,在自然語言理解方面取得了重大進展。然而,這一進展是以更高的財務成本為代價的。
RoBERTa Large(Meta):16 萬美元
RoBERTa Large 是 BERT 的一個變體,針對穩(wěn)健的預訓練進行了優(yōu)化,其訓練成本的躍升,反映了隨著模型變得越來越復雜,計算需求也在不斷提高。
這一急劇增長,凸顯了與突破人工智能能力界限相關費用在不斷上升。
LaMDA (谷歌): 130 萬美元
LaMDA 旨在進行自然語言對話,代表了向更專業(yè)的 AI 應用程序的轉(zhuǎn)變。
訓練 LaMDA 所需的大量投資,凸顯了對為特定任務量身定制的 AI 模型需求的不斷增長,后者就需要更廣泛的微調(diào)和數(shù)據(jù)處理。
GPT-3 175B(davinci)(OpenAI):430 萬美元
GPT-3 以其龐大的規(guī)模和令人印象深刻的語言生成能力而聞名,代表了 AI 發(fā)展的一個重要里程碑。
訓練 GPT-3 的成本,反映了訓練如此規(guī)模的模型所需的巨大算力,突出了性能和可負擔性之間的權(quán)衡。
Megatron-Turing NLG 530B (微軟 / 英偉達): $6.4M
訓練 Megatron-TuringNLG 的成本,說明了具有數(shù)千億個參數(shù)的更大模型的趨勢。
這種模型突破了 AI 能力的界限,但帶來了驚人的訓練成本。它大大提高了門檻,讓業(yè)領導者和小型參與者之間的差距越拉越大。
PaLM(540B)(谷歌):$12.4M
PaLM 具有大量的參數(shù),代表了 AI 規(guī)模和復雜性的巔峰之作。
訓練 PaLM 的天文數(shù)字成本,顯示出推動 AI 研發(fā)界限所需的巨大投資,也引發(fā)了人們的質(zhì)疑:這類投資真的是可持續(xù)的嗎?
GPT-4 (OpenAI): $78.3M
GPT-4 的預計訓練成本,也標志著人工智能經(jīng)濟學的范式轉(zhuǎn)變 ——AI 模型的訓練費用達到了前所未有的水平。
隨著模型變得越來越大、越來越復雜,進入的經(jīng)濟壁壘也在不斷升級。此時,后者就會限制創(chuàng)新,和人們對 AI 技術(shù)的可得性。
Gemini Ultra(谷歌):$191.4M
訓練 Gemini Ultra 的驚人成本,體現(xiàn)了超大規(guī)模 AI 模型帶來的挑戰(zhàn)。
雖然這些模型表現(xiàn)出了突破性的能力,但它們的訓練費用已經(jīng)達到了天文數(shù)字。除了資金最充足的大公司之外,其余的企業(yè)和組織都被擋在了壁壘之外。
芯片競賽:微軟、Meta、谷歌和英偉達爭奪 AI 芯片霸主地位
雖然英偉達憑借長遠布局在芯片領域先下一城,但無論是 AMD 這個老對手,還是微軟、谷歌、Meta 等巨頭,也都在奮勇直追,嘗試采用自己的設計。
5 月 1 日,AMD 的 MI300 人工智能芯片銷售額達到 10 億美元,成為其有史以來銷售最快的產(chǎn)品。
與此同時,AMD 還在馬不停蹄地加大目前供不應求的 AI 芯片的產(chǎn)量,并且預計在 2025 年推出新品。
4 月 10 日,Meta 官宣下一代自研芯片,模型訓練速度將獲巨大提升。
Meta 訓練和推理加速器(MTIA)專為與 Meta 的排序和推薦模型配合使用而設計,這些芯片可以幫助提高訓練效率,并使實際的推理任務更加容易。
同在 4 月 10 日,英特爾也透露了自家最新的 AI 芯片 ——Gaudi 3 AI 的更多細節(jié)。
英特爾表示,與 H100 GPU 相比,Gaudi 3 可以在推理性能上獲得 50% 提升的同時,在能效上提升 40%,并且價格更便宜。
3 月 19 日,英偉達發(fā)布了「地表最強」AI 芯片 ——Blackwell B200。
英偉達表示,全新的 B200 GPU 可以憑借著 2080 億個晶體管,提供高達 20 petaflops 的 FP4 算力。
不僅如此,將兩個這樣的 GPU 與一個 Grace CPU 結(jié)合在一起的 GB200,可以為 LLM 推理任務提供比之前強 30 倍的性能,同時也可大大提高效率。
此外,老黃還曾暗示每個 GPU 的價格可能在 3 萬到 4 萬美元之間。
2 月 23 日,英偉達市值一舉突破 2 萬億美元,成為了首家實現(xiàn)這一里程碑的芯片制造商。
同時,這也讓英偉達成為了美國第三家市值超過 2 萬億美元的公司,僅次于蘋果(2.83 萬億美元)和微軟(3.06 萬億美元)。
2 月 22 日,微軟和英特爾達成了一項數(shù)十億美元的定制芯片交易。
據(jù)推測,英特爾將會為微軟生產(chǎn)其自研的 AI 芯片。
2 月 9 日,《華爾街日報》稱 Sam Altman 的 AI 芯片夢,可能需要高達 7 萬億美元的投資。
「這樣一筆投資金額將使目前全球半導體行業(yè)的規(guī)模相形見絀。去年全球芯片銷售額為 5270 億美元,預計到 2030 年將達到每年 1 萬億美元。」
參考資料:
https://twitter.com/tsarnick/status/1786189377804369942
https://www.youtube.com/watch?v=6RUR6an5hOY
https://twitter.com/zimmskal/status/1786012661815124024
https://symflower.com/en/company/blog/2024/dev-quality-eval-v0.4.0-is-llama-3-better-than-gpt-4-for-generating-tests/
https://techovedas.com/190-million-what-is-the-cost-of-training-ai-models-from-google-to-openai/
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。