谷歌首席科學(xué)家 Jeff Dean 與 Transformer 作者 Noam Shazeer 在一場訪談中不僅揭秘了讓模型速度提升三倍的低精度計算技術(shù),分享了「貓神經(jīng)元」等早期 AI 突破的背后故事,還大膽暢想了 AI 處理萬億級別 Token、實現(xiàn)「1000 萬倍工程師」的可能性。
如果沒有「Attention Is All You Need」這篇論文,今天的 AI 會是什么樣子?
Jeff Dean,谷歌的首席科學(xué)家,和 Transformer 的作者 Noam Shazeer,最近在一場深度訪談中,不僅回顧了 AI 發(fā)展的關(guān)鍵時刻,還大膽預(yù)測了未來的方向。
他們揭秘了模型蒸餾、MoE 架構(gòu)的內(nèi)幕,甚至討論了如何讓 AI 模型處理整個互聯(lián)網(wǎng)的信息!
訪談內(nèi)容十分豐富,看點十足。
低精度讓模型快三倍
「最近,我感覺基于通用 CPU 的機器擴展性不如以前了?!笿eff 說。
他表示,制造工藝的改進現(xiàn)在需要三年時間,而不是以前的兩年。多核處理器等架構(gòu)改進也沒有給我們帶來 20 到 10 年前那么大的提升。
但是,同時我們看到了越來越多的專用計算設(shè)備,比如機器學(xué)習(xí)加速器、TPU,以及最近的專注于機器學(xué)習(xí)的 GPU,它們讓我們能夠在現(xiàn)代計算中獲得非常高的性能和良好的效率,這些計算與傳統(tǒng)的 C++ 代碼,比如運行 Microsoft Office 這類任務(wù)的計算大不相同。
可以說,算法正在跟隨硬件的發(fā)展。Noam 表示,現(xiàn)如今算術(shù)運算非常便宜,而數(shù)據(jù)傳輸?shù)某杀緞t相對還較高。
正是因為這一點,深度學(xué)習(xí)才得以迅速發(fā)展?!改憧梢酝ㄟ^矩陣乘法來構(gòu)建深度學(xué)習(xí),這實際上是 N 立方次的運算和 N 平方字節(jié)的數(shù)據(jù)傳輸?!筃oam 說。
對此,Jeff 表示認(rèn)同。他說,「我認(rèn)為,向硬件轉(zhuǎn)向的這一重要變化非常關(guān)鍵,因為在那之前,CPU 和 GPU 并不特別適合深度學(xué)習(xí)?!?/p>
后來,谷歌開始打造 TPU,這些 TPU 其實是低精度線性代數(shù)處理器,一旦有了這樣的硬件,就需要充分利用它。
就像拉里?佩奇曾說的:「我們的第二大成本是稅收,最大成本是機會成本?!乖谶@種情況下,把這些算術(shù)單元填滿!可以讓算術(shù)運算的數(shù)量增加幾個數(shù)量級。
然后,接下來要改變的是什么?算法、數(shù)據(jù)流,等等。Jeff 繼續(xù)說道,「哦,對了,算術(shù)運算的精度可以非常低,這樣你就可以在芯片上放更多的乘法單元?!?/p>
「我認(rèn)為一個普遍的趨勢是,我們在量化或擁有更低精度模型方面變得越來越好?!笿eff 說到。
從 TPUv1 開始,當(dāng)時他們甚至不確定能否使用 8 位整數(shù)進行量化并進行模型推理。但有一些早期證據(jù)顯示這可能是可行的,于是他們就決定圍繞這一點構(gòu)建整個芯片。
隨著時間的推移,大家已經(jīng)能夠在訓(xùn)練中使用更低精度了。而且推理的精度也降低了?,F(xiàn)在人們使用 INT4 或者 FP4。
「如果 20 年前你告訴一個超級計算浮點數(shù)專家,我們要使用 FP4,他一定會覺得那太瘋狂了?!笿eff 說,他們喜歡 64 位的浮點數(shù)。
Jeff 說到,「一些人正在將模型量化到 2 位或 1 位,我認(rèn)為這是一個明顯的趨勢。是的,量化確實有點煩人,但你的模型會快三倍,所以你得接受它?!?/p>
擴展神經(jīng)網(wǎng)絡(luò)確實有效
當(dāng) Jeff 被問到有沒有在研究某個領(lǐng)域時,突然有了想法,并且有種「天啊,簡直不敢相信這竟然成功了」的感覺時。Jeff 回憶起在 Brain 團隊早期的時候。
那個時候,他們專注于「看看能否構(gòu)建一些基礎(chǔ)設(shè)施,讓我們能夠訓(xùn)練非常非常大的神經(jīng)網(wǎng)絡(luò)」。
當(dāng)時,他們的數(shù)據(jù)中心沒有 GPU,只有 CPU。但是他們知道如何讓大量的 CPU 一起工作。所以構(gòu)建了一個系統(tǒng),能夠通過模型并行和數(shù)據(jù)并行的方式訓(xùn)練相當(dāng)大的神經(jīng)網(wǎng)絡(luò)。
「我們有一個針對 1000 萬個隨機選擇的 YouTube 幀進行無監(jiān)督學(xué)習(xí)的系統(tǒng)?!笿eff 表示,它采用了一種空間局部表示的方法,因此它會基于嘗試從高層表示中重構(gòu)事物來構(gòu)建無監(jiān)督表示。他們讓這個系統(tǒng)在 2000 臺計算機上運行,使用了 16000 個核心進行訓(xùn)練。
不久之后,該模型實際上能夠在最高層構(gòu)建一個表示,其中一個神經(jīng)元會被貓的圖像所激發(fā)。
「它從未被告知什么是貓,但它在訓(xùn)練數(shù)據(jù)中看到了足夠多的貓的正面面部視圖,因此這個神經(jīng)元會對這些圖像產(chǎn)生反應(yīng),而對其他東西則不太敏感?!笿eff 說,類似的,你還會看到其他神經(jīng)元對人臉、行人的背影等產(chǎn)生反應(yīng)。
「這個過程非???,因為它是基于無監(jiān)督學(xué)習(xí)原理,構(gòu)建出這些非常高層次的表示?!?/p>
隨后,他們在監(jiān)督學(xué)習(xí)的 ImageNet 20000 類別挑戰(zhàn)中獲得了非常好的結(jié)果,相對于之前的技術(shù),提升了 60% 的性能,這在當(dāng)時是非常不錯的。
這種神經(jīng)網(wǎng)絡(luò)可能比之前訓(xùn)練過的神經(jīng)網(wǎng)絡(luò)大了 50 倍,并且得到了很好的結(jié)果。
所以這讓 Jeff 有了一種感覺,「嘿,實際上,擴展神經(jīng)網(wǎng)絡(luò)似乎是個不錯的主意,看來確實有效,我們應(yīng)該繼續(xù)推動這一方向?!顾f。
想辦法處理數(shù)萬億 token
談到長上下文問題時,Jeff 表示,「我們還沒有完全做到,但我確實看到了在未來可實現(xiàn)的目標(biāo)。」
Jeff 表示,他已經(jīng)思考這個問題一段時間了。
你看到這些模型的一個特點是它們相當(dāng)不錯,但它們有時會產(chǎn)生幻覺并且存在事實性問題。部分原因是你在數(shù)萬億的 token 上進行了訓(xùn)練,并將所有這些都混合在數(shù)百億甚至數(shù)千億的參數(shù)中。
在上下文窗口中,也就是模型的輸入中,信息是非常清晰明確的,因為我們在 Transformer 中有一個非常好的注意力機制。模型可以關(guān)注事物,并且它知道它正在處理的確切文本、視頻的確切幀、音頻或其他任何內(nèi)容。
目前,我們有能夠處理數(shù)百萬 token 上下文的模型,這已經(jīng)相當(dāng)多了。Jeff 表示?!高@相當(dāng)于數(shù)百頁的 PDF、50 篇研究論文、數(shù)小時的視頻、數(shù)十小時的音頻,或者這些內(nèi)容的某種組合,這非常酷?!?/p>
但是,如果模型能夠處理數(shù)萬億的 token,那就太好了。它能否關(guān)注整個互聯(lián)網(wǎng)并為你找到正確的內(nèi)容?它能否為你處理所有個人信息?
「我很希望有一個模型可以訪問我的所有電子郵件、所有文檔和所有照片。當(dāng)我要求它做某事時,它可以在我的許可下利用這些信息來幫助解決我想讓它做的事情。」Jeff 說。
但這將是一個巨大的計算挑戰(zhàn),因為樸素的注意力算法是二次方的。你幾乎無法在相當(dāng)多的硬件上讓它處理數(shù)百萬的 token,更不用說讓它直接處理數(shù)萬億的 token 了,這是不可能的。
因此,需要大量有趣的算法近似來實現(xiàn)的:一種讓模型在概念上能夠處理更多、更多的 token,數(shù)萬億 token 的方法。
也許可以將所有 Google 代碼庫放入每個 Google 開發(fā)者的上下文中,將世界上所有的開源代碼放入任何開源開發(fā)者的上下文中。
那將是驚人的。
一百萬個「邪惡的」Jeff
訪談中,主持人提出了一個極具挑戰(zhàn)性和前瞻性的問題,將討論引向了 AI 安全性的深層領(lǐng)域:如果 AI 系統(tǒng)偏離了預(yù)設(shè)目標(biāo),轉(zhuǎn)而優(yōu)化一些未知的、甚至可能有害的目標(biāo)函數(shù),將會產(chǎn)生怎樣的后果?
主持人進一步設(shè)想了一個場景:假設(shè)一個 AI 獲得了與 Jeff 或 Noam 相當(dāng)、甚至超越他們的編程能力。
在這種情況下,如果該系統(tǒng)被惡意復(fù)制或自我復(fù)制,產(chǎn)生了數(shù)百萬個具有頂級編程水平的「副本」,那么這種失控的局面將可能導(dǎo)致難以挽回的后果。
這一假設(shè)情景觸及了當(dāng)前 AI 安全研究的核心關(guān)切 —— 目目標(biāo)對齊(Goal Alignment)問題。即如何確保 AI 系統(tǒng)的目標(biāo)與人類的價值觀和預(yù)期目標(biāo)保持一致,避免出現(xiàn)意外或有害的行為。
對此,業(yè)界存在兩種極端的觀點:災(zāi)難論(Catastrophism),認(rèn)為 AI 系統(tǒng)在各方面都將遠超人類,最終可能導(dǎo)致人類被 AI 壓制或取代。樂觀論(Optimism),認(rèn)為 AI 系統(tǒng)將帶來巨大的福祉,無需過分擔(dān)憂其潛在風(fēng)險。
對此,Jeff 表示,他的立場介于這兩種極端觀點之間。他雖然對 AI 的潛在風(fēng)險保持警惕,但并未表現(xiàn)出極度的擔(dān)憂。
這種審慎樂觀的態(tài)度,反映了當(dāng)前 AI 領(lǐng)域許多專家對 AI 安全問題的主流看法:既要重視潛在風(fēng)險,積極開展安全研究,也要對 AI 的未來發(fā)展保持信心。
1000 萬倍工程師
在訪談中,兩位專家深入探討了 AI 發(fā)展所面臨的關(guān)鍵挑戰(zhàn)與巨大機遇。
Jeff 預(yù)測,隨著 AI 聊天界面等應(yīng)用的普及,計算資源需求將面臨爆炸性增長。他指出:「目前可能只有 10% 到 20% 的計算機用戶了解并使用這類交互式界面,但隨著用戶認(rèn)知和應(yīng)用場景的拓展,未來使用量可能增加一到兩個數(shù)量級?!?/p>
這對底層基礎(chǔ)設(shè)施和算力提出了嚴(yán)峻挑戰(zhàn)。
AI 技術(shù)的快速發(fā)展也伴隨著潛在風(fēng)險。Jeff Dean 強調(diào):「我們需要警惕 AI 可能被用于生成虛假信息、實施自動化網(wǎng)絡(luò)攻擊等惡意行為。因此,在模型設(shè)計中必須盡可能內(nèi)置防護和緩解措施,以確保 AI 的安全可控?!?/p>
Noam 認(rèn)為,AI 領(lǐng)域并非零和博弈,其發(fā)展將帶來廣泛的社會效益。他樂觀地預(yù)測:「當(dāng)前 AI 的發(fā)展態(tài)勢預(yù)示著未來在 GDP、醫(yī)療健康、財富創(chuàng)造等多個領(lǐng)域?qū)崿F(xiàn)數(shù)個數(shù)量級的增長?!惯@表明 AI 有潛力成為推動社會進步的重要引擎。
接著,Jeff 提出了一個引人深思的問題:如果每增加一倍的計算資源投入,就能使 AI 助手的能力提升 5 到 10 個點,那么企業(yè)是否愿意為實現(xiàn)「10 倍工程師」、「100 倍工程師」甚至「1000 萬倍工程師」的生產(chǎn)力躍升而加大投入?
這一設(shè)問揭示了 AI 在提升生產(chǎn)力方面的巨大潛力,可能引發(fā)新一輪的技術(shù)革命和產(chǎn)業(yè)變革。
結(jié)語
Jeff Dean 和 Noam Shazeer 的對話,讓我們看到了 AI 技術(shù)發(fā)展的無限可能。
從讓模型快三倍的低精度計算,到處理數(shù)萬億 token 的長上下文挑戰(zhàn),再到對 AI 安全性的深刻思考,這場訪談為我們描繪了一個激動人心的未來。
正如 Jeff 所說,他并不完全擔(dān)心 AI 的「邪惡」版本,但我們?nèi)孕柙诩夹g(shù)發(fā)展的同時,保持對潛在風(fēng)險的警惕。
參考資料:
https://www.youtube.com/watch?v=v0gjI__RyCY
本文來自微信公眾號:新智元(ID:AI_era)
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。