首頁 > IT資訊>人物

我的領(lǐng)導(dǎo)馬斯克：痛恨開會(huì)，不要非技術(shù)中層，推崇裁員

量子位 2024/3/30 15:21:04 責(zé)編：清源

評論：

馬斯克稱得上是個(gè)“魔鬼老板”這事兒，已經(jīng)出了名了。

現(xiàn)在，他的老部下卡帕西（Andrej Karpathy）又在最新訪談中“錘”了他一把：

我不得不懇求他允許我招人。
他（馬斯克）總是默認(rèn)要裁掉員工。

我的領(lǐng)導(dǎo)馬斯克：痛恨開會(huì)，不要非技術(shù)中層，推崇裁員

喜歡裁人之外，在這場紅杉組織的 AI Ascent 活動(dòng)上，卡帕西還揭秘了更多馬斯克管理公司的細(xì)節(jié)：

痛恨開會(huì)、拒絕躺平、比起跟 VP 更喜歡直接和工程師們聊工作……

另外，他也聊了不少大家伙關(guān)心的大模型話題，包括：

LLM OS
規(guī)模重要嗎？
年輕的初創(chuàng)公司要如何與 OpenAI 競爭？

更多細(xì)節(jié)，以下奉上文字版分享~

（Claude 3 亦有貢獻(xiàn)）

大語言模型是新時(shí)代的 CPU

Q：安德烈，非常感謝你今天加入我們。OpenAI 最初的辦公室就在我們舊金山辦公室的對面，當(dāng)時(shí)你們很多人都擠在一起。

除了在一家巧克力工廠樓上工作，實(shí)現(xiàn)了威利?旺卡的夢想，在這里工作還有哪些令你難忘的時(shí)刻？

卡帕西：是的，OpenAI 最初的辦公室就在那里，如果不算 Greg 的公寓的話。

我們在那里待了大概兩年，樓下就是巧克力工廠，味道一直很香。那時(shí)團(tuán)隊(duì)大概有 10-20 多人。

我們在那里度過了一段非常有趣的時(shí)光。老黃在 GTC 大會(huì)上提到的，他把第一臺 DGX 超級計(jì)算機(jī)送到 OpenAI 的事，就發(fā)生在那里。

我的領(lǐng)導(dǎo)馬斯克：痛恨開會(huì)，不要非技術(shù)中層，推崇裁員

Q：安德烈其實(shí)是不需要介紹的，不過我還是想提一下他的背景。他師從 Geoffrey Hinton 和李飛飛，最早因?yàn)樵谒固垢４髮W(xué)開設(shè)的深度學(xué)習(xí)課程成名。

2015 年他聯(lián)合創(chuàng)辦了 OpenAI。2017 年，他被馬斯克挖走了。

大家可能不太記得當(dāng)時(shí)的情況了：特斯拉經(jīng)歷了 6 任 Autopilot 負(fù)責(zé)人，每個(gè)人都只做了 6 個(gè)月。我記得安德烈接手這個(gè)職位時(shí)，我還祝他好運(yùn)來著。

沒過多久，他就回到了 OpenAI。而現(xiàn)在他擁有完全的自由，可以想做什么就做什么。所以我們很期待聽他今天分享的見解。

我最欣賞安德烈的地方在于，他是一位令人著迷的未來主義思想家，他是堅(jiān)定的樂觀主義者，同時(shí)他也是非常務(wù)實(shí)的建設(shè)者。今天他會(huì)和我們分享一些關(guān)于這些方面的見解。

首先，即便在 7 年前，AGI 看起來也是一個(gè)在我們有生之年幾乎不可能實(shí)現(xiàn)的目標(biāo)。而現(xiàn)在它似乎已經(jīng)在望了。你對未來 10 年有什么看法？

卡帕西：你說的沒錯(cuò)。幾年前，AGI 的路徑還很不明朗，還處于非常學(xué)術(shù)化的探討階段。但現(xiàn)在已經(jīng)很清晰了，大家都在努力填補(bǔ)這片空白。

優(yōu)化工作正在如火如荼地進(jìn)行。大致來說，每個(gè)人都在努力構(gòu)建“大模型操作系統(tǒng)（LLM OS）”。

我喜歡把它比作一個(gè)操作系統(tǒng)。你要準(zhǔn)備好各種外圍設(shè)備，然后把它們連接到一個(gè)新的 CPU 上。這些外圍設(shè)備包括文本、圖像、音頻等各種模態(tài)。CPU 就是語言模型本身。它還要與我們已經(jīng)構(gòu)建的所有 Software 1.0 基礎(chǔ)設(shè)施相連。

我認(rèn)為大家都在努力構(gòu)建這樣一個(gè)東西，然后把它定制成適用于各個(gè)經(jīng)濟(jì)領(lǐng)域的產(chǎn)品。

總的來說，發(fā)展方向就是我們可以調(diào)整這些相對獨(dú)立的 agent，給它們分配高層次的任務(wù)，讓它們專門從事各種工作。這將非常有趣和令人興奮。而且不止一個(gè) agent，會(huì)有很多 agent。想象一下那會(huì)是什么樣子？

我的領(lǐng)導(dǎo)馬斯克：痛恨開會(huì)，不要非技術(shù)中層，推崇裁員

Q：如果未來真的如你所說，那我們現(xiàn)在應(yīng)該如何調(diào)整自己的生活方式？

卡帕西：我不知道。我想我們必須努力去構(gòu)建它，去影響它，確保它是正向的?？傊褪潜M量讓結(jié)果變好。

Q：既然你現(xiàn)在是一個(gè)自由人，我想提一個(gè)顯著的問題，那就是 OpenAI 正在主導(dǎo)整個(gè)生態(tài)。

今天在座的大多數(shù)人都是創(chuàng)業(yè)者，他們試圖開辟一些小眾市場，并祈禱 OpenAI 不會(huì)在一夜之間把他們打垮。

你認(rèn)為其中還有機(jī)會(huì)嗎？OpenAI 會(huì)在哪些領(lǐng)域繼續(xù)占據(jù)主導(dǎo)地位？

卡帕西：我的總體印象是，OpenAI 正在努力構(gòu)建 LLM 操作系統(tǒng)。正如我們今天早些時(shí)候聽到的，OpenAI 正試圖開發(fā)一個(gè)平臺。在此基礎(chǔ)上，你可以在不同的垂直領(lǐng)域建立不同的公司。

操作系統(tǒng)的類比其實(shí)很有意思，因?yàn)橄?Windows 這樣的操作系統(tǒng)，也自帶一些默認(rèn)的應(yīng)用程序，比如瀏覽器。

所以我認(rèn)為，OpenAI 或其他公司可能也會(huì)推出一些默認(rèn)的應(yīng)用，但這并不意味著你不能在其上面運(yùn)行不同的瀏覽器，你可以在他們的基礎(chǔ)之上運(yùn)行不同的 agent。

會(huì)有一些默認(rèn)應(yīng)用，但也可能會(huì)有一個(gè)充滿活力的生態(tài)系統(tǒng)，有各種各樣的應(yīng)用，針對具體場景進(jìn)行了微調(diào)。

我很喜歡用早期的 iPhone 應(yīng)用來類比。這些應(yīng)用一開始都有點(diǎn)像開玩笑，需要時(shí)間來發(fā)展。我想我們現(xiàn)在正在經(jīng)歷同樣的事情。人們正在努力弄清楚這個(gè)東西擅長什么？不擅長什么？我如何使用它？如何編程？如何調(diào)試？如何讓它執(zhí)行實(shí)際任務(wù)？需要什么樣的監(jiān)督？因?yàn)樗喈?dāng)自主，但不完全自主的。所以監(jiān)督應(yīng)該是什么樣的？評估應(yīng)該是什么樣的？有很多事情需要思考，需要理解。我認(rèn)為需要一些時(shí)間來弄清楚如何與這種新的基礎(chǔ)設(shè)施合作。所以我認(rèn)為在未來幾年我們會(huì)看到這一點(diǎn)。

我的領(lǐng)導(dǎo)馬斯克：痛恨開會(huì)，不要非技術(shù)中層，推崇裁員

Q：現(xiàn)在大語言模型的競賽正在如火如荼地進(jìn)行，有 OpenAI、Anthropic、Mistral、Llama、Gemini，還有整個(gè)開源模型生態(tài)系統(tǒng)，以及大量的小模型。你如何預(yù)見生態(tài)系統(tǒng)未來的發(fā)展？

卡帕西：是的，所以我再次強(qiáng)調(diào)，操作系統(tǒng)的類比很有意思。我們有 Windows、macOS 這樣閉源的系統(tǒng)，也有開源的 Linux。我認(rèn)為大模型可能也會(huì)是這樣的格局。

我們稱呼這些模型的時(shí)候也要小心，你列舉的很多模型，比如 Llama、Mistral 等，我不認(rèn)為它們是真正的開源。這就像是把一個(gè)操作系統(tǒng)的二進(jìn)制文件扔出來，你可以使用它，但不是完全有用。確實(shí)有一些我認(rèn)為是完全開源的語言模型，它們完整地發(fā)布了編譯“操作系統(tǒng)”所需的全部基礎(chǔ)設(shè)施，從數(shù)據(jù)采集到模型訓(xùn)練。這比只拿到模型權(quán)重肯定要好得多，因?yàn)槟憧梢晕⒄{(diào)模型。

但我認(rèn)為有一個(gè)微妙的問題，就是你不能完全微調(diào)模型，因?yàn)槟阄⒄{(diào)得越多，它在其他所有任務(wù)上的表現(xiàn)就會(huì)越差。

所以如果你想增加某種能力而不影響其他能力，實(shí)際上可能需要混合之前的數(shù)據(jù)集分布和新的數(shù)據(jù)集分布來進(jìn)行訓(xùn)練。如果只給你模型權(quán)重，你其實(shí)做不到這一點(diǎn)。你需要訓(xùn)練循環(huán)，需要數(shù)據(jù)集等。所以你在使用這些模型時(shí)實(shí)際上是受限的。

它們肯定是有幫助的，但我們可能需要更好的術(shù)語對其進(jìn)行描述。開放權(quán)重模型、開源模型，還有專有模型，生態(tài)系統(tǒng)可能會(huì)是這樣的。而且很可能會(huì)與我們今天的生態(tài)系統(tǒng)非常相似。

我的領(lǐng)導(dǎo)馬斯克：痛恨開會(huì)，不要非技術(shù)中層，推崇裁員

規(guī)模是最主要決定因素

Q：我想問的另一個(gè)問題，就是規(guī)模。簡單來說，規(guī)模似乎是最重要的。數(shù)據(jù)規(guī)模、算力規(guī)模。因此，大型研究實(shí)驗(yàn)室、大型科技巨頭今天擁有巨大的優(yōu)勢。你對此有何看法？規(guī)模就是一切嗎？如果不是，還有什么重要的？

卡帕西：我認(rèn)為規(guī)模絕對是第一位的。

其中有一些細(xì)節(jié)確實(shí)需要處理好。我認(rèn)為數(shù)據(jù)集的準(zhǔn)備工作也很重要，要讓數(shù)據(jù)非常好、非常干凈，這可以使計(jì)算效率提升。

但我認(rèn)為規(guī)模將是主要的決定因素，是第一主成分，當(dāng)然你還需要把其他很多事情做好。

如果沒有規(guī)模，那你從根本上就無法訓(xùn)練這些大模型。如果你只做微調(diào)之類的工作，可能不需要那么大的規(guī)模，但我們還沒有真正看到這一點(diǎn)完全實(shí)現(xiàn)。

Q：你能詳細(xì)說說除了規(guī)模之外，你認(rèn)為還有哪些重要因素嗎，可能優(yōu)先級低一些？

卡帕西：首先，你不能只訓(xùn)練這些模型。如果你只是提供資金和規(guī)模，實(shí)際上訓(xùn)練這些模型仍然非常困難。

部分原因是基礎(chǔ)設(shè)施太新了，還在開發(fā)中，還不完善。但在這種規(guī)模上訓(xùn)練模型是極其困難的，是一個(gè)非常復(fù)雜的分布式優(yōu)化問題。這方面的人才目前其實(shí)相當(dāng)稀缺。這基本上是一個(gè)瘋狂的事情，模型在成千上萬個(gè) GPU 上運(yùn)行，在不同的時(shí)間點(diǎn)隨機(jī)失敗。監(jiān)控這個(gè)過程，讓它工作起來，實(shí)際上是極其困難的挑戰(zhàn)。

直到最近，GPU 才像預(yù)期的那樣能處理 1 萬個(gè) GPU 的工作負(fù)載。所以我認(rèn)為很多基礎(chǔ)設(shè)施在這種壓力下都在吱吱作響，我們需要解決這個(gè)問題。

現(xiàn)在，如果你只是給某人一大筆錢或大量的 GPU，我不確定他們是否能直接生產(chǎn)出大模型，這就是為什么不僅僅是規(guī)模的問題。你實(shí)際上需要大量的專業(yè)知識，包括基礎(chǔ)設(shè)施方面、算法方面，以及數(shù)據(jù)方面，要非常謹(jǐn)慎。

我的領(lǐng)導(dǎo)馬斯克：痛恨開會(huì)，不要非技術(shù)中層，推崇裁員

Q：生態(tài)系統(tǒng)發(fā)展得如此之快，一年前我們認(rèn)為存在的一些挑戰(zhàn)，現(xiàn)在也越來越多地得到解決?；糜X、上下文窗口、多模態(tài)能力、推理速度越來越快、成本越來越低。現(xiàn)在還有哪些語言模型研究的挑戰(zhàn)讓你夜不能寐？你認(rèn)為有哪些問題足夠緊迫，但也是可以解決的？

卡帕西：我認(rèn)為在算法方面，我想了很多的一個(gè)問題是擴(kuò)散模型和自回歸模型之間的明顯區(qū)別。它們都是表示概率分布的方法。事實(shí)證明，不同的模態(tài)顯然適合其中之一。我認(rèn)為可能有一些空間來統(tǒng)一它們，或者以某種方式將它們聯(lián)系起來。

我想指出的另一件事是，運(yùn)行大模型的基礎(chǔ)設(shè)施的內(nèi)在效率。我的大腦功耗大概是 20 瓦。老黃在 GTC 上剛剛談到了他們要建造的大型超級計(jì)算機(jī)，數(shù)字都是兆瓦級的。所以也許你不需要那么多能量來運(yùn)行一個(gè)大腦。我不知道具體需要多少，但我認(rèn)為可以肯定地說，在運(yùn)行這些模型的效率方面，我們還可以 1000 倍到 100 萬倍地提升。

我認(rèn)為部分原因是當(dāng)前的計(jì)算機(jī)根本不適合這個(gè)工作負(fù)載。英偉達(dá)的 GPU 朝著這個(gè)方向邁出了很好的一步，因?yàn)槟阈枰獦O高的并行性。我們實(shí)際上并不關(guān)心以某種方式依賴數(shù)據(jù)的順序計(jì)算。我們只是需要在許多不同的數(shù)組元素上執(zhí)行相同的算法。所以我認(rèn)為第一是調(diào)整計(jì)算機(jī)架構(gòu)以適應(yīng)新的數(shù)據(jù)工作流，第二是推動(dòng)一些我們目前看到有改進(jìn)的東西。

第一個(gè)可能是精度。我們看到精度從最初的 64 位雙精度下降到現(xiàn)在的 4、5、6 位，甚至根據(jù)你閱讀的論文不同，可能是 1.5 到 8 位。所以我認(rèn)為精度是控制這個(gè)問題的一個(gè)很大的杠桿。

第二個(gè)當(dāng)然是稀疏性。事實(shí)上，大模型中的很多參數(shù)都是零，或者接近零。所以如果你能以某種方式利用這一點(diǎn)，比如說讓稀疏矩陣乘法變得更有效率，那就太好了。這方面有一些有前景的研究。

此外還有一些有趣的想法，比如奇異值分解 (SVD)，看看是否可以將其分解成更小的矩陣，然后重新組合。比如只計(jì)算前向傳播，不做反向傳播，訓(xùn)練一個(gè)較小的模型來預(yù)測較大模型的輸出。

所以我認(rèn)為，從根本上講，要解決兩個(gè)問題：

一個(gè)是構(gòu)建更合適的硬件。另一個(gè)是找到更好的算法，在保持性能的同時(shí)提高效率。

我認(rèn)為這兩個(gè)方面都還有很大的探索空間。從能效的角度來看，如果我們能縮小與大腦的差距，那將是一個(gè)巨大的進(jìn)步。這可能意味著我們每個(gè)人都可以負(fù)擔(dān)得起一個(gè)模型，或在我們的設(shè)備上運(yùn)行一個(gè)模型，而不需要連接到云端。

馬斯克“在管理世界上最大的創(chuàng)業(yè)公司”

我的領(lǐng)導(dǎo)馬斯克：痛恨開會(huì)，不要非技術(shù)中層，推崇裁員

Q：好的，我們換個(gè)話題。你曾與這個(gè)時(shí)代的許多偉人并肩工作過，OpenAI 的 Sam、Greg 及其他團(tuán)隊(duì)成員，還有馬斯克。

在座有多少人聽過關(guān)于美國賽艇隊(duì)和日本賽艇隊(duì)的笑話？這是個(gè)有趣的故事。馬斯克分享過這個(gè)笑話，我認(rèn)為它反映了他在打造企業(yè)文化和團(tuán)隊(duì)方面的很多理念。故事中有兩支隊(duì)伍，日本隊(duì)有 4 名劃手和 1 名舵手，美國隊(duì)有 4 名舵手和 1 名劃手。有人猜得出當(dāng)美國隊(duì)輸了后他們會(huì)怎么做嗎？大聲說出來。完全正確，他們會(huì)開除那個(gè)劃手。

馬斯克分享這個(gè)例子，我認(rèn)為是在闡述他對于雇傭合適的人才、打造合適團(tuán)隊(duì)的看法。通過與這些不可思議的領(lǐng)導(dǎo)者的密切合作，你學(xué)到了什么？

卡帕西：我想說馬斯克管理公司的方式非常獨(dú)特。我覺得人們并沒有真正意識到它有多特別。即便是聽別人講，你也很難完全理解。我覺得這很難用語言描述。我甚至都不知道從何說起。但這確實(shí)是一種非常獨(dú)特、與眾不同的方式。

用我的話說，他在管理全球最大的創(chuàng)業(yè)公司。我覺得我現(xiàn)在也很難描述清楚，這可能需要更長時(shí)間來思考和總結(jié)。

不過首先，他喜歡由實(shí)力強(qiáng)大且技術(shù)含量高的小團(tuán)隊(duì)來組成公司。

在其他公司，發(fā)展的過程中團(tuán)隊(duì)規(guī)模往往會(huì)變大。而馬斯克則總是反對團(tuán)隊(duì)過度擴(kuò)張。為了招募員工，我不得不做很多努力。我必須懇求他允許我招人。

另外，大公司通常很難擺脫績效不佳的員工。而馬斯克則更愿意主動(dòng)裁人。

事實(shí)上，為了留住一些員工，我不得不據(jù)理力爭，因?yàn)樗偸悄J(rèn)要裁掉他們。

所以第一點(diǎn)就是，保持一支實(shí)力強(qiáng)勁、技術(shù)過硬的小團(tuán)隊(duì)。絕對不要有那種非技術(shù)型的中層管理。這是最重要的一點(diǎn)。

第二點(diǎn)則是他如何營造工作氛圍，以及當(dāng)他走進(jìn)辦公室時(shí)給人的感覺。

他希望工作環(huán)境充滿活力。人們四處走動(dòng)，思考問題，專注于令人興奮的事物。他們或是在白板上寫寫畫畫，或是在電腦前敲代碼。他不喜歡一潭死水，不喜歡辦公室里沒有生機(jī)。

他也不喜歡冗長的會(huì)議，總是鼓勵(lì)人們在會(huì)議毫無意義時(shí)果斷離場。你真的能看到，如果你對會(huì)議毫無貢獻(xiàn)也沒有收獲，那就可以直接走人，他非常支持這一點(diǎn)。我想這在其他公司是很難見到的。

所以我認(rèn)為營造積極向上的工作氛圍是他灌輸?shù)牡诙€(gè)重要理念。也許這其中還包括，當(dāng)公司變大后，往往會(huì)過度呵護(hù)員工。而在他的公司不會(huì)如此。公司的文化就是你要拿出百分之百的專業(yè)能力，工作節(jié)奏和強(qiáng)度都很高。

我想最后一點(diǎn)或許是最獨(dú)特、最有趣也最不尋常的，就是他與團(tuán)隊(duì)如此緊密地聯(lián)系在一起。

通常一個(gè)公司的 CEO 是一個(gè)遙不可及的人，管理著 5 層下屬，只和副總裁溝通，副總裁再和他們的下屬主管溝通，主管再和經(jīng)理層溝通，你只能和直屬上司對話。但馬斯克經(jīng)營公司的方式完全不同。他會(huì)親自來到辦公室，直接與工程師交談。

我們開會(huì)時(shí)，會(huì)議室里經(jīng)常是 50 個(gè)人和馬斯克面對面，他直接跟工程師對話。他不想只是和副總裁、主管們說話。

通常一個(gè) CEO 會(huì)把 99% 的時(shí)間花在和副總裁溝通上，而他可能有 50% 的時(shí)間在和工程師交流。所以如果團(tuán)隊(duì)規(guī)模小且高效，那么工程師和代碼就是最可信的信息源。他們掌握第一手的真相。馬斯克要直接和工程師交流，以了解實(shí)際情況，討論如何改進(jìn)。

所以我想說，他與團(tuán)隊(duì)聯(lián)系緊密，而不是遙不可及，這一點(diǎn)非常獨(dú)特。

此外，他在公司內(nèi)部行使權(quán)力的方式也不同尋常。比如如果他與工程師交談，了解到一些阻礙項(xiàng)目進(jìn)展的問題。比如工程師說，“我沒有足夠的 GPU 來運(yùn)行程序”，他會(huì)記在心里。如果他兩次聽到類似的抱怨，他就會(huì)說：“好，這是個(gè)問題。那現(xiàn)在的時(shí)間表是什么？什么時(shí)候能解決？”

如果得不到滿意的答復(fù)，他會(huì)說，“我要和 GPU 集群的負(fù)責(zé)人談?wù)劇保缓笥腥司蜁?huì)打電話給那個(gè)負(fù)責(zé)人，他會(huì)直截了當(dāng)?shù)卣f：“現(xiàn)在就把集群容量翻一倍。從明天開始每天向我匯報(bào)進(jìn)展，直到集群規(guī)模擴(kuò)大一倍?！?/p>

對方可能會(huì)推脫說還要經(jīng)過采購流程，需要 6 個(gè)月時(shí)間之類的。這時(shí)馬斯克就會(huì)皺起眉頭，說：“好，我要和黃仁勛談?wù)劇！比缓笏蜁?huì)直接鏟除項(xiàng)目障礙。

所以我認(rèn)為大家并沒有真正意識到他是如何深度參與各項(xiàng)工作，掃清障礙，施加影響力的。

老實(shí)說，離開這樣的環(huán)境去一家普通公司，你真的會(huì)想念這些獨(dú)特的地方。

視頻鏈接：

https://www.youtube.com/watch?v=c3b-JASoPi0

本文來自微信公眾號：量子位（ID：QbitAI），作者：魚羊

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

我的領(lǐng)導(dǎo)馬斯克：痛恨開會(huì)，不要非技術(shù)中層，推崇裁員

大語言模型是新時(shí)代的 CPU

規(guī)模是最主要決定因素

馬斯克“在管理世界上最大的創(chuàng)業(yè)公司”

相關(guān)文章

我的領(lǐng)導(dǎo)馬斯克：痛恨開會(huì)，不要非技術(shù)中層，推崇裁員