首頁(yè) > IT資訊>業(yè)界

只用 13 天，OpenAI 做出了能聽(tīng)、能說(shuō)、能自主決策的機(jī)器人大模型

極客公園 2024/3/17 11:45:03 責(zé)編：夢(mèng)澤

評(píng)論：

作者 | Li Yuan

編輯 | 鄭玄

資深機(jī)器人專家 Eric Jang 不久前曾預(yù)言：「ChatGPT 曾在一夜之間出現(xiàn)。我認(rèn)為，有智慧的機(jī)器人技術(shù)也將如此?！?/p>

他或許說(shuō)對(duì)了。

北京時(shí)間 3 月 13 日深夜，一段人形機(jī)器人的視頻開(kāi)始在 X 上熱傳。

之前從未展示過(guò)機(jī)器人方向能力的 OpenAI，在與投資公司的人形機(jī)器人的合作中，第一次展示了自己的機(jī)器人智能能力。

Figure，OpenAI 投資的機(jī)器人公司，上傳了這段視頻。在視頻中，Figure 的人形機(jī)器人，可以完全與人類流暢對(duì)話，理解人類的意圖，同時(shí)還能理解人的自然語(yǔ)言指令進(jìn)行抓取和放置，并解釋自己為什么這么做。

而其背后，就是 OpenAI 為其配置的智能大腦。

在過(guò)去一年的具身智能進(jìn)展中，或許你曾經(jīng)看過(guò)類似的機(jī)器人自主決策、拿取物品的展示，但在這段視頻中，F(xiàn)igure 人形機(jī)器人的對(duì)話流暢度、展現(xiàn)出的智能感，接近人類操作速度的動(dòng)作流暢性，絕對(duì)都是第一流的。

Figure 還特意強(qiáng)調(diào)，整段視頻沒(méi)有任何加速，也沒(méi)有任何剪輯，是一鏡到底拍攝的。同時(shí)，機(jī)器人是在完全自主的情況下進(jìn)行的行為，沒(méi)有任何遠(yuǎn)程操縱 —— 似乎在暗暗諷刺前段時(shí)間爆火的展現(xiàn)了酷炫機(jī)械能力，但是沒(méi)有太多智能程度的斯坦福炒菜機(jī)器人。

比起機(jī)器人的智能表現(xiàn)，更可怖的是，這只是 OpenAI 小試牛刀的結(jié)果 —— 從 OpenAI 宣布與 Figure 共同合作推進(jìn)人形機(jī)器人領(lǐng)域的前沿，到這個(gè)視頻的發(fā)布，只有短短的十三天。

此次 Figure 人形機(jī)器人背后的智能，來(lái)自端到端的大語(yǔ)言-視覺(jué)模型，這是具身智能領(lǐng)域目前非常前沿的領(lǐng)域。去年極客公園報(bào)道過(guò)谷歌在類似領(lǐng)域的進(jìn)展。谷歌做出的端到端機(jī)器人控制模型，被一些行業(yè)內(nèi)的人士，譽(yù)為機(jī)器人大模型的 GPT-3 時(shí)刻。

而當(dāng)時(shí)，谷歌的機(jī)器人模型，還只能根據(jù)對(duì)話來(lái)做一些抓取，并不能與人類對(duì)話，也不能向人類解釋自己為什么會(huì)這么做。而谷歌自身，從 Everyday Robotics 開(kāi)始，已經(jīng)有了五年以上的機(jī)器人研究經(jīng)驗(yàn)。

而 Figure 本身，成立于 2022 年。從 OpenAI 宣布介入與之合作，到今天它們共同推出一個(gè)能夠自主對(duì)話和決策的機(jī)器人，只有 13 天。

機(jī)器人智能的發(fā)展，顯然正在加速。

01. 端到端大模型驅(qū)動(dòng)，機(jī)器人的速度已經(jīng)接近人類速度

Figure 的創(chuàng)始人 Brett Adcock 和 AI 團(tuán)隊(duì)的負(fù)責(zé)人 Corey Lynch 在 X 上解釋了此次視頻中機(jī)器人互動(dòng)背后的原理。

此次的突破，由 OpenAI 與 Figure 共同做出。OpenAI 提供負(fù)責(zé)提供視覺(jué)推理和語(yǔ)言理解，而 Figure 的神經(jīng)網(wǎng)絡(luò)提供快速、低水平、靈巧的機(jī)器人動(dòng)作。

機(jī)器人所做出的所有行為都是出于已經(jīng)學(xué)習(xí)過(guò)，內(nèi)化了的能力，而不是來(lái)自遠(yuǎn)程操作。

研究人員將機(jī)器人攝像頭中的圖像輸入，和機(jī)載麥克風(fēng)捕獲的語(yǔ)音中的文本轉(zhuǎn)錄到由 OpenAI 訓(xùn)練的，可以理解圖像和文本的多模態(tài)模型（VLM）中，由該模型處理對(duì)話的整個(gè)歷史記錄，得出語(yǔ)言響應(yīng)，然后通過(guò)文本到語(yǔ)音的方式將其回復(fù)給人類。

同樣的模型，也負(fù)責(zé)決定在機(jī)器人上運(yùn)行哪些學(xué)習(xí)的閉環(huán)行為來(lái)完成給定的命令，將特定的神經(jīng)網(wǎng)絡(luò)權(quán)重加載到 GPU 上并執(zhí)行策略。

這也是為什么這個(gè)機(jī)器人，屬于「端到端」的機(jī)器人控制。從語(yǔ)言輸入開(kāi)始，模型接管了一切處理，直接輸出語(yǔ)言和行為結(jié)果，而不是中間輸出一些結(jié)果，再加載其他程序處理這些結(jié)果。

Figure 的機(jī)載攝像頭以 10hz 的頻率拍攝圖像，然后神經(jīng)網(wǎng)絡(luò)以 200hz 輸出 24 個(gè)自由度動(dòng)作。

Figure 的創(chuàng)始人提到，這代表機(jī)器人的速度已經(jīng)有顯著提高，開(kāi)始接近人類的速度。

只用 13 天，OpenAI 做出了能聽(tīng)、能說(shuō)、能自主決策的機(jī)器人大模型

圖片來(lái)源：Corey Lynch 的 X

OpenAI 的模型的多模態(tài)能力，是機(jī)器人可以與世界交互的關(guān)鍵，我們能夠從視頻中展示中看到許多類似的瞬間，比如：

描述一下它的周圍環(huán)境。

做出決定時(shí)使用常識(shí)推理。例如，「桌子上的盤子和杯子等餐具接下來(lái)很可能會(huì)進(jìn)入晾衣架」。

將「我餓了」等模棱兩可的高級(jí)請(qǐng)求轉(zhuǎn)化為一些適合上下文的行為，例如「遞給對(duì)方一個(gè)蘋果」。

用簡(jiǎn)單的英語(yǔ)描述 * 為什么 * 它會(huì)執(zhí)行特定的操作。例如，「這是我可以從桌子上為您提供的唯一可食用的物品」。

而模型能力的強(qiáng)大，使其還能夠擁有短期記憶，比如視頻中展示的「你能把它們放在那里嗎？」「它們」指的是什么？「那里」又在哪里？正確回答需要反思記憶的能力。

而具體的雙手動(dòng)作，可以分成兩步來(lái)理解：

首先，互聯(lián)網(wǎng)預(yù)訓(xùn)練模型對(duì)圖像和文本進(jìn)行常識(shí)推理，以得出高級(jí)計(jì)劃。如視頻中展示的：Figure 的人形機(jī)器人快速形成了兩個(gè)計(jì)劃：1）將杯子放在碗碟架上，2）將盤子放在碗碟架上。

其次，大模型以 200hz 的頻率生成的 24-DOF 動(dòng)作（手腕姿勢(shì)和手指關(guān)節(jié)角度），充當(dāng)高速「設(shè)定點(diǎn)（setpoint）」，供更高速率的全身控制器跟蹤。全身控制器確保安全、穩(wěn)定的動(dòng)力，如保持平衡。

所有行為均由神經(jīng)網(wǎng)絡(luò)視覺(jué)運(yùn)動(dòng) Transformer 策略驅(qū)動(dòng)，將像素直接映射到動(dòng)作。

02.從 ChatGPT 到 Sora，再到機(jī)器人，OpenAI 想包攬「智能」這件事

2021 年夏天，OpenAI 悄悄關(guān)閉了其機(jī)器人團(tuán)隊(duì)，當(dāng)時(shí)，OpenAI 曾宣布無(wú)限期終止對(duì)機(jī)器人領(lǐng)域的探索，原因是缺乏訓(xùn)練機(jī)器人使用人工智能移動(dòng)和推理所需的數(shù)據(jù)，導(dǎo)致研發(fā)受到阻礙。

但顯然，OpenAI 并沒(méi)有放下對(duì)這個(gè)領(lǐng)域的關(guān)注。

2023 年 3 月，正在一年前，極客公園報(bào)道了 OpenAI 投資了來(lái)自挪威的機(jī)器人制造商 1X Technologies。其副總裁正是我在文初提到的，認(rèn)為具身智能將會(huì)突然到來(lái)的 Eric Jang。

而無(wú)獨(dú)有偶，1X Technologies 的技術(shù)方向，也是端到端的神經(jīng)網(wǎng)絡(luò)對(duì)于機(jī)器人的控制。

而今年 3 月初，OpenAI 和其他投資人一起，參與了 Figure 的 B 輪融資，使其成立兩年，就達(dá)到了 26 億美金估值。

也正是在這一輪融資之后，OpenAI 宣布了與 Figure 的合作。

Figure 的創(chuàng)始人 Brett Adcock，是個(gè)「擅長(zhǎng)組局」的連續(xù)創(chuàng)業(yè)者，整個(gè)職業(yè)生涯中創(chuàng)立過(guò)至少 7 家公司，其中一家以 27 億美元的估值上市，一家被 1.1 億美元的價(jià)格收購(gòu)。

創(chuàng)建公司后，他招募到了研究科學(xué)家 Jerry Pratt 擔(dān)任首席技術(shù)官，前波士頓動(dòng)力 / 蘋果工程師 Michael Rose 擔(dān)任機(jī)器人控制主管。此次進(jìn)行分享的 AI 團(tuán)隊(duì)負(fù)責(zé)人 Corey Lynch，則原本是 Google Deepmind 的 AI 研究員。

Figure 宣布自己在電機(jī)、固件、熱量、電子產(chǎn)品、中間件操作系統(tǒng)、電池系統(tǒng)、執(zhí)行器傳感器、機(jī)械與結(jié)構(gòu)方面，都招募了硬核的設(shè)計(jì)人才。

公司的確進(jìn)展很快。在與 OpenAI 合作之前，已經(jīng)做出了不少成績(jī)。2024 年 1 月，F(xiàn)igure 01（Figure 的第一款人形機(jī)器人）學(xué)會(huì)了做咖啡，公司稱，這背后引入了端到端神經(jīng)網(wǎng)絡(luò)，機(jī)器人學(xué)會(huì)自己糾正錯(cuò)誤，訓(xùn)練時(shí)長(zhǎng)為 10 小時(shí)。

只用 13 天，OpenAI 做出了能聽(tīng)、能說(shuō)、能自主決策的機(jī)器人大模型

Figure 01 引入 AI 學(xué)會(huì)做咖啡｜圖片來(lái)源：Figure

2 月，公司對(duì)外展示 Figure 01 的最新進(jìn)展，在視頻里，這個(gè)機(jī)器人已經(jīng)學(xué)會(huì)搬箱子，并運(yùn)送到傳送帶上，但速度只有人類的 16.7%。

甚至在商業(yè)化上，也已經(jīng)邁出了第一步：Figure 宣布與寶馬制造公司簽署商業(yè)協(xié)議，將 AI 和機(jī)器人技術(shù)整合到汽車生產(chǎn)中，部署在寶馬位于南卡羅來(lái)納州斯巴達(dá)堡的制造工廠。

而在今天的視頻展示推文中，F(xiàn)igure 宣布其目標(biāo)是訓(xùn)練一個(gè)世界模型，最終能夠賣出十億個(gè)級(jí)別的模型驅(qū)動(dòng)的人形機(jī)器人。

不過(guò)，盡管 OpenAI 與 Figure 的合作進(jìn)展順暢，但看起來(lái) OpenAI 并未把寶壓在一家機(jī)器人公司。

北京時(shí)間 3 月 13 日，來(lái)自谷歌研究團(tuán)隊(duì)、加州大學(xué)伯克利分校、斯坦福大學(xué)教授等一群研究者新成立的一家機(jī)器人 AI 公司 Physical Intelligence，被彭博社爆料也拿到了 OpenAI 的融資。

毫無(wú)意外，該公司，也是研究未來(lái)能夠成為通用機(jī)器人系統(tǒng)的人工智能。

多頭下注機(jī)器人領(lǐng)域，13 天合作做出領(lǐng)先的機(jī)器人大模型，OpenAI 在機(jī)器人領(lǐng)域意圖為何，引人關(guān)注。

智能人形機(jī)器人，未來(lái)不止看馬斯克的了。

本文來(lái)自微信公眾號(hào)：極客公園（ID：geekpark），作者：Li Yuan

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

只用 13 天，OpenAI 做出了能聽(tīng)、能說(shuō)、能自主決策的機(jī)器人大模型

01. 端到端大模型驅(qū)動(dòng)，機(jī)器人的速度已經(jīng)接近人類速度

02.從 ChatGPT 到 Sora，再到機(jī)器人，OpenAI 想包攬「智能」這件事

相關(guān)文章

只用 13 天，OpenAI 做出了能聽(tīng)、能說(shuō)、能自主決策的機(jī)器人大模型

01. 端到端大模型驅(qū)動(dòng)，機(jī)器人的速度已經(jīng)接近人類速度

02.從 ChatGPT 到 Sora，再到機(jī)器人，OpenAI 想包攬「智能」這件事