設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

只用 13 天,OpenAI 做出了能聽(tīng)、能說(shuō)、能自主決策的機(jī)器人大模型

極客公園 2024/3/17 11:45:03 責(zé)編:夢(mèng)澤

作者 | Li Yuan 

編輯 | 鄭玄

資深機(jī)器人專家 Eric Jang 不久前曾預(yù)言:「ChatGPT 曾在一夜之間出現(xiàn)。我認(rèn)為,有智慧的機(jī)器人技術(shù)也將如此?!?/p>

他或許說(shuō)對(duì)了。

北京時(shí)間 3 月 13 日深夜,一段人形機(jī)器人的視頻開(kāi)始在 X 上熱傳。

之前從未展示過(guò)機(jī)器人方向能力的 OpenAI,在與投資公司的人形機(jī)器人的合作中,第一次展示了自己的機(jī)器人智能能力。

Figure,OpenAI 投資的機(jī)器人公司,上傳了這段視頻。在視頻中,Figure 的人形機(jī)器人,可以完全與人類流暢對(duì)話,理解人類的意圖,同時(shí)還能理解人的自然語(yǔ)言指令進(jìn)行抓取和放置,并解釋自己為什么這么做。

而其背后,就是 OpenAI 為其配置的智能大腦。

在過(guò)去一年的具身智能進(jìn)展中,或許你曾經(jīng)看過(guò)類似的機(jī)器人自主決策、拿取物品的展示,但在這段視頻中,F(xiàn)igure 人形機(jī)器人的對(duì)話流暢度、展現(xiàn)出的智能感,接近人類操作速度的動(dòng)作流暢性,絕對(duì)都是第一流的。

Figure 還特意強(qiáng)調(diào),整段視頻沒(méi)有任何加速,也沒(méi)有任何剪輯,是一鏡到底拍攝的。同時(shí),機(jī)器人是在完全自主的情況下進(jìn)行的行為,沒(méi)有任何遠(yuǎn)程操縱 —— 似乎在暗暗諷刺前段時(shí)間爆火的展現(xiàn)了酷炫機(jī)械能力,但是沒(méi)有太多智能程度的斯坦福炒菜機(jī)器人。

比起機(jī)器人的智能表現(xiàn),更可怖的是,這只是 OpenAI 小試牛刀的結(jié)果 —— 從 OpenAI 宣布與 Figure 共同合作推進(jìn)人形機(jī)器人領(lǐng)域的前沿,到這個(gè)視頻的發(fā)布,只有短短的十三天。

此次 Figure 人形機(jī)器人背后的智能,來(lái)自端到端的大語(yǔ)言-視覺(jué)模型,這是具身智能領(lǐng)域目前非常前沿的領(lǐng)域。去年極客公園報(bào)道過(guò)谷歌在類似領(lǐng)域的進(jìn)展。谷歌做出的端到端機(jī)器人控制模型,被一些行業(yè)內(nèi)的人士,譽(yù)為機(jī)器人大模型的 GPT-3 時(shí)刻。

而當(dāng)時(shí),谷歌的機(jī)器人模型,還只能根據(jù)對(duì)話來(lái)做一些抓取,并不能與人類對(duì)話,也不能向人類解釋自己為什么會(huì)這么做。而谷歌自身,從 Everyday Robotics 開(kāi)始,已經(jīng)有了五年以上的機(jī)器人研究經(jīng)驗(yàn)。

而 Figure 本身,成立于 2022 年。從 OpenAI 宣布介入與之合作,到今天它們共同推出一個(gè)能夠自主對(duì)話和決策的機(jī)器人,只有 13 天。

機(jī)器人智能的發(fā)展,顯然正在加速。

01. 端到端大模型驅(qū)動(dòng),機(jī)器人的速度已經(jīng)接近人類速度

Figure 的創(chuàng)始人 Brett Adcock 和 AI 團(tuán)隊(duì)的負(fù)責(zé)人 Corey Lynch 在 X 上解釋了此次視頻中機(jī)器人互動(dòng)背后的原理。

此次的突破,由 OpenAI 與 Figure 共同做出。OpenAI 提供負(fù)責(zé)提供視覺(jué)推理和語(yǔ)言理解,而 Figure 的神經(jīng)網(wǎng)絡(luò)提供快速、低水平、靈巧的機(jī)器人動(dòng)作。

機(jī)器人所做出的所有行為都是出于已經(jīng)學(xué)習(xí)過(guò),內(nèi)化了的能力,而不是來(lái)自遠(yuǎn)程操作。

研究人員將機(jī)器人攝像頭中的圖像輸入,和機(jī)載麥克風(fēng)捕獲的語(yǔ)音中的文本轉(zhuǎn)錄到由 OpenAI 訓(xùn)練的,可以理解圖像和文本的多模態(tài)模型(VLM)中,由該模型處理對(duì)話的整個(gè)歷史記錄,得出語(yǔ)言響應(yīng),然后通過(guò)文本到語(yǔ)音的方式將其回復(fù)給人類。

同樣的模型,也負(fù)責(zé)決定在機(jī)器人上運(yùn)行哪些學(xué)習(xí)的閉環(huán)行為來(lái)完成給定的命令,將特定的神經(jīng)網(wǎng)絡(luò)權(quán)重加載到 GPU 上并執(zhí)行策略。

這也是為什么這個(gè)機(jī)器人,屬于「端到端」的機(jī)器人控制。從語(yǔ)言輸入開(kāi)始,模型接管了一切處理,直接輸出語(yǔ)言和行為結(jié)果,而不是中間輸出一些結(jié)果,再加載其他程序處理這些結(jié)果。

Figure 的機(jī)載攝像頭以 10hz 的頻率拍攝圖像,然后神經(jīng)網(wǎng)絡(luò)以 200hz 輸出 24 個(gè)自由度動(dòng)作。

Figure 的創(chuàng)始人提到,這代表機(jī)器人的速度已經(jīng)有顯著提高,開(kāi)始接近人類的速度。

圖片來(lái)源:Corey Lynch 的 X

OpenAI 的模型的多模態(tài)能力,是機(jī)器人可以與世界交互的關(guān)鍵,我們能夠從視頻中展示中看到許多類似的瞬間,比如:

描述一下它的周圍環(huán)境。

做出決定時(shí)使用常識(shí)推理。例如,「桌子上的盤子和杯子等餐具接下來(lái)很可能會(huì)進(jìn)入晾衣架」。

將「我餓了」等模棱兩可的高級(jí)請(qǐng)求轉(zhuǎn)化為一些適合上下文的行為,例如「遞給對(duì)方一個(gè)蘋果」。

用簡(jiǎn)單的英語(yǔ)描述 * 為什么 * 它會(huì)執(zhí)行特定的操作。例如,「這是我可以從桌子上為您提供的唯一可食用的物品」。

而模型能力的強(qiáng)大,使其還能夠擁有短期記憶,比如視頻中展示的「你能把它們放在那里嗎?」「它們」指的是什么?「那里」又在哪里?正確回答需要反思記憶的能力。

而具體的雙手動(dòng)作,可以分成兩步來(lái)理解:

首先,互聯(lián)網(wǎng)預(yù)訓(xùn)練模型對(duì)圖像和文本進(jìn)行常識(shí)推理,以得出高級(jí)計(jì)劃。如視頻中展示的:Figure 的人形機(jī)器人快速形成了兩個(gè)計(jì)劃:1)將杯子放在碗碟架上,2)將盤子放在碗碟架上。

其次,大模型以 200hz 的頻率生成的 24-DOF 動(dòng)作(手腕姿勢(shì)和手指關(guān)節(jié)角度),充當(dāng)高速「設(shè)定點(diǎn)(setpoint)」,供更高速率的全身控制器跟蹤。全身控制器確保安全、穩(wěn)定的動(dòng)力,如保持平衡。

所有行為均由神經(jīng)網(wǎng)絡(luò)視覺(jué)運(yùn)動(dòng) Transformer 策略驅(qū)動(dòng),將像素直接映射到動(dòng)作。

02.從 ChatGPT 到 Sora,再到機(jī)器人,OpenAI 想包攬「智能」這件事

2021 年夏天,OpenAI 悄悄關(guān)閉了其機(jī)器人團(tuán)隊(duì),當(dāng)時(shí),OpenAI 曾宣布無(wú)限期終止對(duì)機(jī)器人領(lǐng)域的探索,原因是缺乏訓(xùn)練機(jī)器人使用人工智能移動(dòng)和推理所需的數(shù)據(jù),導(dǎo)致研發(fā)受到阻礙。

但顯然,OpenAI 并沒(méi)有放下對(duì)這個(gè)領(lǐng)域的關(guān)注。

2023 年 3 月,正在一年前,極客公園報(bào)道了 OpenAI 投資了來(lái)自挪威的機(jī)器人制造商 1X Technologies。其副總裁正是我在文初提到的,認(rèn)為具身智能將會(huì)突然到來(lái)的 Eric Jang。

而無(wú)獨(dú)有偶,1X Technologies 的技術(shù)方向,也是端到端的神經(jīng)網(wǎng)絡(luò)對(duì)于機(jī)器人的控制。

而今年 3 月初,OpenAI 和其他投資人一起,參與了 Figure 的 B 輪融資,使其成立兩年,就達(dá)到了 26 億美金估值。

也正是在這一輪融資之后,OpenAI 宣布了與 Figure 的合作。

Figure 的創(chuàng)始人 Brett Adcock,是個(gè)「擅長(zhǎng)組局」的連續(xù)創(chuàng)業(yè)者,整個(gè)職業(yè)生涯中創(chuàng)立過(guò)至少 7 家公司,其中一家以 27 億美元的估值上市,一家被 1.1 億美元的價(jià)格收購(gòu)。

創(chuàng)建公司后,他招募到了研究科學(xué)家 Jerry Pratt 擔(dān)任首席技術(shù)官,前波士頓動(dòng)力 / 蘋果工程師 Michael Rose 擔(dān)任機(jī)器人控制主管。此次進(jìn)行分享的 AI 團(tuán)隊(duì)負(fù)責(zé)人 Corey Lynch,則原本是 Google Deepmind 的 AI 研究員。

Figure 宣布自己在電機(jī)、固件、熱量、電子產(chǎn)品、中間件操作系統(tǒng)、電池系統(tǒng)、執(zhí)行器傳感器、機(jī)械與結(jié)構(gòu)方面,都招募了硬核的設(shè)計(jì)人才。

公司的確進(jìn)展很快。在與 OpenAI 合作之前,已經(jīng)做出了不少成績(jī)。2024 年 1 月,F(xiàn)igure 01(Figure 的第一款人形機(jī)器人) 學(xué)會(huì)了做咖啡,公司稱,這背后引入了端到端神經(jīng)網(wǎng)絡(luò),機(jī)器人學(xué)會(huì)自己糾正錯(cuò)誤,訓(xùn)練時(shí)長(zhǎng)為 10 小時(shí)。

Figure 01 引入 AI 學(xué)會(huì)做咖啡 | 圖片來(lái)源:Figure

2 月,公司對(duì)外展示 Figure 01 的最新進(jìn)展,在視頻里,這個(gè)機(jī)器人已經(jīng)學(xué)會(huì)搬箱子,并運(yùn)送到傳送帶上,但速度只有人類的 16.7%。

甚至在商業(yè)化上,也已經(jīng)邁出了第一步:Figure 宣布與寶馬制造公司簽署商業(yè)協(xié)議,將 AI 和機(jī)器人技術(shù)整合到汽車生產(chǎn)中,部署在寶馬位于南卡羅來(lái)納州斯巴達(dá)堡的制造工廠。

而在今天的視頻展示推文中,F(xiàn)igure 宣布其目標(biāo)是訓(xùn)練一個(gè)世界模型,最終能夠賣出十億個(gè)級(jí)別的模型驅(qū)動(dòng)的人形機(jī)器人。

不過(guò),盡管 OpenAI 與 Figure 的合作進(jìn)展順暢,但看起來(lái) OpenAI 并未把寶壓在一家機(jī)器人公司。

北京時(shí)間 3 月 13 日,來(lái)自谷歌研究團(tuán)隊(duì)、加州大學(xué)伯克利分校、斯坦福大學(xué)教授等一群研究者新成立的一家機(jī)器人 AI 公司 Physical Intelligence,被彭博社爆料也拿到了 OpenAI 的融資。

毫無(wú)意外,該公司,也是研究未來(lái)能夠成為通用機(jī)器人系統(tǒng)的人工智能。

多頭下注機(jī)器人領(lǐng)域,13 天合作做出領(lǐng)先的機(jī)器人大模型,OpenAI 在機(jī)器人領(lǐng)域意圖為何,引人關(guān)注。

智能人形機(jī)器人,未來(lái)不止看馬斯克的了。

本文來(lái)自微信公眾號(hào):極客公園 (ID:geekpark),作者:Li Yuan

廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:機(jī)器人,openai

軟媒旗下網(wǎng)站: IT之家 最會(huì)買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會(huì)買 要知