首頁 > 科學(xué)探索>科技前沿

首個 GPT-4 驅(qū)動的人形機(jī)器人！無需編程 + 零樣本學(xué)習(xí)，還可根據(jù)口頭反饋調(diào)整行為

量子位 2023/12/13 15:15:17 責(zé)編：遠(yuǎn)洋

評論：

讓 GPT-4 操縱人形機(jī)器人，事先不做任何編程 or 訓(xùn)練，能搞成啥樣兒？

答案是：太獵奇了！

這不，要求機(jī)器人表演“在昏暗電影院里狂炫爆米花，卻突然發(fā)現(xiàn)吃的是隔壁陌生人的??”。

在 GPT-4 的操縱下，機(jī)器人笑容凝固，“尷尬”地?fù)u頭扶額后仰：

首個 GPT-4 驅(qū)動的人形機(jī)器人！無需編程 + 零樣本學(xué)習(xí)，還可根據(jù)口頭反饋調(diào)整行為

但在尷尬之余，竟然還不忘再抓一把塞嘴里？？？

又像是要求機(jī)器人“彈吉他”。

GPT-4 略思考一番，開始操控機(jī)器人活動一番手指、隨后瘋狂甩頭，好像是有點搖滾內(nèi)味兒。

但仔細(xì)一看，甩頭的時候，手指就完全不動了……

首個 GPT-4 驅(qū)動的人形機(jī)器人！無需編程 + 零樣本學(xué)習(xí)，還可根據(jù)口頭反饋調(diào)整行為

你要說這是神叨叨的地攤先生在掐指一算，好像也沒什么不對（手動狗頭）。

總結(jié)一系列動作來看 ——

相比波士頓動力人形機(jī)器人，一舉一動均由人為程序精細(xì)操縱，這個 GPT-4 直接操控的機(jī)器人，表情猙獰，動作詭異，但一切行為又符合 prompt 的要求。

首個 GPT-4 驅(qū)動的人形機(jī)器人！無需編程 + 零樣本學(xué)習(xí)，還可根據(jù)口頭反饋調(diào)整行為

這一連串 GPT-4 操控機(jī)器人的視頻 po 到網(wǎng)上后，不少網(wǎng)友直呼“恐怖谷效應(yīng)犯了”：

首個 GPT-4 驅(qū)動的人形機(jī)器人！無需編程 + 零樣本學(xué)習(xí)，還可根據(jù)口頭反饋調(diào)整行為

甚至嚇到了 20 年工齡的機(jī)器人技術(shù)專家：

這些動作讓我毛骨悚然。你自己看看這有美感嗎？

首個 GPT-4 驅(qū)動的人形機(jī)器人！無需編程 + 零樣本學(xué)習(xí)，還可根據(jù)口頭反饋調(diào)整行為

還有網(wǎng)友調(diào)侃：“看起來就像舞臺上的我一樣?！?/p>

首個 GPT-4 驅(qū)動的人形機(jī)器人！無需編程 + 零樣本學(xué)習(xí)，還可根據(jù)口頭反饋調(diào)整行為

但也有網(wǎng)友認(rèn)為，人形機(jī)器人能通過 GPT-4 來操縱，已經(jīng)是很不可思議的事情了。

首個 GPT-4 驅(qū)動的人形機(jī)器人！無需編程 + 零樣本學(xué)習(xí)，還可根據(jù)口頭反饋調(diào)整行為

原來，這是首個由 GPT-4 驅(qū)動人形機(jī)器人的研究，來自東京大學(xué)和日本 Alternative Machine 公司。

首個 GPT-4 驅(qū)動的人形機(jī)器人！無需編程 + 零樣本學(xué)習(xí)，還可根據(jù)口頭反饋調(diào)整行為

依靠這項研究，用戶無需事先給機(jī)器人編程，只需語言輸入、也就是動動嘴皮和 GPT-4 聊上一會兒，就能讓機(jī)器人根據(jù)指令完成行動。

一起來看看這項研究的更多細(xì)節(jié)和背后原理。

大模型 + 機(jī)器人的新嘗試

不編程，也不訓(xùn)練，拿 GPT-4 當(dāng)腦子，這個人形機(jī)器人 Alter3，還能做出哪些令人皺眉卻又合理的動作？

不如給個指令，讓 Alter3 假裝自己是個??吧！

它倒是也懂一秒入戲，張大嘴巴、雙手前伸。

但不知道為什么，微張的雙唇和空洞的眼神，讓人感覺它更像林正英都要直呼內(nèi)行的僵尸：

首個 GPT-4 驅(qū)動的人形機(jī)器人！無需編程 + 零樣本學(xué)習(xí)，還可根據(jù)口頭反饋調(diào)整行為

如果要求它自拍，Alter3 倒也當(dāng)場能來個懟臉大頭照。

就是不知道是被原相機(jī)里的自己丑到，他的表情并不享受，反而痛苦似地將自己眼睛閉了起來：

首個 GPT-4 驅(qū)動的人形機(jī)器人！無需編程 + 零樣本學(xué)習(xí)，還可根據(jù)口頭反饋調(diào)整行為

再來聽個搖滾，music 走起。

你說它頻頻點頭是在追隨節(jié)拍，一定沒錯；但你要說它是畢恭畢敬站在面前，說“啊對對對對對”，似乎也貼切極了（手動狗頭）：

首個 GPT-4 驅(qū)動的人形機(jī)器人！無需編程 + 零樣本學(xué)習(xí)，還可根據(jù)口頭反饋調(diào)整行為

在所有放出的視頻 demo 中，“喝茶”這個行為最不奇葩怪異，甚至像是在演我：

上班上到生無可戀的時候，喝茶就是這么要死不活的。要咱說，送到嘴邊了才張口，這茶不喝也罷。

首個 GPT-4 驅(qū)動的人形機(jī)器人！無需編程 + 零樣本學(xué)習(xí)，還可根據(jù)口頭反饋調(diào)整行為

作為人形機(jī)器人，Alter3 做出人類行為有點子搞笑，那…… 不如試試別的？

比如，演繹一條受到音樂感召后搖擺身姿的蛇：

看到了嗎，沒那么柔韌，但確實在盡它所能扭動軀干了，可以說是一條蛇的發(fā)癲版本.gif。

首個 GPT-4 驅(qū)動的人形機(jī)器人！無需編程 + 零樣本學(xué)習(xí)，還可根據(jù)口頭反饋調(diào)整行為

這么看下來，直接把人形機(jī)器人和 GPT-4 集成這件事，可以干，但美觀性屬實不太夠啊……

其實回顧一下，讓大模型和機(jī)器人結(jié)合這事兒，科學(xué)家研究者們今年已經(jīng)忙活了一整年。

不過，通常做法是做更多的訓(xùn)練，然后嘗試將圖像語言大模型的能力和知識遷移到機(jī)器人領(lǐng)域。

包括微軟的 ChatGPT for Robotics，谷歌的 PaLm-E、RT-1、RT-2，還有 VoxPoser、BoboCat 等眾多工作，都走的是這個路線。

其中，轟動一時的谷歌 RT（Robot Transformer）系列效果賊棒，但谷歌訓(xùn)練它就花了 17 個月，并收集 13 臺機(jī)器人的 13 萬條機(jī)器人專屬數(shù)據(jù) —— 一般團(tuán)隊很難有這個資金和精力。

年中，李飛飛團(tuán)隊的具身智能成果，則百尺竿頭更進(jìn)一步，通過將 LLM（大語言模型）+VLM（視覺語言模型）結(jié)合在一起，機(jī)器人與環(huán)境進(jìn)行交互的能力進(jìn)一步提升。

這種思路下，機(jī)器人完成任務(wù)無需額外數(shù)據(jù)和訓(xùn)練。

首個 GPT-4 驅(qū)動的人形機(jī)器人！無需編程 + 零樣本學(xué)習(xí)，還可根據(jù)口頭反饋調(diào)整行為

但是李飛飛團(tuán)隊給出 demo 里的硬件，本體還只是一個機(jī)械臂，今天我們介紹的研究中，實驗對象則是大模型界最強(qiáng)的 GPT-4，以及作為“身體”的 Alter3。

無論是 OpenAI 開發(fā)的 GPT-4，還是東京大學(xué)和日本“機(jī)器人之父”黑石浩聯(lián)合開發(fā)的人形機(jī)器人 Alter3，都是已有的研究成果。

這項研究的真正目的，是探索如何在不編程的情況下，用像 GPT-4 這樣的大模型控制人形機(jī)器人完成各種動作，以驗證 GPT-4 生成動作的能力、降低人機(jī)交互的復(fù)雜度。

依靠這一系列成果，Alter3 才能完成上面看到的各種各樣復(fù)雜動作（咱們先拋開完成度和觀賞性不提）。

首個 GPT-4 驅(qū)動的人形機(jī)器人！無需編程 + 零樣本學(xué)習(xí)，還可根據(jù)口頭反饋調(diào)整行為

還有一件事，那就是研究人員在集成 Alter3 和 GPT-4 時發(fā)現(xiàn)，即使給 Alter3 下同一個指令，Alter3 反饋的動作也不會每次都一樣。

經(jīng)過一番分析后，他們認(rèn)為，這與大語言模型本身的特點有關(guān)，即相同輸入可能對應(yīng)不同的輸出，但并不代表 GPT-4 無法很好地控制人形機(jī)器人。

例如，要求機(jī)器人“吃飯”，它可能前后兩次就會分別做出拿筷子吃飯和拿刀叉吃飯的不同動作。

那么，話又說回來，GPT-4 究竟是如何一接收到語句輸入，就知道要如何控制 Alter3 的呢？

關(guān)鍵靠 2 步提示詞

其實在接入 GPT-4 之前，Alter3 就是帶腦子（AI 神經(jīng)網(wǎng)絡(luò)）的，身上還帶著各種傳感器。

此前，Alter3 的行為主要靠其內(nèi)置的一顆 CPG（CentralPattern Generator，中樞模式發(fā)生器）來對傳感器傳來的數(shù)據(jù)做出分析，然后按一定順序驅(qū)動體內(nèi)的 43 個氣動裝置，完成相應(yīng)動作。

整個過程中往往需要人為介入，打點補(bǔ)丁，從而進(jìn)行一些改進(jìn)。

But！現(xiàn)在一切都不一樣了，研究團(tuán)隊稱 GPT-4 的集成讓他們“解脫了”。

現(xiàn)在能實現(xiàn)用口頭指令來指揮 Alter3，背后技術(shù)主要是這倆：

CoT （思維鏈），以及 zero-shot （零樣本學(xué)習(xí)）。

首個 GPT-4 驅(qū)動的人形機(jī)器人！無需編程 + 零樣本學(xué)習(xí)，還可根據(jù)口頭反饋調(diào)整行為

依托這兩項技術(shù)，對 Alter3 的控制不再完全依賴硬件本身，而是能夠用 GPT-4 直接將自然語言轉(zhuǎn)換成機(jī)器人可理解并執(zhí)行的動作。

最最重要的是，整個流程無需對任何一個身體部位進(jìn)行明確編程。

首個 GPT-4 驅(qū)動的人形機(jī)器人！無需編程 + 零樣本學(xué)習(xí)，還可根據(jù)口頭反饋調(diào)整行為

好了，現(xiàn)在來具體講講把 GPT-4 和 Alter3 集成到一起，是如何實現(xiàn)的。

大體可以分為兩個步驟：

首先，先用 prompt 描述一下，想要 Alter3 能夠完成什么行為或者動作，比如“咱來張自拍吧”“自拍的時候胳膊再舉高一點”。

接收到輸入的 GPT-4 會生成一系列的思考步驟，這些步驟詳細(xì)地闡述了要完成這個動作，需要先后完成些啥。

這個過程被研究團(tuán)隊稱為 CoT 的一部分，即將一個復(fù)雜任務(wù)分解為一串更簡單的思考步驟。

然后，研究者們再祭出另一個 prompt，把分解后的詳細(xì)步驟轉(zhuǎn)化為 Alter3 可以聽懂的動作指令。

簡單理解就是把人們的指令描述轉(zhuǎn)化為 Python 代碼，這些代碼可以直接用來控制 Alter3 的各個身體部位的具體運(yùn)動參數(shù)。

有了轉(zhuǎn)化后的代碼，Alter3 想擠眉弄眼就擠眉弄眼，想撇嘴就能撇嘴

首個 GPT-4 驅(qū)動的人形機(jī)器人！無需編程 + 零樣本學(xué)習(xí)，還可根據(jù)口頭反饋調(diào)整行為

。

研究團(tuán)隊把這第二步也看成 CoT 的一部分，因為它完成的是“把一個抽象描述轉(zhuǎn)化為具體操作”。

首個 GPT-4 驅(qū)動的人形機(jī)器人！無需編程 + 零樣本學(xué)習(xí)，還可根據(jù)口頭反饋調(diào)整行為

團(tuán)隊表示，CoT 讓 GPT-4 能夠有效控制 Alter3，命令它做各種復(fù)雜動作，且不用額外的訓(xùn)練或者微調(diào)。

多說兩句，除了上述的兩個 Prompt 搞定機(jī)器人控制外，研究團(tuán)隊還順手完成了一些其它研究。

比如掰開了看 Alter3 在對話中的行為，主要針對其對話軌跡和語義時間演化。

針對對話軌跡，研究團(tuán)隊使用了一種叫 UMAP（Uniform Manifold Approximation and Projection）的方法。團(tuán)隊把對話內(nèi)容嵌入二維空間，從而方便觀察這個簡化版的對話發(fā)展過程。

他們發(fā)現(xiàn)，當(dāng)對話順序固定時，對話軌跡會呈現(xiàn)循環(huán)模式，也就是老在重復(fù)同樣的話題。

而當(dāng)對話順序隨機(jī)時，對話內(nèi)容更有發(fā)散性 or 創(chuàng)造性。

賊有趣的一點，研究發(fā)現(xiàn) GPT-4 聊久了過后，會傾向于反復(fù)說“再見”。如果你不來點兒人為干預(yù)，它就會沉迷于想辦法跟你說再見。

首個 GPT-4 驅(qū)動的人形機(jī)器人！無需編程 + 零樣本學(xué)習(xí)，還可根據(jù)口頭反饋調(diào)整行為

而做語義時間演化分析的過程中，團(tuán)隊觀察了隨著時間變化，聊天內(nèi)容的變化。

他們發(fā)現(xiàn)，對話初期的一些關(guān)鍵詞，比如“藝術(shù)”或者“學(xué)習(xí)”啥的，會聊著聊著就被 GPT-4 忘了，取而代之的是諸如“文化”“人類”“抑制”之類的詞。

這表明對話內(nèi)容是在逐漸發(fā)展變化的。

當(dāng)然，如果你開始跟 GPT-4 說“再見”，它就幾乎一心一意只想跟你說 byebye～（doge）

來自東京大學(xué)

這項火爆全網(wǎng)的研究，來自東京大學(xué)和日本 Alternative Machine 公司。

一作 Takahide Yoshida，來自東京大學(xué)通用系統(tǒng)科學(xué)系。

另外兩位作者升森敦士（Atsushi Masumori）和池上高志（Takashi Ikegami），都是既在東京大學(xué)，又屬于 Alternative Machine 公司。

首個 GPT-4 驅(qū)動的人形機(jī)器人！無需編程 + 零樣本學(xué)習(xí)，還可根據(jù)口頭反饋調(diào)整行為

最后，不得不提到本次研究內(nèi)容的主人公 Alter3，它的幕后研究者也來自東京大學(xué)，由東京大學(xué) AI 研究學(xué)者池上高志和日本“機(jī)器人之父”黑石浩聯(lián)袂打造。

Alter3 出生于 2020 年，是同系列機(jī)器人第三代產(chǎn)品。

據(jù)了解，Alter 系列的兩次迭代都是在歌劇演唱中完成的。第 3 代的初亮相就是在東京新國立劇場指揮管弦樂隊并參加其他現(xiàn)場表演。

首個 GPT-4 驅(qū)動的人形機(jī)器人！無需編程 + 零樣本學(xué)習(xí)，還可根據(jù)口頭反饋調(diào)整行為

那個時候它的特色是增強(qiáng)了傳感器，并改善了唱歌的表達(dá)能力和發(fā)聲系統(tǒng)。

以及身體里那粒能夠最終驅(qū)動 43 個氣動裝置的 CPG。

CPG 對數(shù)據(jù)的分析靈敏到什么程度呢？就是如果 Alter3 呆的房間里如果溫度驟降，Alter3 會因此打個冷顫，表示自己有被冷到。

這或許也為現(xiàn)在接入 GPT-4 當(dāng)腦子后的它，能夠活靈活現(xiàn)做表情、完成動作提供了一些基礎(chǔ)吧。

One More Thing

說起人形機(jī)器人的最新消息，一定要提老馬家特斯拉擎天柱 Optimus 的最新動態(tài)：

就在剛剛，馬斯克突然在推特發(fā)布了 Optimus 的視頻，表示 Optimus 第二代機(jī)器人（Gen 2）將在本月發(fā)布。

一點點“微小”的進(jìn)步是二代 Optimus 步行速度提升了 30%。

首個 GPT-4 驅(qū)動的人形機(jī)器人！無需編程 + 零樣本學(xué)習(xí)，還可根據(jù)口頭反饋調(diào)整行為

平衡感和身體控制能力也有所改善。

首個 GPT-4 驅(qū)動的人形機(jī)器人！無需編程 + 零樣本學(xué)習(xí)，還可根據(jù)口頭反饋調(diào)整行為

一把子期待住了！

首個 GPT-4 驅(qū)動的人形機(jī)器人！無需編程 + 零樣本學(xué)習(xí)，還可根據(jù)口頭反饋調(diào)整行為

參考鏈接：

[1]https://tnoinkwms.github.io/ALTER-LLM/
[2]https://arxiv.org/abs/2312.06571
[3]https://twitter.com/elonmusk/status/1734763060244386074

本文來自微信公眾號：量子位（ID：QbitAI），作者：衡宇蕭簫

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

首個 GPT-4 驅(qū)動的人形機(jī)器人！無需編程 + 零樣本學(xué)習(xí)，還可根據(jù)口頭反饋調(diào)整行為

大模型 + 機(jī)器人的新嘗試

關(guān)鍵靠 2 步提示詞

來自東京大學(xué)

One More Thing

相關(guān)文章

首個 GPT-4 驅(qū)動的人形機(jī)器人！無需編程 + 零樣本學(xué)習(xí)，還可根據(jù)口頭反饋調(diào)整行為