如虎添翼，谷歌探索 AI + 機(jī)器人未來(lái)：836 平方米復(fù)雜場(chǎng)景下指令成功率高達(dá) 90%

2024/7/13 9:09:12 來(lái)源：IT之家作者：故淵責(zé)編：故淵

評(píng)論：

感謝IT之家網(wǎng)友咩咩洋的線索投遞！

IT之家 7 月 13 日消息，科技媒體 The Verge 昨日?qǐng)?bào)道，谷歌旗下的 DeepMind 團(tuán)隊(duì)正在使用 Gemini 訓(xùn)練其機(jī)器人，讓其能夠完成更復(fù)雜的任務(wù)，且能在復(fù)雜的環(huán)境下自由穿梭。

DeepMind 團(tuán)隊(duì)已經(jīng)發(fā)表了最新的研究論文，利用 Gemini 1.5 Pro 的上下文窗口（達(dá)到 200 萬(wàn)個(gè)詞元），讓用戶可以更輕松地使用自然語(yǔ)言指令與 RT-2 機(jī)器人互動(dòng)。

IT之家注：上下文窗口（context window）是指語(yǔ)言模型在進(jìn)行預(yù)測(cè)或生成文本時(shí)，所考慮的前一個(gè)詞元（token）或文本片段的大小范圍。

其工作原理是拍攝指定區(qū)域（如家庭或辦公空間）的視頻導(dǎo)覽，研究人員使用 Gemini 1.5 Pro 讓機(jī)器人“觀看”視頻以了解環(huán)境；然后，機(jī)器人可以根據(jù)觀察到的情況，通過語(yǔ)言和 / 或圖像輸出來(lái)執(zhí)行命令。

例如用戶向機(jī)器人展示一部手機(jī)，并詢問“在哪里可以充電？”，機(jī)器人會(huì)引導(dǎo)用戶找到室內(nèi)的電源插座。

DeepMind 稱，在一個(gè) 9000 平方英尺（IT之家備注：約 836.13 平方米）的操作區(qū)內(nèi)，機(jī)器人在升級(jí) Gemini 之后，測(cè)試發(fā)出 50 多條用戶指令，成功率高達(dá) 90%。

研究人員還發(fā)現(xiàn) "初步證據(jù)" 表明，Gemini 1.5 Pro 能讓機(jī)器人計(jì)劃如何完成導(dǎo)航以外的指令。

例如，當(dāng)一位桌上擺放著許多可樂罐的用戶詢問機(jī)器人是否有他們最喜歡的飲料時(shí)，Gemini “知道機(jī)器人應(yīng)該導(dǎo)航到冰箱，檢查是否有可樂，然后返回用戶處報(bào)告結(jié)果”。DeepMind 表示計(jì)劃進(jìn)一步研究這些結(jié)果。

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

如虎添翼，谷歌探索 AI + 機(jī)器人未來(lái)：836 平方米復(fù)雜場(chǎng)景下指令成功率高達(dá) 90%

相關(guān)文章