設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

蘋果 Vision Pro 頭顯 AI 助手來襲:會(huì)調(diào)酒、能打麻將,甚至能開飛機(jī)

量子位 2023/6/12 12:15:04 責(zé)編:夢(mèng)澤

要是蘋果 Vision Pro 頭顯加上 AI 助手,有多強(qiáng)?

南洋理工大學(xué)與微軟雷蒙德研究所帶來一個(gè)震撼概念演示。

人在飛機(jī)上,不知道怎么降落?帶上頭顯把畫面?zhèn)鹘o AI,就能一步一步你操作。

這個(gè)多模態(tài) AI 助手名叫 Otter(水獺),以視頻為輸入,能完成多模態(tài)感知、推理、和上下文學(xué)習(xí),也經(jīng)過專門的遵循指令訓(xùn)練。

更貼近生活一些的場(chǎng)景,在麻將桌上,Otter 分分鐘教你胡幾次大的。

而當(dāng)你鍛煉身體時(shí),Otter 可以充當(dāng)你的計(jì)數(shù)器。

調(diào)酒師小哥忘記配方時(shí),也能分分鐘化解尷尬。

總之,它可以實(shí)時(shí)識(shí)別現(xiàn)實(shí)場(chǎng)景并回答人類提問,而且簡(jiǎn)直就是個(gè)全能選手。

Otter 一共支持八種語言,中文也包括在內(nèi)。

訓(xùn)練過程中,團(tuán)隊(duì)專門使用了適用于 AR 頭顯的第一視角視頻,宣傳上也明示就是為蘋果頭顯準(zhǔn)備的。

不過也有網(wǎng)友發(fā)現(xiàn)了華點(diǎn)。

結(jié)果,Otter 在各測(cè)試項(xiàng)目上的平均成績(jī)比傳統(tǒng)的 MiniGPT-4、OpenFlamingo 等傳統(tǒng)模型高出十余個(gè)百分點(diǎn)。

如何實(shí)現(xiàn)

Otter 使用視覺識(shí)別模塊分析場(chǎng)景信息,并結(jié)合 ChatGPT 生成答案。

其中核心的視覺模塊是基于改進(jìn)版本的 LLaVA 進(jìn)行訓(xùn)練的。

Otter 整體的工作流程大概是這樣的:

首先要對(duì)視覺信息進(jìn)行處理,并結(jié)合系統(tǒng)信息生成 prompt。

生成好的 prompt 會(huì)被傳遞給 ChatGPT,得到指令-回應(yīng)數(shù)據(jù)。

這樣得到的答案再經(jīng)過一步篩選器篩選之后,由 ChatGPT 翻譯成用戶選擇的語言并輸出。

在主線流程之外,團(tuán)隊(duì)還引入了冷啟動(dòng)機(jī)制,用于發(fā)現(xiàn)數(shù)據(jù)庫中可用的情景實(shí)例。

接下來,讓我們看一下當(dāng)中最關(guān)鍵的環(huán)節(jié),也就是視覺信息的解釋。

為了訓(xùn)練 Otter,研究團(tuán)隊(duì)專門提出了 MultI-Modal In-Context Instruction Tuning(多模式場(chǎng)景下的指令調(diào)整)數(shù)據(jù)集。

MIMIC-IT 涵蓋了大量的現(xiàn)實(shí)生活場(chǎng)景,而且不同于傳統(tǒng)的 LLaVa 等只有一張圖片和語言描述的數(shù)據(jù)集,MIMIC-IT 包含多種模式。

Otter 中視覺識(shí)別模塊的訓(xùn)練大致分為一般場(chǎng)景第一人稱視角下的場(chǎng)景兩部分。

其中一般場(chǎng)景的識(shí)別又分為了四個(gè)步驟。

第一步是對(duì)場(chǎng)景化信息的學(xué)習(xí),這一部中使用的是經(jīng)過調(diào)整的 LLaVA 數(shù)據(jù)集。

對(duì)數(shù)據(jù)集中的每個(gè)指令-相應(yīng)組,團(tuán)隊(duì)都基于文字或圖片相似性為其檢索了是個(gè)場(chǎng)景化實(shí)例。

為了更好地適應(yīng)真實(shí)世界,下一步的訓(xùn)練主要是讓模型發(fā)現(xiàn)圖像之間的差別。

而這些差別又被分為了一般差別和微小差別兩種類型。

對(duì)于一般差別,通過 prompt 讓 ChatGPT 進(jìn)行圖像分析和物體檢測(cè)生成注釋。

而對(duì)于微小差別,則使用自然語言描述作為注釋。

擁有了發(fā)現(xiàn)差別的能力之后,就要讓模型嘗試著“講故事”了。

由于圖像注釋無法直觀反映時(shí)間線等要素,研究團(tuán)隊(duì)讓 ChatGPT 充當(dāng)觀眾并回答一系列問題。

每一個(gè)場(chǎng)景之中都包含圖像和對(duì)應(yīng)的指令-響應(yīng)組。

為了擴(kuò)展模型的視野,研究團(tuán)隊(duì)還讓它學(xué)習(xí)了包含大量說明的長(zhǎng)視頻片段。

說明信息包括視頻內(nèi)容、人的動(dòng)作和行為、事件發(fā)生的順序和因果關(guān)系等。

為了增強(qiáng)模型的社交推理能力和對(duì)人物復(fù)雜動(dòng)態(tài)行為的理解,研究團(tuán)隊(duì)最后把電視劇作為了訓(xùn)練材料。

介紹完一般場(chǎng)景,我們?cè)賮砜纯吹谝蝗朔Q場(chǎng)景又是如何分析的。

第一人稱場(chǎng)景既包括視覺上直觀看到的內(nèi)容,也包括觀察者的內(nèi)心感受。

研究團(tuán)隊(duì)從 ScanNetv2 數(shù)據(jù)集中搜集了一些場(chǎng)景并進(jìn)行采樣,轉(zhuǎn)化為多個(gè)第一人稱視角的二維視覺信息。

研究團(tuán)隊(duì)還讓 ChatGPT 基于隱式設(shè)定的人物性格指導(dǎo)人類的行為,為模型生成訓(xùn)練數(shù)據(jù)。

作者簡(jiǎn)介

研究團(tuán)隊(duì)的成員主要來自南洋理工大學(xué) S 實(shí)驗(yàn)室,第一作者是該實(shí)驗(yàn)室的博士生李博。

2017 年,李博獲得中國(guó)大學(xué)生編程比賽銀獎(jiǎng)。

2018 年至今,李博先后在滴滴、英偉達(dá)、微軟等機(jī)構(gòu)先后從事研究工作。

李博的導(dǎo)師劉子緯助理教授是本文的通訊作者。

此外,微軟雷蒙德研究院首席研究員 Chunyuan Li 也參與了本項(xiàng)目。

Otter 的介紹視頻在B站也有發(fā)布。

在線體驗(yàn):

https://otter.cliangyu.com/

論文地址:

https://arxiv.org/abs/2306.05425

GitHub 頁面:

https://github.com/Luodian/Otter

本文來自微信公眾號(hào):量子位 (ID:QbitAI),作者:克雷西

廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:Vision Pro人工智能

軟媒旗下網(wǎng)站: IT之家 最會(huì)買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會(huì)買 要知