首頁 > 科學(xué)探索>科技前沿

蘋果 Vision Pro 頭顯 AI 助手來襲：會調(diào)酒、能打麻將，甚至能開飛機

量子位 2023/6/12 12:15:04 責(zé)編：夢澤

評論：

要是蘋果 Vision Pro 頭顯加上 AI 助手，有多強？

南洋理工大學(xué)與微軟雷蒙德研究所帶來一個震撼概念演示。

人在飛機上，不知道怎么降落？帶上頭顯把畫面?zhèn)鹘o AI，就能一步一步你操作。

蘋果 Vision Pro 頭顯 AI 助手來襲：會調(diào)酒、能打麻將，甚至能開飛機

這個多模態(tài) AI 助手名叫 Otter（水獺），以視頻為輸入，能完成多模態(tài)感知、推理、和上下文學(xué)習(xí)，也經(jīng)過專門的遵循指令訓(xùn)練。

更貼近生活一些的場景，在麻將桌上，Otter 分分鐘教你胡幾次大的。

蘋果 Vision Pro 頭顯 AI 助手來襲：會調(diào)酒、能打麻將，甚至能開飛機

而當(dāng)你鍛煉身體時，Otter 可以充當(dāng)你的計數(shù)器。

蘋果 Vision Pro 頭顯 AI 助手來襲：會調(diào)酒、能打麻將，甚至能開飛機

調(diào)酒師小哥忘記配方時，也能分分鐘化解尷尬。

蘋果 Vision Pro 頭顯 AI 助手來襲：會調(diào)酒、能打麻將，甚至能開飛機

總之，它可以實時識別現(xiàn)實場景并回答人類提問，而且簡直就是個全能選手。

蘋果 Vision Pro 頭顯 AI 助手來襲：會調(diào)酒、能打麻將，甚至能開飛機

Otter 一共支持八種語言，中文也包括在內(nèi)。

蘋果 Vision Pro 頭顯 AI 助手來襲：會調(diào)酒、能打麻將，甚至能開飛機

訓(xùn)練過程中，團隊專門使用了適用于 AR 頭顯的第一視角視頻，宣傳上也明示就是為蘋果頭顯準(zhǔn)備的。

蘋果 Vision Pro 頭顯 AI 助手來襲：會調(diào)酒、能打麻將，甚至能開飛機

不過也有網(wǎng)友發(fā)現(xiàn)了華點。

蘋果 Vision Pro 頭顯 AI 助手來襲：會調(diào)酒、能打麻將，甚至能開飛機

結(jié)果，Otter 在各測試項目上的平均成績比傳統(tǒng)的 MiniGPT-4、OpenFlamingo 等傳統(tǒng)模型高出十余個百分點。

如何實現(xiàn)

Otter 使用視覺識別模塊分析場景信息，并結(jié)合 ChatGPT 生成答案。

其中核心的視覺模塊是基于改進(jìn)版本的 LLaVA 進(jìn)行訓(xùn)練的。

Otter 整體的工作流程大概是這樣的：

首先要對視覺信息進(jìn)行處理，并結(jié)合系統(tǒng)信息生成 prompt。

生成好的 prompt 會被傳遞給 ChatGPT，得到指令-回應(yīng)數(shù)據(jù)。

這樣得到的答案再經(jīng)過一步篩選器篩選之后，由 ChatGPT 翻譯成用戶選擇的語言并輸出。

在主線流程之外，團隊還引入了冷啟動機制，用于發(fā)現(xiàn)數(shù)據(jù)庫中可用的情景實例。

蘋果 Vision Pro 頭顯 AI 助手來襲：會調(diào)酒、能打麻將，甚至能開飛機

接下來，讓我們看一下當(dāng)中最關(guān)鍵的環(huán)節(jié)，也就是視覺信息的解釋。

為了訓(xùn)練 Otter，研究團隊專門提出了 MultI-Modal In-Context Instruction Tuning（多模式場景下的指令調(diào)整）數(shù)據(jù)集。

MIMIC-IT 涵蓋了大量的現(xiàn)實生活場景，而且不同于傳統(tǒng)的 LLaVa 等只有一張圖片和語言描述的數(shù)據(jù)集，MIMIC-IT 包含多種模式。

蘋果 Vision Pro 頭顯 AI 助手來襲：會調(diào)酒、能打麻將，甚至能開飛機

Otter 中視覺識別模塊的訓(xùn)練大致分為一般場景和第一人稱視角下的場景兩部分。

其中一般場景的識別又分為了四個步驟。

第一步是對場景化信息的學(xué)習(xí)，這一部中使用的是經(jīng)過調(diào)整的 LLaVA 數(shù)據(jù)集。

對數(shù)據(jù)集中的每個指令-相應(yīng)組，團隊都基于文字或圖片相似性為其檢索了是個場景化實例。

蘋果 Vision Pro 頭顯 AI 助手來襲：會調(diào)酒、能打麻將，甚至能開飛機

為了更好地適應(yīng)真實世界，下一步的訓(xùn)練主要是讓模型發(fā)現(xiàn)圖像之間的差別。

而這些差別又被分為了一般差別和微小差別兩種類型。

對于一般差別，通過 prompt 讓 ChatGPT 進(jìn)行圖像分析和物體檢測生成注釋。

而對于微小差別，則使用自然語言描述作為注釋。

擁有了發(fā)現(xiàn)差別的能力之后，就要讓模型嘗試著“講故事”了。

由于圖像注釋無法直觀反映時間線等要素，研究團隊讓 ChatGPT 充當(dāng)觀眾并回答一系列問題。

每一個場景之中都包含圖像和對應(yīng)的指令-響應(yīng)組。

為了擴展模型的視野，研究團隊還讓它學(xué)習(xí)了包含大量說明的長視頻片段。

說明信息包括視頻內(nèi)容、人的動作和行為、事件發(fā)生的順序和因果關(guān)系等。

為了增強模型的社交推理能力和對人物復(fù)雜動態(tài)行為的理解，研究團隊最后把電視劇作為了訓(xùn)練材料。

蘋果 Vision Pro 頭顯 AI 助手來襲：會調(diào)酒、能打麻將，甚至能開飛機

介紹完一般場景，我們再來看看第一人稱場景又是如何分析的。

第一人稱場景既包括視覺上直觀看到的內(nèi)容，也包括觀察者的內(nèi)心感受。

研究團隊從 ScanNetv2 數(shù)據(jù)集中搜集了一些場景并進(jìn)行采樣，轉(zhuǎn)化為多個第一人稱視角的二維視覺信息。

研究團隊還讓 ChatGPT 基于隱式設(shè)定的人物性格指導(dǎo)人類的行為，為模型生成訓(xùn)練數(shù)據(jù)。

作者簡介

研究團隊的成員主要來自南洋理工大學(xué) S 實驗室，第一作者是該實驗室的博士生李博。

2017 年，李博獲得中國大學(xué)生編程比賽銀獎。

2018 年至今，李博先后在滴滴、英偉達(dá)、微軟等機構(gòu)先后從事研究工作。

李博的導(dǎo)師劉子緯助理教授是本文的通訊作者。

此外，微軟雷蒙德研究院首席研究員 Chunyuan Li 也參與了本項目。

Otter 的介紹視頻在B站也有發(fā)布。

在線體驗：

https://otter.cliangyu.com/

論文地址：

https://arxiv.org/abs/2306.05425

GitHub 頁面：

https://github.com/Luodian/Otter

本文來自微信公眾號：量子位（ID：QbitAI），作者：克雷西

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

蘋果 Vision Pro 頭顯 AI 助手來襲：會調(diào)酒、能打麻將，甚至能開飛機

如何實現(xiàn)

作者簡介

相關(guān)文章

蘋果 Vision Pro 頭顯 AI 助手來襲：會調(diào)酒、能打麻將，甚至能開飛機