現(xiàn)在,AI 把“看視頻”這事玩出了新高度。
可以邊看視頻,邊和它聊天了!
例如這樣?jì)饍旱模?/p>
對于視頻中熊貓基本的信息,AI 可以對答如流。
甚至像“熊貓為什么舉起它的手”、“熊貓感覺怎么樣”這般意圖、情緒方面的問題,AI 也是可以做到。
再如下面這段視頻:
對于人物的性別、做的運(yùn)動,AI 也是可以輕松拿捏。
這就是來自通用視覺平臺 OpenGVLab(由上海人工智能實(shí)驗(yàn)室和商湯科技聯(lián)合打造)的最新項(xiàng)目 ——Ask-Anything。
不得不說,GPT-4 看圖說都還沒有開放,開源界就已經(jīng)整出看視頻聊天了。
也難怪網(wǎng)友對此直呼:
已經(jīng)跟不上 AI 發(fā)展的速度了。
在線可玩
目前 Ask-Anything 提供了在線可玩的 demo,操作也是非常的簡單。
只需要將視頻“拖拽”或“上傳”到頁面左上角的指定位置即可:
例如我們上傳一個(gè)段女子做瑜伽的視頻,AI 就會瞬間給出一個(gè)主題:瑜伽。
然后輸入 OpenAI 的 API,點(diǎn)擊“Watch it”,讓 AI 先看一下視頻;再點(diǎn)擊“Let’s Chat”就可以展開對話了。
例如問“她在做什么”,AI 就會說:
很抱歉之前沒有給出明確的回答。由于我不知道具體是哪個(gè)場景的視頻內(nèi)容,因此只給出了大致的描述:她似乎在做一個(gè)瑜伽姿勢。如果您有其他問題或需要更多幫助,請不要猶豫告訴我!
再追問“視頻拍攝于什么時(shí)候”:
根據(jù)我的分析和對該場景的觀察,我無法確定這個(gè)視頻的具體拍攝日期和時(shí)間。然而,我可以告訴您的是,如果它是在現(xiàn)代城市中拍攝的,那么很可能是為了表現(xiàn)城市風(fēng)光而進(jìn)行的攝影作品。不過如果有更多的背景信息和文本數(shù)據(jù)可用的話,也許可以更好地推斷出它的時(shí)間和地點(diǎn)。希望這可以幫助你得到更好的理解。
從結(jié)果上來看還是比較智能的。
至于背后的技術(shù),據(jù)官方介紹,Ask-Anything 目前支持 ChatGPT、miniGPT4 和 StableLM。
背后團(tuán)隊(duì)
該項(xiàng)目是由通用視覺開源平臺 OpenGCLab 所打造。
這個(gè)平臺是由上海人工智能實(shí)驗(yàn)室和商湯科技,于 2022 年 2 月發(fā)布并開源。
據(jù)了解,OpenGVLab 平臺是基于“書生”技術(shù)體系打造,在其支持下的 AI,能夠輕松看出打麻將、競速摩托、熊貓等復(fù)雜的圖片,置信度大大提高。
最后,demo 地址放下面了,感興趣的小伙伴可以上手體驗(yàn)了~
體驗(yàn)地址:
http://106.14.223.212:7860/
參考鏈接:
[1]https://github.com/OpenGVLab/Ask-Anything
[2]https://twitter.com/_akhaliq/status/1650151007022620676
本文來自微信公眾號:量子位 (ID:QbitAI),作者:金磊
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。