GPT-4 識圖功能遲遲不開放,終于有人忍不住自己動手做了一個。
MiniGPT-4 來了,Demo 開放在線可玩。
傳一張海鮮大餐照片上去,就能直接獲得菜譜。
傳一張商品效果圖,就可以讓 AI 寫一篇帶貨文案。
手繪一個網(wǎng)頁,可以給出對應(yīng)的 HTML 代碼
除了生產(chǎn)力拉滿,也支持根據(jù)常識推理圖上內(nèi)容是否合理、解釋表情包為什么好笑,以及看截圖找電影等娛樂玩法。
可以說,GPT-4 發(fā)布時展示過的功能,MiniGPT-4 基本也都有了。
這下網(wǎng)友直接把 Demo 服務(wù)器擠爆,開發(fā)團(tuán)隊連開 4 臺備用服務(wù)器,都有幾十人在排隊。
不等 OpenAI 了,現(xiàn)在就能玩
除了研究團(tuán)隊給出的示例,網(wǎng)友也用 MiniGPT-4 玩出了各種花樣
有人上傳自己畫的畫,讓 AI 評價評價。
有人上傳一張從車道拍攝的飛機(jī)墜毀瞬間,讓 MiniGPT-4 盡可能詳細(xì)地描述,并思考自動駕駛 AI 能不能理解這個場面。
做到這么好的效果,MiniGPT-4 實(shí)現(xiàn)起來卻并不復(fù)雜。
把圖像編碼器與開源語言模型 Vicuna(小羊駝)整合起來,并且凍結(jié)了兩者的大部分參數(shù),只需要訓(xùn)練很少一部分。
傳統(tǒng)預(yù)訓(xùn)練階段,使用 4 張 A100 在 10 個小時內(nèi)就可完成,此時訓(xùn)練出來的 Vicuna 已能夠理解圖像,但生成能力受到很大影響。
為解決這個問題,團(tuán)隊讓 MiniGPT-4 與 ChatGPT 合作創(chuàng)建了 3500 個圖像文本的高質(zhì)量數(shù)據(jù)集,也一并開源。
用新的數(shù)據(jù)集微調(diào)可以顯著提高模型的生成可靠性和整體可用性,而且計算效率很高,使用單個 A100 只需要 7 分鐘。
并且團(tuán)隊正在準(zhǔn)備一個更輕量級的版本,部署起來只需要 23GB 顯存。
也就是消費(fèi)級顯卡中擁有 24GB 顯存的 3090 或 4090 就可以本地運(yùn)行了。
MiniGPT-4 開發(fā)團(tuán)隊來自 KAUST(沙特阿卜杜拉國王科技大學(xué)),包括 4 位華人成員和他們的導(dǎo)師 Mohamed Elhoseiny。
兩位正在讀博的共同一作還在 GitHub 頁面上特別標(biāo)注正在找工作。
有意向的公司要抓緊搶人了~
在線 Demo:
https://minigpt-4.github.io
開源代碼:
https://github.com/Vision-CAIR/MiniGPT-4
論文:
https://github.com/Vision-CAIR/MiniGPT-4/blob/main/MiniGPT_4.pdf
本文來自微信公眾號:量子位 (ID:QbitAI),作者:夢晨
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。