設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

迷你 GPT-4 搶跑看圖聊天:OpenAI 有的它都有,服務(wù)器已被擠爆

量子位 2023/4/20 12:52:07 責(zé)編:夢澤

GPT-4 識圖功能遲遲不開放,終于有人忍不住自己動手做了一個。

MiniGPT-4 來了,Demo 開放在線可玩。

傳一張海鮮大餐照片上去,就能直接獲得菜譜。

傳一張商品效果圖,就可以讓 AI 寫一篇帶貨文案。

手繪一個網(wǎng)頁,可以給出對應(yīng)的 HTML 代碼

除了生產(chǎn)力拉滿,也支持根據(jù)常識推理圖上內(nèi)容是否合理、解釋表情包為什么好笑,以及看截圖找電影等娛樂玩法。

可以說,GPT-4 發(fā)布時展示過的功能,MiniGPT-4 基本也都有了。

這下網(wǎng)友直接把 Demo 服務(wù)器擠爆,開發(fā)團(tuán)隊連開 4 臺備用服務(wù)器,都有幾十人在排隊。

不等 OpenAI 了,現(xiàn)在就能玩

除了研究團(tuán)隊給出的示例,網(wǎng)友也用 MiniGPT-4 玩出了各種花樣

有人上傳自己畫的畫,讓 AI 評價評價。

有人上傳一張從車道拍攝的飛機(jī)墜毀瞬間,讓 MiniGPT-4 盡可能詳細(xì)地描述,并思考自動駕駛 AI 能不能理解這個場面。

做到這么好的效果,MiniGPT-4 實(shí)現(xiàn)起來卻并不復(fù)雜。

把圖像編碼器與開源語言模型 Vicuna(小羊駝)整合起來,并且凍結(jié)了兩者的大部分參數(shù),只需要訓(xùn)練很少一部分。

傳統(tǒng)預(yù)訓(xùn)練階段,使用 4 張 A100 在 10 個小時內(nèi)就可完成,此時訓(xùn)練出來的 Vicuna 已能夠理解圖像,但生成能力受到很大影響。

為解決這個問題,團(tuán)隊讓 MiniGPT-4 與 ChatGPT 合作創(chuàng)建了 3500 個圖像文本的高質(zhì)量數(shù)據(jù)集,也一并開源。

用新的數(shù)據(jù)集微調(diào)可以顯著提高模型的生成可靠性和整體可用性,而且計算效率很高,使用單個 A100 只需要 7 分鐘。

并且團(tuán)隊正在準(zhǔn)備一個更輕量級的版本,部署起來只需要 23GB 顯存。

也就是消費(fèi)級顯卡中擁有 24GB 顯存的 3090 或 4090 就可以本地運(yùn)行了。

MiniGPT-4 開發(fā)團(tuán)隊來自 KAUST(沙特阿卜杜拉國王科技大學(xué)),包括 4 位華人成員和他們的導(dǎo)師 Mohamed Elhoseiny。

兩位正在讀博的共同一作還在 GitHub 頁面上特別標(biāo)注正在找工作。

有意向的公司要抓緊搶人了~

在線 Demo:

https://minigpt-4.github.io

開源代碼:

https://github.com/Vision-CAIR/MiniGPT-4

論文:

https://github.com/Vision-CAIR/MiniGPT-4/blob/main/MiniGPT_4.pdf

本文來自微信公眾號:量子位 (ID:QbitAI),作者:夢晨

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:人工智能

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會買 要知