迷你 GPT-4 搶跑看圖聊天：OpenAI 有的它都有，服務(wù)器已被擠爆

量子位 2023/4/20 12:52:07 責(zé)編：夢澤

評論：

GPT-4 識圖功能遲遲不開放，終于有人忍不住自己動手做了一個。

MiniGPT-4 來了，Demo 開放在線可玩。

傳一張海鮮大餐照片上去，就能直接獲得菜譜。

迷你 GPT-4 搶跑看圖聊天：OpenAI 有的它都有，服務(wù)器已被擠爆

傳一張商品效果圖，就可以讓 AI 寫一篇帶貨文案。

迷你 GPT-4 搶跑看圖聊天：OpenAI 有的它都有，服務(wù)器已被擠爆

手繪一個網(wǎng)頁，可以給出對應(yīng)的 HTML 代碼

迷你 GPT-4 搶跑看圖聊天：OpenAI 有的它都有，服務(wù)器已被擠爆

除了生產(chǎn)力拉滿，也支持根據(jù)常識推理圖上內(nèi)容是否合理、解釋表情包為什么好笑，以及看截圖找電影等娛樂玩法。

迷你 GPT-4 搶跑看圖聊天：OpenAI 有的它都有，服務(wù)器已被擠爆

可以說，GPT-4 發(fā)布時展示過的功能，MiniGPT-4 基本也都有了。

這下網(wǎng)友直接把 Demo 服務(wù)器擠爆，開發(fā)團(tuán)隊連開 4 臺備用服務(wù)器，都有幾十人在排隊。

迷你 GPT-4 搶跑看圖聊天：OpenAI 有的它都有，服務(wù)器已被擠爆

不等 OpenAI 了，現(xiàn)在就能玩

除了研究團(tuán)隊給出的示例，網(wǎng)友也用 MiniGPT-4 玩出了各種花樣

有人上傳自己畫的畫，讓 AI 評價評價。

迷你 GPT-4 搶跑看圖聊天：OpenAI 有的它都有，服務(wù)器已被擠爆

有人上傳一張從車道拍攝的飛機(jī)墜毀瞬間，讓 MiniGPT-4 盡可能詳細(xì)地描述，并思考自動駕駛 AI 能不能理解這個場面。

迷你 GPT-4 搶跑看圖聊天：OpenAI 有的它都有，服務(wù)器已被擠爆

做到這么好的效果，MiniGPT-4 實(shí)現(xiàn)起來卻并不復(fù)雜。

把圖像編碼器與開源語言模型 Vicuna（小羊駝）整合起來，并且凍結(jié)了兩者的大部分參數(shù)，只需要訓(xùn)練很少一部分。

傳統(tǒng)預(yù)訓(xùn)練階段，使用 4 張 A100 在 10 個小時內(nèi)就可完成，此時訓(xùn)練出來的 Vicuna 已能夠理解圖像，但生成能力受到很大影響。

為解決這個問題，團(tuán)隊讓 MiniGPT-4 與 ChatGPT 合作創(chuàng)建了 3500 個圖像文本的高質(zhì)量數(shù)據(jù)集，也一并開源。

用新的數(shù)據(jù)集微調(diào)可以顯著提高模型的生成可靠性和整體可用性，而且計算效率很高，使用單個 A100 只需要 7 分鐘。

迷你 GPT-4 搶跑看圖聊天：OpenAI 有的它都有，服務(wù)器已被擠爆

并且團(tuán)隊正在準(zhǔn)備一個更輕量級的版本，部署起來只需要 23GB 顯存。

也就是消費(fèi)級顯卡中擁有 24GB 顯存的 3090 或 4090 就可以本地運(yùn)行了。

MiniGPT-4 開發(fā)團(tuán)隊來自 KAUST（沙特阿卜杜拉國王科技大學(xué)），包括 4 位華人成員和他們的導(dǎo)師 Mohamed Elhoseiny。

迷你 GPT-4 搶跑看圖聊天：OpenAI 有的它都有，服務(wù)器已被擠爆

兩位正在讀博的共同一作還在 GitHub 頁面上特別標(biāo)注正在找工作。

有意向的公司要抓緊搶人了～

在線 Demo：

https://minigpt-4.github.io

開源代碼：

https://github.com/Vision-CAIR/MiniGPT-4

論文：

https://github.com/Vision-CAIR/MiniGPT-4/blob/main/MiniGPT_4.pdf

本文來自微信公眾號：量子位（ID：QbitAI），作者：夢晨

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。