截胡 OpenAI，谷歌全模態(tài)模型首次解禁！Gemini 2.0 中文嘮嗑式 P 圖引動漫游戲圈關(guān)注

新智元 2025/3/13 15:05:53 責(zé)編：清源

評論：

OpenAI 的全模態(tài)模型沒來，谷歌的全模態(tài)圖像生成器倒是搶先上線了！Gemini 2.0 Flash 中上線的原生圖像生成功能，動動嘴就能 PS，還能輕松制作海報(bào)和表情包，動漫和漫畫圈已經(jīng)沸騰了。

就在剛剛，谷歌 Gemini 支持原生圖像生成功能了！這是谷歌首個向公眾發(fā)布的全模態(tài)圖像生成器。

現(xiàn)在，所有開發(fā)者都可以使用 Gemini 2.0 Flash 進(jìn)行原生圖像生成了，使用 Gemini API 和 Google AI Studio 中的實(shí)驗(yàn)版本即可。

截胡 OpenAI，谷歌全模態(tài)模型首次解禁！Gemini 2.0 中文嘮嗑式 P 圖引動漫游戲圈關(guān)注

全模態(tài)圖像生成器，跟其他 AI 生圖模型最大的區(qū)別在哪里？

因?yàn)樗陨砭邆涞某瑥?qiáng)推理能力，能結(jié)合現(xiàn)實(shí)世界的知識生成更符合上下文的圖像，理解更多細(xì)節(jié)，更遵循文化背景特征。

其中，全程都是由 Gemini 模型完成，無需調(diào)用其他模型，只需通過自然語言提示。

此外，傳統(tǒng)的 AI 生圖器需要分開處理文本和圖片，它則是能同時輸出文本和插圖，保持驚人的一致性。

真正的多模態(tài)能力：同時理解文字、圖像，以及二者聯(lián)系
理解世界知識：能做智能推理，結(jié)合現(xiàn)實(shí)世界知識生成準(zhǔn)確內(nèi)容
自然語言交互：僅用對話修改圖片，真正實(shí)現(xiàn)動嘴 PS

下面這張圖，就是用 Gemini 2.0 Flash 生成的，包括黑板上的文字。

此前很多圖像生成模型，都死在渲染長序列文本上，這個致命弱點(diǎn)，竟被它克服了。

截胡 OpenAI，谷歌全模態(tài)模型首次解禁！Gemini 2.0 中文嘮嗑式 P 圖引動漫游戲圈關(guān)注

有趣的是，其實(shí)第一個展示全模態(tài)圖像生成的是 OpenAI，比谷歌早了整整 8 個月。

而就在昨天，OpenAI 要發(fā)布第一個全模態(tài)模型的消息更是傳得沸沸揚(yáng)揚(yáng)，沒想到今天，竟是谷歌成功發(fā)布了第一個版本。

谷歌的這個新功能，可以根據(jù)上下文生成相關(guān)圖像，支持對話式編輯，還能在圖像中生成長文本。

比如，你只要動動嘴，告訴模型給牛角面包加點(diǎn)巧克力邊，啪的一下，它在對話框里立馬給你滿意的圖像。

截胡 OpenAI，谷歌全模態(tài)模型首次解禁！Gemini 2.0 中文嘮嗑式 P 圖引動漫游戲圈關(guān)注

跟它說：可以在桌子上加一些花嗎？它立刻給你在桌子上加上花瓶。

截胡 OpenAI，谷歌全模態(tài)模型首次解禁！Gemini 2.0 中文嘮嗑式 P 圖引動漫游戲圈關(guān)注

如果告訴它，自己不太滿意，更喜歡紅色郁金香，它能在幾秒內(nèi)立刻換成你滿意的圖像。

截胡 OpenAI，谷歌全模態(tài)模型首次解禁！Gemini 2.0 中文嘮嗑式 P 圖引動漫游戲圈關(guān)注

網(wǎng)友驚呼：太炸了

現(xiàn)在，我們終于有了原生圖像輸出功能，這樣圖像就能遵循智能的上下文了。

截胡 OpenAI，谷歌全模態(tài)模型首次解禁！Gemini 2.0 中文嘮嗑式 P 圖引動漫游戲圈關(guān)注

這個模型的真正厲害之處，就在于它真正能夠理解多模態(tài)的信息。

比如在這位網(wǎng)友的實(shí)測中，它就可以直接從 URL 解析 YouTube 視頻，給出內(nèi)容摘要，還是基于時間戳分析的。

截胡 OpenAI，谷歌全模態(tài)模型首次解禁！Gemini 2.0 中文嘮嗑式 P 圖引動漫游戲圈關(guān)注

手快的網(wǎng)友，已經(jīng)開始瘋狂實(shí)測了。

截胡 OpenAI，谷歌全模態(tài)模型首次解禁！Gemini 2.0 中文嘮嗑式 P 圖引動漫游戲圈關(guān)注

生成 30 歲的中年女性不同角度的兩張照片，一致性非常驚艷。

截胡 OpenAI，谷歌全模態(tài)模型首次解禁！Gemini 2.0 中文嘮嗑式 P 圖引動漫游戲圈關(guān)注

以后你想要的照片，想怎么 p 就怎么 p。

截胡 OpenAI，谷歌全模態(tài)模型首次解禁！Gemini 2.0 中文嘮嗑式 P 圖引動漫游戲圈關(guān)注

一輛小汽車、一個模特，拿著小汽車的廣告大片實(shí)時生成。

截胡 OpenAI，谷歌全模態(tài)模型首次解禁！Gemini 2.0 中文嘮嗑式 P 圖引動漫游戲圈關(guān)注

甚至，你還可以用 Gemini 來迭代圖像，創(chuàng)建任何游戲！

截胡 OpenAI，谷歌全模態(tài)模型首次解禁！Gemini 2.0 中文嘮嗑式 P 圖引動漫游戲圈關(guān)注

Gemini 2.0 Flash 的自畫像，有點(diǎn)意思。

截胡 OpenAI，谷歌全模態(tài)模型首次解禁！Gemini 2.0 中文嘮嗑式 P 圖引動漫游戲圈關(guān)注

有人表示，這個功能太酷了，自己手中的不少圖，將煥然一新。

截胡 OpenAI，谷歌全模態(tài)模型首次解禁！Gemini 2.0 中文嘮嗑式 P 圖引動漫游戲圈關(guān)注

左右滑動查看

有人說，谷歌的首個原生圖像生成功能，可能是今年最棒的發(fā)布之一。它的編輯過程和一致性如此簡潔，忍不住讓人期待何時能在 Gemini 上集成。

截胡 OpenAI，谷歌全模態(tài)模型首次解禁！Gemini 2.0 中文嘮嗑式 P 圖引動漫游戲圈關(guān)注

當(dāng)然，也有人實(shí)測后發(fā)現(xiàn)，有些情況下很難讓模型輸出不帶文字的圖片，即使嘗試了五六種不同的 prompt 也不行。

比如，讓它根據(jù)奧爾特曼昨天分享的 OpenAI 創(chuàng)意寫作模型寫的元小說，來創(chuàng)作一幅畫。

文字太多的話，它就失去了想象能力，只能輸出純文字。

截胡 OpenAI，谷歌全模態(tài)模型首次解禁！Gemini 2.0 中文嘮嗑式 P 圖引動漫游戲圈關(guān)注

小編親測了一下，結(jié)果也是如此。

截胡 OpenAI，谷歌全模態(tài)模型首次解禁！Gemini 2.0 中文嘮嗑式 P 圖引動漫游戲圈關(guān)注

對此，谷歌 Gemini 團(tuán)隊(duì)的研究者現(xiàn)身表示，會改進(jìn)這項(xiàng)功能，并且建議如果讓模型先以文本形式思考，可能會更好。

截胡 OpenAI，谷歌全模態(tài)模型首次解禁！Gemini 2.0 中文嘮嗑式 P 圖引動漫游戲圈關(guān)注

但好笑的是，「一只馬騎宇航員」這樣的圖像，它依然無法生成。

截胡 OpenAI，谷歌全模態(tài)模型首次解禁！Gemini 2.0 中文嘮嗑式 P 圖引動漫游戲圈關(guān)注

漫畫和動漫圈，沸騰了

這次，Gemini 2.0 Flash 直接攻陷了漫畫圈。

現(xiàn)在用它來生成漫畫，只需要動動嘴的功夫。

截胡 OpenAI，谷歌全模態(tài)模型首次解禁！Gemini 2.0 中文嘮嗑式 P 圖引動漫游戲圈關(guān)注

有網(wǎng)友嘗試后，發(fā)現(xiàn)自己根本停不下來。只需一個簡單的提示，就能進(jìn)行選擇性修改，而不會破壞整個圖像。

他激動地表示，「用它來制作漫畫和故事分鏡會變得非常輕松」。

截胡 OpenAI，谷歌全模態(tài)模型首次解禁！Gemini 2.0 中文嘮嗑式 P 圖引動漫游戲圈關(guān)注

給漫畫加個色，也是一句話的事兒。

截胡 OpenAI，谷歌全模態(tài)模型首次解禁！Gemini 2.0 中文嘮嗑式 P 圖引動漫游戲圈關(guān)注

就連漫畫角色的動作 —— 抬起手臂，也能用嘴完成。而且，輸出圖像與原圖保持了高度的一致性。

截胡 OpenAI，谷歌全模態(tài)模型首次解禁！Gemini 2.0 中文嘮嗑式 P 圖引動漫游戲圈關(guān)注

動漫圈的二次元們更是激動不已，有人驚呼，這是史上最佳動漫模型！

截胡 OpenAI，谷歌全模態(tài)模型首次解禁！Gemini 2.0 中文嘮嗑式 P 圖引動漫游戲圈關(guān)注

動漫創(chuàng)作的全流程，它都能依指示完成，比如把素描轉(zhuǎn)換為線稿；填充基礎(chǔ)色；添加一些柔和的陰影，光源位于左上角；添加一個室內(nèi)背景，使其與當(dāng)前的光源和陰影環(huán)境相匹配，使用合適的角度；調(diào)整為單色灰度，以符合輕小說插畫風(fēng)格等等。

截胡 OpenAI，谷歌全模態(tài)模型首次解禁！Gemini 2.0 中文嘮嗑式 P 圖引動漫游戲圈關(guān)注

更多的測試 demo，自己體會。

截胡 OpenAI，谷歌全模態(tài)模型首次解禁！Gemini 2.0 中文嘮嗑式 P 圖引動漫游戲圈關(guān)注

故事分鏡

Gemini 2.0 Flash 還可以支持文字 + 配圖輸出的形式，比如繪本、食譜之類的，它都能通通拿下。

有網(wǎng)友讓它去生成，一個「烏鴉喝水」的經(jīng)典故事。

截胡 OpenAI，谷歌全模態(tài)模型首次解禁！Gemini 2.0 中文嘮嗑式 P 圖引動漫游戲圈關(guān)注

從內(nèi)容到配圖，Gemini 2.0 Flash 對故事把控度，和現(xiàn)實(shí)邏輯，非常合理。

更驚艷的是，以下這些全部都是一次性輸出的。

截胡 OpenAI，谷歌全模態(tài)模型首次解禁！Gemini 2.0 中文嘮嗑式 P 圖引動漫游戲圈關(guān)注

還有網(wǎng)友讓 Gemini 2.0 解釋生命的意義，只用圖像回答。

截胡 OpenAI，谷歌全模態(tài)模型首次解禁！Gemini 2.0 中文嘮嗑式 P 圖引動漫游戲圈關(guān)注

模型一鏡到底，輸出了一大串圖像。網(wǎng)友表示，「事實(shí)上，大部分的寫作是不連貫的，讓這件事更加怪異」。

惡搞表情包

用 Gemini 2.0 Flash 制作表情包，也是一個不錯的選擇。

網(wǎng)友上傳一張照片后，要求它把人替換成吉卜力工作室風(fēng)格的狗，并配上一把機(jī)關(guān)槍。

Gemini 2.0 Flash 瞬間完成替換，像那么回事兒。

截胡 OpenAI，谷歌全模態(tài)模型首次解禁！Gemini 2.0 中文嘮嗑式 P 圖引動漫游戲圈關(guān)注

又或者，給 Hugging Face 抱抱臉加個胡子。

截胡 OpenAI，谷歌全模態(tài)模型首次解禁！Gemini 2.0 中文嘮嗑式 P 圖引動漫游戲圈關(guān)注

再比如，給經(jīng)典表情包，配上文字。

截胡 OpenAI，谷歌全模態(tài)模型首次解禁！Gemini 2.0 中文嘮嗑式 P 圖引動漫游戲圈關(guān)注

一個提示，完成多個編輯

更令人驚掉下巴的是，Gemini 2.0 Flash 還可以根據(jù)一個提示，完成圖像多處編輯。

沃頓商學(xué)院教授 Ethan Mollick 表示，如果你使用過 LLM 圖像生成器，你會知道它們很難控制：LLM 需要向一個獨(dú)立的圖像生成工具發(fā)送提示詞，而不是直接生成圖像。

而 Gemini 是首個公開發(fā)布的「完全多模態(tài)」LLM，能夠直接生成圖像。

截胡 OpenAI，谷歌全模態(tài)模型首次解禁！Gemini 2.0 中文嘮嗑式 P 圖引動漫游戲圈關(guān)注

下面這個例子中，是 Mollick 在一家本地手工藝品店拍的照片，提示中核心要求是 —— 把這本小冊子改成關(guān)于拿破侖的主題，子任務(wù)有多個：

將文本修改為「Napoleon Crochet」，字體保持不變。調(diào)整圖片，使其與拿破侖相關(guān)，同時保留白色括號和圖像中的其他元素。確保頭部朝向與原圖一致，圖片保持縱向格式。將價格更改為 $99.00。

看到 Gemini 2.0 Flash 生成的圖片后，他完全驚到了，并表示生成的藝術(shù)風(fēng)格竟然完全匹配。

截胡 OpenAI，谷歌全模態(tài)模型首次解禁！Gemini 2.0 中文嘮嗑式 P 圖引動漫游戲圈關(guān)注

原生圖像生成，四大亮點(diǎn)

去年 12 月，谷歌首次將 Gemini 2.0 Flash，向內(nèi)部測試者推出了原生圖像生成的功能。

經(jīng)過幾個月的優(yōu)化打磨，就在巴黎開發(fā)者日期間，正式向支持 Google AI Studio 所有地區(qū)開放。

開發(fā)者們可以通過這個平臺，選擇 Gemini 2.0 Flash 實(shí)驗(yàn)版本 ——gemini-2.0-flash-exp，或通過 Gemini API 即可上手新功能。

截胡 OpenAI，谷歌全模態(tài)模型首次解禁！Gemini 2.0 中文嘮嗑式 P 圖引動漫游戲圈關(guān)注

如上測試中，不難看出，Gemini 2.0 Flash 是一款集多模態(tài)輸入、增強(qiáng)推理能力、自然語言理解于一身的模型，能夠直接生成圖像。

接下來，一起看看 Gemini 2.0 Flash 在多模態(tài)輸出上的幾大亮點(diǎn)：

1 文本與圖像結(jié)合

假設(shè)你正在創(chuàng)作一個奇幻冒險(xiǎn)的故事，只用文字描述情節(jié)，Gemini 2.0 Flash 就能自動生成與故事配套的插圖。

更厲害的是，它還能在整個故事中，保持角色和場景的一致性。

截胡 OpenAI，谷歌全模態(tài)模型首次解禁！Gemini 2.0 中文嘮嗑式 P 圖引動漫游戲圈關(guān)注

如果對插圖風(fēng)格、敘述方式不滿意，你可以直接給出反饋，Gemini 2.0 Flash 會根據(jù)你的意見重新調(diào)整故事，或優(yōu)化圖像。

2 對話式圖像編輯

傳統(tǒng)的圖像編輯，往往需要專業(yè)軟件和復(fù)雜的操作，而 Gemini 2.0 Flash 讓你通過自然語言對話，就能完成一切。

只要告訴它你的想法，模型就會實(shí)時調(diào)整，并在多輪對話中不斷優(yōu)化。

這種方式不僅適合快速迭代創(chuàng)意，還能幫助你在探索不同風(fēng)格時，節(jié)省大量的時間。

截胡 OpenAI，谷歌全模態(tài)模型首次解禁！Gemini 2.0 中文嘮嗑式 P 圖引動漫游戲圈關(guān)注

3 世界知識理解

與其他圖像生成模型不同，Gemini 2.0 Flash 的獨(dú)特優(yōu)勢在于，融合了世界知識和增強(qiáng)推理能力。

這意味著，它不僅能生成美觀的圖像，還更符合現(xiàn)實(shí)邏輯。

比如，當(dāng)你讓它生成一份巧克力曲奇餅干食譜，并繪制插圖，Gemini 2.0 Flash 的表現(xiàn)著實(shí)令人驚艷。

截胡 OpenAI，谷歌全模態(tài)模型首次解禁！Gemini 2.0 中文嘮嗑式 P 圖引動漫游戲圈關(guān)注

當(dāng)然，作為語言模型，Gemini 2.0 Flash 并非絕對完美，偶爾需要稍作調(diào)整。

4 文本渲染

對于大多數(shù)圖像生成模型來說，準(zhǔn)確呈現(xiàn)長短文字一直是個難題 —— 要么格式混亂，要么字符模糊，甚至拼寫錯誤層出不窮。

但 Gemini 2.0 Flash 在這方面表現(xiàn)，非常搶眼。

內(nèi)部基準(zhǔn)測試表明，它在文本渲染上的性能，優(yōu)于主流競品。

不論是制作廣告、社交媒體帖子，甚至是邀請函，Gemini 2.0 Flash 都能清晰、準(zhǔn)確呈現(xiàn)文字內(nèi)容。

截胡 OpenAI，谷歌全模態(tài)模型首次解禁！Gemini 2.0 中文嘮嗑式 P 圖引動漫游戲圈關(guān)注

用 Gemini API 快速上手

現(xiàn)在，開發(fā)者可以直接通過 Gemini API 測試 Gemini 2.0 Flash 圖像生成模型了。

from google import genaifrom google.genai import types
client = genai.Client(api_key="GEMINI_API_KEY")
response = client.models.generate_content(model="gemini-2.0-flash-exp",contents=("Generate a story about a cute baby turtle in a 3d digital art style. ""For each scene, generate an image."),config=types.GenerateContentConfig(response_modalities=["Text", "Image"]),)

Gemini 團(tuán)隊(duì)研究人員為此還做了一個邀請廣大開發(fā)者適用的圖像，快點(diǎn)上手吧。

截胡 OpenAI，谷歌全模態(tài)模型首次解禁！Gemini 2.0 中文嘮嗑式 P 圖引動漫游戲圈關(guān)注

參考資料：

https://developers.googleblog.com/en/experiment-with-gemini-20-flash-native-image-generation/
https://x.com/OfficialLoganK/status/1899853465922175427

本文來自微信公眾號：新智元（ID：AI_era）

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

截胡 OpenAI，谷歌全模態(tài)模型首次解禁！Gemini 2.0 中文嘮嗑式 P 圖引動漫游戲圈關(guān)注

網(wǎng)友驚呼：太炸了

漫畫和動漫圈，沸騰了

故事分鏡

惡搞表情包

一個提示，完成多個編輯

原生圖像生成，四大亮點(diǎn)

相關(guān)文章

截胡 OpenAI，谷歌全模態(tài)模型首次解禁！Gemini 2.0 中文嘮嗑式 P 圖引動漫游戲圈關(guān)注

漫畫和動漫圈，沸騰了

原生圖像生成，四大亮點(diǎn)