豆包視覺(jué)理解模型驚艷亮相：首次評(píng)測(cè)就排名全球第二

2024/12/23 14:50:02 來(lái)源：IT之家作者：汐元責(zé)編：汐元

評(píng)論：

12 月 18 日-19 日，火山引擎 FORCE 原動(dòng)力大會(huì)?冬正式在上海舉行。本次大會(huì)最引人關(guān)注的看點(diǎn)，無(wú)疑就是豆包大模型家族的全線升級(jí)，以及全新豆包視覺(jué)理解模型的發(fā)布。

豆包視覺(jué)理解模型擁有業(yè)界領(lǐng)先的內(nèi)容識(shí)別能力、理解和推理能力以及更細(xì)膩的視覺(jué)描述能力。它相當(dāng)于是給大模型加入了一雙眼睛，從而可以像人類(lèi)一樣認(rèn)識(shí)現(xiàn)實(shí)世界、理解現(xiàn)實(shí)世界。這無(wú)疑拓展了人類(lèi)與大模型交互的形式和應(yīng)用場(chǎng)景。

就在火山引擎 Force 大會(huì)后，智源研究院發(fā)布最新一期大模型評(píng)測(cè)結(jié)果，在視覺(jué)語(yǔ)言模型評(píng)測(cè)中，豆包視覺(jué)理解模型排名全球第二，成績(jī)僅次于 GPT-4o。特別是在中文的通用知識(shí)、文字識(shí)別中，豆包表現(xiàn)突出，相比國(guó)外模型有較大優(yōu)勢(shì)。

20241219161112

正如生物進(jìn)化出眼睛，是物種爆發(fā)過(guò)程中的一個(gè)關(guān)鍵因素，為 AI 加上雙眼的視覺(jué)理解大模型，也將為人工智能生態(tài)的豐富性和多樣化發(fā)展奠定基礎(chǔ)。

豆包視覺(jué)理解大模型，這些能力行業(yè)領(lǐng)先

分析了視覺(jué)理解對(duì)于大模型的重要性，我們?cè)倏催@次火山引擎發(fā)布的豆包視覺(jué)理解模型，其在各方面的領(lǐng)先性，則又是為視覺(jué)理解模型的發(fā)展探索到了新的天花板。

比如，首先豆包視覺(jué)理解大模型擁有更強(qiáng)的內(nèi)容識(shí)別能力，不僅可以識(shí)別圖像中的物體、形狀、類(lèi)別，要素，還能理解物體之間的關(guān)系、空間布局、和場(chǎng)景的整體含義。

比如在發(fā)布會(huì)的演示中，豆包視覺(jué)理解模型可以根據(jù)影子的形狀識(shí)別出這是什么動(dòng)物的影子，還能根據(jù)畫(huà)面中光線穿過(guò)薄霧的美麗景象判斷出這是丁達(dá)爾效應(yīng)，并且解釋背后的原理。此外我們生活中不太了解的物品，也可以通過(guò)豆包視覺(jué)理解模型進(jìn)行拍照識(shí)別，從而知道這是什么。

20241219103707

同時(shí)豆包視覺(jué)理解模型還擁有行業(yè)領(lǐng)先的 OCR 能力，可以實(shí)現(xiàn)圖片文本信息的精確提取與理解，包括純文本圖像的文字抽取、日常圖像的文字抽取以及表格圖像的內(nèi)容抽取等。

不僅如此，它還可以更好地基于指令進(jìn)行視覺(jué)內(nèi)容識(shí)別，并對(duì)中國(guó)傳統(tǒng)文化信息有更強(qiáng)的理解。

對(duì)視覺(jué)內(nèi)容的識(shí)別只是第一步，接下來(lái)，豆包視覺(jué)理解模型還具有更強(qiáng)的理解和推理能力。它可以輕松應(yīng)對(duì)更復(fù)雜的圖片推理任務(wù)，模型在表格圖像、數(shù)學(xué)問(wèn)題、代碼圖像等復(fù)雜推理場(chǎng)景下展示了更強(qiáng)大的性能，同時(shí)進(jìn)行參考問(wèn)答、總結(jié)摘要、以及進(jìn)行數(shù)學(xué)、邏輯、代碼等推理。

例如它支持多類(lèi)型圖表內(nèi)容提取，快速精準(zhǔn)地提取圖表內(nèi)容；同時(shí)能夠準(zhǔn)確理解 prompt，“隨心百變”的格式化輸出。實(shí)現(xiàn)輕松獲取關(guān)鍵信息，提高圖表分析效率。

chart01.2024-12-19 16_15_28

再比如下面這個(gè)案例，豆包視覺(jué)理解模型可以識(shí)別一張食物圖片和一張微波爐使用指南的表格，就能準(zhǔn)確判斷圖片中的事務(wù)在微波爐中加熱多長(zhǎng)時(shí)間就可以食用。

videoframe_8173 (1)

不僅如此，豆包視覺(jué)理解模型還擁有更細(xì)膩的視覺(jué)描述能力。它可以可以基于圖像信息，更細(xì)膩地描述圖像呈現(xiàn)的內(nèi)容，并可根據(jù)圖像內(nèi)容和狀態(tài)進(jìn)行產(chǎn)品介紹、宣傳文章、視頻腳本、故事詩(shī)歌等多種文體的創(chuàng)作。

例如有公司生產(chǎn)了一款文創(chuàng)產(chǎn)品，打算送給客戶(hù)，就可以直接使用豆包視覺(jué)理解模型基于文創(chuàng)產(chǎn)品的圖像來(lái)創(chuàng)作暖心的祝福語(yǔ)。

20241219160710

或者它還可以根據(jù)你的指令，對(duì)畫(huà)面的細(xì)節(jié)進(jìn)行描述，例如在一張女生夜晚放孔明燈的圖像中，可以圈選畫(huà)面中的孔明燈，詢(xún)問(wèn)豆包視覺(jué)理解模型“畫(huà)圈的地方放的是什么燈？古代啥時(shí)候會(huì)放呢？”豆包就會(huì)給出確切的回答和科普。

再比如，它可以對(duì)多張美食圖片進(jìn)行多維度信息的提取，然后快速精準(zhǔn)地剖析菜品特色，并細(xì)致入微洞察餐廳的環(huán)境格調(diào)、服務(wù)質(zhì)量等要素，然后幫用戶(hù)寫(xiě)一篇關(guān)于美食和餐廳的點(diǎn)評(píng)內(nèi)容。

又或者它還可以幫我們寫(xiě)朋友圈文案，根據(jù)多張圖片聯(lián)合進(jìn)行靈感提取，捕捉用戶(hù)心中想要表達(dá)的核心情感和關(guān)鍵元素，理解用戶(hù)對(duì)于朋友圈文案的風(fēng)格、語(yǔ)氣、字?jǐn)?shù)等各種要求，然后寫(xiě)出各種風(fēng)格的朋友圈文案。

豆包大模型家族全面升級(jí)，深入賦能千行百業(yè)發(fā)展

可以看到，目前豆包視覺(jué)理解模型所呈現(xiàn)出的技術(shù)成熟度、創(chuàng)新性以及實(shí)際使用的體驗(yàn)都達(dá)到了讓人驚艷的水平，而之所以能夠?qū)崿F(xiàn)這樣的行業(yè)領(lǐng)先，背后其實(shí)還是得益于字節(jié)跳動(dòng)在基礎(chǔ)模型方面全方位、大力度的堅(jiān)決投入。

我們知道，字節(jié)跳動(dòng)自研的豆包大模型是今年 5 月在火山引擎春季 Force 原動(dòng)力大會(huì)上正式發(fā)布，而在此之前，它已經(jīng)經(jīng)過(guò)一年時(shí)間的迭代和市場(chǎng)驗(yàn)證，并通過(guò)火山引擎對(duì)外提供服務(wù)。此后豆包大模型快讀迭代，目前已經(jīng)構(gòu)成了行業(yè)里能力最全面的大模型家族，包括通用模型 pro、通用模型 lite、語(yǔ)音識(shí)別模型、語(yǔ)音合成模型、文生圖模型等，再加上這次的視覺(jué)理解模型，每一款模型都有其擅長(zhǎng)的業(yè)務(wù)類(lèi)型和應(yīng)用場(chǎng)景，為用戶(hù)提供了豐富的選擇。

而在本次火山引擎冬季 FORCE 原動(dòng)力大會(huì)上，豆包大模型家族也迎來(lái)了全面升級(jí)。豆包通用模型 pro 已全面對(duì)齊 GPT-4o，使用價(jià)格僅為后者的 1/8；音樂(lè)模型從生成 60 秒的簡(jiǎn)單結(jié)構(gòu)，升級(jí)到生成 3 分鐘的完整作品；文生圖模型 2.1 版本，更是在業(yè)界首次實(shí)現(xiàn)精準(zhǔn)生成漢字和一句話 P 圖的產(chǎn)品化能力，該模型已接入即夢(mèng) AI 和豆包 App。

20241219161102

不僅如此，本次大會(huì)上，豆包 3D 生成模型也首次亮相。該模型與火山引擎數(shù)字孿生平臺(tái) veOmniverse 結(jié)合使用，可以高效完成智能訓(xùn)練、數(shù)據(jù)合成和數(shù)字資產(chǎn)制作，成為一套支持 AIGC 創(chuàng)作的物理世界仿真模擬器。

字節(jié)跳動(dòng)在大會(huì)上還宣布，2025 年春季將推出具備更長(zhǎng)視頻生成能力的豆包視頻生成模型 1.5 版，豆包端到端實(shí)時(shí)語(yǔ)音模型也將很快上線，從而解鎖多角色演繹、方言轉(zhuǎn)換等新能力。

豆包大模型雖然發(fā)布較晚，但一直在快速迭代進(jìn)化，目前已成為國(guó)內(nèi)最全面、技術(shù)最領(lǐng)先的大模型之一。

火山引擎總裁譚待在會(huì)上如此說(shuō)。

20241219161039

對(duì)于大模型產(chǎn)品來(lái)說(shuō)，除了需要企業(yè)端大規(guī)模、高強(qiáng)度的技術(shù)和資源投入，在市場(chǎng)端也需要與之匹配的使用量。

就像譚待曾經(jīng)所說(shuō)的，“只有大的使用量，才能打磨出好模型?！碑吘怪挥写蟮氖褂昧?，才能真正打通商業(yè)上的閉環(huán)，同時(shí)也能為大模型的迭代升級(jí)提供源源不斷的數(shù)據(jù)支撐。

而根據(jù)本次冬季 Force 原動(dòng)力大會(huì)上公布的數(shù)據(jù)，截至 12 月中旬，豆包通用模型的日均 tokens 使用量已超過(guò) 4 萬(wàn)億，較七個(gè)月前首次發(fā)布時(shí)增長(zhǎng)了 33 倍。

這意味著豆包大模型的能力正在被 C 端市場(chǎng)充分驗(yàn)證，大模型應(yīng)用正在向各行各業(yè)加速滲透。

而在大模型應(yīng)用場(chǎng)景生態(tài)的建設(shè)上，豆包大模型也走在了行業(yè)前面。和眾多行業(yè)客戶(hù)共創(chuàng)，讓豆包大模型賦能眾多領(lǐng)域，包括智能終端、汽車(chē)、金融、消費(fèi)和互聯(lián)網(wǎng)等領(lǐng)域。

根據(jù)最新的消息，豆包大模型已經(jīng)與八成主流汽車(chē)品牌合作，并接入到多家手機(jī)、PC 等智能終端，覆蓋終端設(shè)備約 3 億臺(tái)，來(lái)自智能終端的豆包大模型調(diào)用量在半年時(shí)間內(nèi)增長(zhǎng) 100 倍。

與企業(yè)生產(chǎn)力相關(guān)的場(chǎng)景，豆包大模型也獲得了眾多企業(yè)客戶(hù)青睞：最近 3 個(gè)月，豆包大模型在信息處理場(chǎng)景的調(diào)用量增長(zhǎng)了 39 倍，客服與銷(xiāo)售場(chǎng)景增長(zhǎng) 16 倍，硬件終端場(chǎng)景增長(zhǎng) 13 倍，AI 工具場(chǎng)景增長(zhǎng) 9 倍，學(xué)習(xí)教育等場(chǎng)景也有大幅增長(zhǎng)。

具體來(lái)看，小米的小愛(ài)語(yǔ)音助手于豆包大模型合作，提升了語(yǔ)音能力、知識(shí)儲(chǔ)備和性能效率，華碩 a 豆系列筆記本則與豆包大模型合作，帶來(lái)了為豆叮 AI 助手應(yīng)用，招商銀行基于扣子和豆包大模型搭建了可以推薦餐飲優(yōu)惠門(mén)店的“掌上生活”bot，以及能匯總市場(chǎng)行情的“財(cái)富看點(diǎn)”bot……

相信隨著豆包視覺(jué)理解模型的推出，未來(lái)豆包大模型將會(huì)開(kāi)拓更加廣泛的應(yīng)用領(lǐng)域。

最后值得一提的是，本次大會(huì)上，火山引擎還升級(jí)了火山方舟、扣子和 HiAgent 三款平臺(tái)產(chǎn)品，幫助企業(yè)構(gòu)建好自身的 AI 能力中心，高效開(kāi)發(fā) AI 應(yīng)用。

其中，火山方舟發(fā)布了大模型記憶方案，并推出 prefix cache 和 session cache API，降低延遲和成本?；鹕椒街圻€帶來(lái)全域 AI 搜索，具備場(chǎng)景化搜索推薦一體化、企業(yè)私域信息整合等服務(wù)。

結(jié)語(yǔ)

據(jù)麥肯錫報(bào)告分析，大模型的價(jià)值創(chuàng)造潛力驚人，到 2030 年，有望在全球推動(dòng) 49 萬(wàn)億人民幣的經(jīng)濟(jì)增量。而目前，從技術(shù)創(chuàng)新到商業(yè)落地，大模型已經(jīng)在為我們的日常工作生活和各行業(yè)的 AI 轉(zhuǎn)型提供了動(dòng)能。

就像譚待所說(shuō)的：

今年是大模型高速發(fā)展的一年。當(dāng)你看到一列高速行駛的列車(chē)，最重要的事就是確保自己要登上這趟列車(chē)。通過(guò) AI 云原生和豆包大模型家族，火山引擎希望幫助企業(yè)做好 AI 創(chuàng)新，駛向更美好的未來(lái)。

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

豆包視覺(jué)理解模型驚艷亮相：首次評(píng)測(cè)就排名全球第二

豆包視覺(jué)理解大模型，這些能力行業(yè)領(lǐng)先

豆包大模型家族全面升級(jí)，深入賦能千行百業(yè)發(fā)展

結(jié)語(yǔ)

相關(guān)文章

豆包視覺(jué)理解大模型，這些能力行業(yè)領(lǐng)先