12 月 18 日-19 日,火山引擎 FORCE 原動(dòng)力大會(huì)?冬正式在上海舉行。本次大會(huì)最引人關(guān)注的看點(diǎn),無(wú)疑就是豆包大模型家族的全線升級(jí),以及全新豆包視覺(jué)理解模型的發(fā)布。
豆包視覺(jué)理解模型擁有業(yè)界領(lǐng)先的內(nèi)容識(shí)別能力、理解和推理能力以及更細(xì)膩的視覺(jué)描述能力。它相當(dāng)于是給大模型加入了一雙眼睛,從而可以像人類(lèi)一樣認(rèn)識(shí)現(xiàn)實(shí)世界、理解現(xiàn)實(shí)世界。這無(wú)疑拓展了人類(lèi)與大模型交互的形式和應(yīng)用場(chǎng)景。
就在火山引擎 Force 大會(huì)后,智源研究院發(fā)布最新一期大模型評(píng)測(cè)結(jié)果,在視覺(jué)語(yǔ)言模型評(píng)測(cè)中,豆包視覺(jué)理解模型排名全球第二,成績(jī)僅次于 GPT-4o。特別是在中文的通用知識(shí)、文字識(shí)別中,豆包表現(xiàn)突出,相比國(guó)外模型有較大優(yōu)勢(shì)。
正如生物進(jìn)化出眼睛,是物種爆發(fā)過(guò)程中的一個(gè)關(guān)鍵因素,為 AI 加上雙眼的視覺(jué)理解大模型,也將為人工智能生態(tài)的豐富性和多樣化發(fā)展奠定基礎(chǔ)。
豆包視覺(jué)理解大模型,這些能力行業(yè)領(lǐng)先
分析了視覺(jué)理解對(duì)于大模型的重要性,我們?cè)倏催@次火山引擎發(fā)布的豆包視覺(jué)理解模型,其在各方面的領(lǐng)先性,則又是為視覺(jué)理解模型的發(fā)展探索到了新的天花板。
比如,首先豆包視覺(jué)理解大模型擁有更強(qiáng)的內(nèi)容識(shí)別能力,不僅可以識(shí)別圖像中的物體、形狀、類(lèi)別,要素,還能理解物體之間的關(guān)系、空間布局、和場(chǎng)景的整體含義。
比如在發(fā)布會(huì)的演示中,豆包視覺(jué)理解模型可以根據(jù)影子的形狀識(shí)別出這是什么動(dòng)物的影子,還能根據(jù)畫(huà)面中光線穿過(guò)薄霧的美麗景象判斷出這是丁達(dá)爾效應(yīng),并且解釋背后的原理。此外我們生活中不太了解的物品,也可以通過(guò)豆包視覺(jué)理解模型進(jìn)行拍照識(shí)別,從而知道這是什么。
同時(shí)豆包視覺(jué)理解模型還擁有行業(yè)領(lǐng)先的 OCR 能力,可以實(shí)現(xiàn)圖片文本信息的精確提取與理解,包括純文本圖像的文字抽取、日常圖像的文字抽取以及表格圖像的內(nèi)容抽取等。
不僅如此,它還可以更好地基于指令進(jìn)行視覺(jué)內(nèi)容識(shí)別,并對(duì)中國(guó)傳統(tǒng)文化信息有更強(qiáng)的理解。
對(duì)視覺(jué)內(nèi)容的識(shí)別只是第一步,接下來(lái),豆包視覺(jué)理解模型還具有更強(qiáng)的理解和推理能力。它可以輕松應(yīng)對(duì)更復(fù)雜的圖片推理任務(wù),模型在表格圖像、數(shù)學(xué)問(wèn)題、代碼圖像等復(fù)雜推理場(chǎng)景下展示了更強(qiáng)大的性能,同時(shí)進(jìn)行參考問(wèn)答、總結(jié)摘要、以及進(jìn)行數(shù)學(xué)、邏輯、代碼等推理。
例如它支持多類(lèi)型圖表內(nèi)容提取,快速精準(zhǔn)地提取圖表內(nèi)容;同時(shí)能夠準(zhǔn)確理解 prompt,“隨心百變”的格式化輸出。實(shí)現(xiàn)輕松獲取關(guān)鍵信息,提高圖表分析效率。
再比如下面這個(gè)案例,豆包視覺(jué)理解模型可以識(shí)別一張食物圖片和一張微波爐使用指南的表格,就能準(zhǔn)確判斷圖片中的事務(wù)在微波爐中加熱多長(zhǎng)時(shí)間就可以食用。
不僅如此,豆包視覺(jué)理解模型還擁有更細(xì)膩的視覺(jué)描述能力。它可以可以基于圖像信息,更細(xì)膩地描述圖像呈現(xiàn)的內(nèi)容,并可根據(jù)圖像內(nèi)容和狀態(tài)進(jìn)行產(chǎn)品介紹、宣傳文章、視頻腳本、故事詩(shī)歌等多種文體的創(chuàng)作。
例如有公司生產(chǎn)了一款文創(chuàng)產(chǎn)品,打算送給客戶(hù),就可以直接使用豆包視覺(jué)理解模型基于文創(chuàng)產(chǎn)品的圖像來(lái)創(chuàng)作暖心的祝福語(yǔ)。
或者它還可以根據(jù)你的指令,對(duì)畫(huà)面的細(xì)節(jié)進(jìn)行描述,例如在一張女生夜晚放孔明燈的圖像中,可以圈選畫(huà)面中的孔明燈,詢(xún)問(wèn)豆包視覺(jué)理解模型“畫(huà)圈的地方放的是什么燈?古代啥時(shí)候會(huì)放呢?”豆包就會(huì)給出確切的回答和科普。
再比如,它可以對(duì)多張美食圖片進(jìn)行多維度信息的提取,然后快速精準(zhǔn)地剖析菜品特色,并細(xì)致入微洞察餐廳的環(huán)境格調(diào)、服務(wù)質(zhì)量等要素,然后幫用戶(hù)寫(xiě)一篇關(guān)于美食和餐廳的點(diǎn)評(píng)內(nèi)容。
又或者它還可以幫我們寫(xiě)朋友圈文案,根據(jù)多張圖片聯(lián)合進(jìn)行靈感提取,捕捉用戶(hù)心中想要表達(dá)的核心情感和關(guān)鍵元素,理解用戶(hù)對(duì)于朋友圈文案的風(fēng)格、語(yǔ)氣、字?jǐn)?shù)等各種要求,然后寫(xiě)出各種風(fēng)格的朋友圈文案。
豆包大模型家族全面升級(jí),深入賦能千行百業(yè)發(fā)展
可以看到,目前豆包視覺(jué)理解模型所呈現(xiàn)出的技術(shù)成熟度、創(chuàng)新性以及實(shí)際使用的體驗(yàn)都達(dá)到了讓人驚艷的水平,而之所以能夠?qū)崿F(xiàn)這樣的行業(yè)領(lǐng)先,背后其實(shí)還是得益于字節(jié)跳動(dòng)在基礎(chǔ)模型方面全方位、大力度的堅(jiān)決投入。
我們知道,字節(jié)跳動(dòng)自研的豆包大模型是今年 5 月在火山引擎春季 Force 原動(dòng)力大會(huì)上正式發(fā)布,而在此之前,它已經(jīng)經(jīng)過(guò)一年時(shí)間的迭代和市場(chǎng)驗(yàn)證,并通過(guò)火山引擎對(duì)外提供服務(wù)。此后豆包大模型快讀迭代,目前已經(jīng)構(gòu)成了行業(yè)里能力最全面的大模型家族,包括通用模型 pro、通用模型 lite、語(yǔ)音識(shí)別模型、語(yǔ)音合成模型、文生圖模型等,再加上這次的視覺(jué)理解模型,每一款模型都有其擅長(zhǎng)的業(yè)務(wù)類(lèi)型和應(yīng)用場(chǎng)景,為用戶(hù)提供了豐富的選擇。
而在本次火山引擎冬季 FORCE 原動(dòng)力大會(huì)上,豆包大模型家族也迎來(lái)了全面升級(jí)。豆包通用模型 pro 已全面對(duì)齊 GPT-4o,使用價(jià)格僅為后者的 1/8;音樂(lè)模型從生成 60 秒的簡(jiǎn)單結(jié)構(gòu),升級(jí)到生成 3 分鐘的完整作品;文生圖模型 2.1 版本,更是在業(yè)界首次實(shí)現(xiàn)精準(zhǔn)生成漢字和一句話 P 圖的產(chǎn)品化能力,該模型已接入即夢(mèng) AI 和豆包 App。
不僅如此,本次大會(huì)上,豆包 3D 生成模型也首次亮相。該模型與火山引擎數(shù)字孿生平臺(tái) veOmniverse 結(jié)合使用,可以高效完成智能訓(xùn)練、數(shù)據(jù)合成和數(shù)字資產(chǎn)制作,成為一套支持 AIGC 創(chuàng)作的物理世界仿真模擬器。
字節(jié)跳動(dòng)在大會(huì)上還宣布,2025 年春季將推出具備更長(zhǎng)視頻生成能力的豆包視頻生成模型 1.5 版,豆包端到端實(shí)時(shí)語(yǔ)音模型也將很快上線,從而解鎖多角色演繹、方言轉(zhuǎn)換等新能力。
豆包大模型雖然發(fā)布較晚,但一直在快速迭代進(jìn)化,目前已成為國(guó)內(nèi)最全面、技術(shù)最領(lǐng)先的大模型之一。
火山引擎總裁譚待在會(huì)上如此說(shuō)。
對(duì)于大模型產(chǎn)品來(lái)說(shuō),除了需要企業(yè)端大規(guī)模、高強(qiáng)度的技術(shù)和資源投入,在市場(chǎng)端也需要與之匹配的使用量。
就像譚待曾經(jīng)所說(shuō)的,“只有大的使用量,才能打磨出好模型?!碑吘怪挥写蟮氖褂昧?,才能真正打通商業(yè)上的閉環(huán),同時(shí)也能為大模型的迭代升級(jí)提供源源不斷的數(shù)據(jù)支撐。
而根據(jù)本次冬季 Force 原動(dòng)力大會(huì)上公布的數(shù)據(jù),截至 12 月中旬,豆包通用模型的日均 tokens 使用量已超過(guò) 4 萬(wàn)億,較七個(gè)月前首次發(fā)布時(shí)增長(zhǎng)了 33 倍。
這意味著豆包大模型的能力正在被 C 端市場(chǎng)充分驗(yàn)證,大模型應(yīng)用正在向各行各業(yè)加速滲透。
而在大模型應(yīng)用場(chǎng)景生態(tài)的建設(shè)上,豆包大模型也走在了行業(yè)前面。和眾多行業(yè)客戶(hù)共創(chuàng),讓豆包大模型賦能眾多領(lǐng)域,包括智能終端、汽車(chē)、金融、消費(fèi)和互聯(lián)網(wǎng)等領(lǐng)域。
根據(jù)最新的消息,豆包大模型已經(jīng)與八成主流汽車(chē)品牌合作,并接入到多家手機(jī)、PC 等智能終端,覆蓋終端設(shè)備約 3 億臺(tái),來(lái)自智能終端的豆包大模型調(diào)用量在半年時(shí)間內(nèi)增長(zhǎng) 100 倍。
與企業(yè)生產(chǎn)力相關(guān)的場(chǎng)景,豆包大模型也獲得了眾多企業(yè)客戶(hù)青睞:最近 3 個(gè)月,豆包大模型在信息處理場(chǎng)景的調(diào)用量增長(zhǎng)了 39 倍,客服與銷(xiāo)售場(chǎng)景增長(zhǎng) 16 倍,硬件終端場(chǎng)景增長(zhǎng) 13 倍,AI 工具場(chǎng)景增長(zhǎng) 9 倍,學(xué)習(xí)教育等場(chǎng)景也有大幅增長(zhǎng)。
具體來(lái)看,小米的小愛(ài)語(yǔ)音助手于豆包大模型合作,提升了語(yǔ)音能力、知識(shí)儲(chǔ)備和性能效率,華碩 a 豆系列筆記本則與豆包大模型合作,帶來(lái)了為豆叮 AI 助手應(yīng)用,招商銀行基于扣子和豆包大模型搭建了可以推薦餐飲優(yōu)惠門(mén)店的“掌上生活”bot,以及能匯總市場(chǎng)行情的“財(cái)富看點(diǎn)”bot……
相信隨著豆包視覺(jué)理解模型的推出,未來(lái)豆包大模型將會(huì)開(kāi)拓更加廣泛的應(yīng)用領(lǐng)域。
最后值得一提的是,本次大會(huì)上,火山引擎還升級(jí)了火山方舟、扣子和 HiAgent 三款平臺(tái)產(chǎn)品,幫助企業(yè)構(gòu)建好自身的 AI 能力中心,高效開(kāi)發(fā) AI 應(yīng)用。
其中,火山方舟發(fā)布了大模型記憶方案,并推出 prefix cache 和 session cache API,降低延遲和成本?;鹕椒街圻€帶來(lái)全域 AI 搜索,具備場(chǎng)景化搜索推薦一體化、企業(yè)私域信息整合等服務(wù)。
結(jié)語(yǔ)
據(jù)麥肯錫報(bào)告分析,大模型的價(jià)值創(chuàng)造潛力驚人,到 2030 年,有望在全球推動(dòng) 49 萬(wàn)億人民幣的經(jīng)濟(jì)增量。而目前,從技術(shù)創(chuàng)新到商業(yè)落地,大模型已經(jīng)在為我們的日常工作生活和各行業(yè)的 AI 轉(zhuǎn)型提供了動(dòng)能。
就像譚待所說(shuō)的:
今年是大模型高速發(fā)展的一年。當(dāng)你看到一列高速行駛的列車(chē),最重要的事就是確保自己要登上這趟列車(chē)。通過(guò) AI 云原生和豆包大模型家族,火山引擎希望幫助企業(yè)做好 AI 創(chuàng)新,駛向更美好的未來(lái)。
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。