設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

【IT之家評測室】支持長文本、長圖文及長語音:訊飛星火大模型 V3.5 更新版體驗

2024/4/28 11:29:35 來源:IT之家 作者:馬卡 責(zé)編:馬卡

近兩個月來,國內(nèi)大模型卷進了“長文本”大戰(zhàn),科大訊飛旗下的訊飛星火大模型也不例外。最近,訊飛星火大模型迎來了 V3.5 版本的更新,此次更新顯著增強了對長文本、長圖文和長語音的處理能力。同時,新版本還首次推出了星火圖文識別大模型、多情感超擬人合成技術(shù)以及一句話復(fù)刻功能。

根據(jù)官方的說明,訊飛星火大模型在長文本處理方面,能夠快速吸收和理解來自不同渠道的大量文本數(shù)據(jù),針對各個行業(yè)和專業(yè)領(lǐng)域的問答,提供更加精準的回答。此外,在文件上傳、知識問答響應(yīng)速度以及文本生成等方面,訊飛星火的效率也得到了顯著的提升。

今年初,IT之家對訊飛星火 V3.5 版本進行了深入的體驗,并將其與 GPT-4 進行了全面的比較。從IT之家的評測來看,訊飛星火 V3.5 的綜合能力已經(jīng)能夠與 GPT-4 相媲美,在邏輯推理、數(shù)學(xué)能力和知識庫更新速度等方面,甚至展現(xiàn)出了一定的領(lǐng)先優(yōu)勢。

那么,搭載了長文本、長圖文、長語音等新功能的訊飛星火大模型 V3.5 更新版,體驗又將如何呢?接下來,IT之家將圍繞這些新功能,進一步分享體驗感受。

紅框內(nèi),就是訊飛星火 V3.5 新能力的入口,最右側(cè)的文件里,包含了你上傳過的所有文檔,都會以“云空間”的形式保存在里面,方便下次使用

一、長文本體驗

長文本處理能力已經(jīng)成為衡量各大模型產(chǎn)品硬實力的關(guān)鍵指標之一。

在日常生活中,我們不可避免地會遭遇那些冗長的文本內(nèi)容,比如閱讀起來乏味透頂?shù)碾[私政策,那些篇幅龐大、晦澀難懂的免責(zé)條款,還有那些曲折復(fù)雜,繞來繞去的保險合同。

面對這些動輒數(shù)十萬字的文檔,要完整地閱讀它們,其難度堪比啃完哲學(xué)著作《形而上學(xué)》。

對于筆者自己而言,如果某一天在衛(wèi)生間里忘記帶手機,一邊是放著一冊 xx 保險示范條款。另一邊放著一瓶沐浴露。我寧愿把沐浴露的成分列表背過,都不愿意去主動看 xx 保險條款。

然而,這些玩意的存在是有其必要性的,畢竟,寫出來就是給我們看的。你可以選擇不看,但若遇到問題,這些隱私政策和合同條款就可能成為關(guān)鍵。

所以問題來了,我們?nèi)绾卧跀?shù)萬乃至數(shù)十萬字的內(nèi)容中迅速定位到關(guān)鍵信息?特別是諸如保險條款、合同這些,如何找到對我們自己最有利的條款?或者,如何立即發(fā)現(xiàn)那些對我們不利規(guī)定?

再比如,對于一些財務(wù)人員,又或者是文字工作者,當(dāng)面對某企業(yè)發(fā)布財報或白皮書時,如何從海量信息中提取出最關(guān)鍵的要點?如何快速找到最關(guān)心的信息?

總而言之,這種長文本的閱讀需求是生活中經(jīng)常遇到的痛點,而大模型的存在意義,就是幫我們繁雜的文字中找到我們最想要、最所需的信息。

那么訊飛星火大模型 V3.5 的表現(xiàn)又如何?

訊飛星火大模型 V3.5 界面,為了方便大家閱讀,網(wǎng)頁放大了 50%

1、合同條款類

首先,訊飛星火大模型 V3.5 全新引入了新引入的“星火合同助手”小組件,能全面輔助用戶快速起草各類合同。

訊飛星火 V3.5 不僅能夠提供一系列專業(yè)問題的通俗解答,確保法律準確性與合規(guī)性,還能通過其精準地判斷和回答,幫助用戶更有效地理解和處理復(fù)雜的信息。

以下圖的《網(wǎng)站隱私政策》為例,這種隱私政策在我們生活中到處可見,諸如每款 App 打開之前都滑動同意那些冗長的條款。

網(wǎng)站隱私政策

筆者將該隱私政策復(fù)制成 Word,隨后上傳至訊飛星火大模型 V3.5 聊天框中:

紅色箭頭部分是長文檔上傳入口

隨后詢問了如下兩個問題:

  • 概述該隱私條款中我需要特別注意的問題

  • 該隱私政策會獲取我的哪些信息

訊飛星火大模型 V3.5 在收到問題后,都迅速做出了簡單易懂的回答。

接下來筆者又上傳了《費改機動車商業(yè)保險示范條款及免責(zé)事項說明書》(下圖),字數(shù)在 2 萬 + 左右,并針對免責(zé)條款、保險賠償?shù)确矫孀稍兞烁鞣N問題。

費改機動車商業(yè)保險示范條款及免責(zé)事項說明書

比如,筆者詢問“發(fā)動機進水賠償嗎?”,訊飛星火大模型 V3.5 迅速給出了回答:

回到《免責(zé)事項說明書》中,確實找到了這一說法,如下圖紅框內(nèi)。

不過,筆者對這個“特約條款”的意思還是不太夠理解,接著繼續(xù)問飛星火大模型 V3.5,給出的回答(下圖):

隨后,同樣的問題咨詢了保險公司人工客服,回答如下:

訊飛星火大模型 V3.5 和人工客服給出的回答是一樣的。

關(guān)于這個“特約條款”,這里插一句。

筆者在網(wǎng)上查詢了一番資料,簡單來講,保險新規(guī)后,正常發(fā)動機涉水是在車損險保障范圍內(nèi)的。但是呢,有些人的用車環(huán)境是在沙漠或者是雨水較少的地區(qū)。那么投保這個“特約條款”,可以進一步降低保費,但發(fā)動機進水損壞后,保險公司不會理賠。

從訊飛星火大模型 V3.5 的回答來看,確實將這個“條款”的意思表達的清清楚楚,和客服回答的也基本一致。

但是,這里有個“發(fā)動機涉水是包含在車損險保障范圍內(nèi)”的前提,而這個前提并未出現(xiàn)在這份兩萬字的“免責(zé)事項說明書”中。訊飛星火大模型 V3.5 是通過筆者提供的長文本來檢索,自然也不知道這一點。

接下來,筆者又問“建議購買嗎?”

訊飛星火大模型 V3.5 給出了明確的回答 —— 不建議。

客服同樣不建議。

筆者又針對保險中的各種問題進行了提問,訊飛星火大模型 V3.5 都給出了精準回答:

從各種回答來看,訊飛星火 V3.5 都達到了一個令人滿意的水準,且具備了一定的邏輯推理能力,能夠給用戶一個正確的建議。

2、研究報告類

本月 26 日上午,OPPO 發(fā)布了《OPPO 創(chuàng)新與知識產(chǎn)權(quán)白皮書》,pdf 文件,共有 23 頁內(nèi)容。

針對這份白皮書的內(nèi)容,筆者也進行了一系列的提問。

訊飛星火 V3.5 的回答結(jié)果自然是令人滿意的,且反饋速度極快,幾乎就在幾秒鐘內(nèi)給出回答。這對于一些文字工作者而言,簡直就是效率神器了。

關(guān)于理想汽車的一份研究報告,有大量的圖表、圖片說明和數(shù)據(jù),訊飛星火 V3.5 甚至還能根據(jù)報告中非常細分化的問題(比如銷量)做出回答。

針對用戶在科研方面的需求,這次訊飛星火 V3.5 還加入了長文本摘要能力,針對行業(yè)報告,也加入了長文本生成能力。

在星火助手中心中,找到星火科研助手,即可進行一系列的專業(yè)化回答。

筆者上傳了研究報告《全球產(chǎn)業(yè)數(shù)字化轉(zhuǎn)型趨勢及方向研判》和《華為終端可持續(xù)發(fā)展報告 (2022-2023 年)》,并就其中的專業(yè)性問題發(fā)起了一系列提問。

訊飛星火 V3.5 能夠提供系統(tǒng)性的回答,以應(yīng)對這些專業(yè)領(lǐng)域的復(fù)雜問題。

長文本摘要:

長文本生成:

3、讀書娛樂類

最后,筆者將余華《在細雨中呼喊》小說 TXT 文檔上傳至訊飛星火 V3.5,并針對小說中呈現(xiàn)的眾多角色和故事情節(jié)提出了一系列問題。

《在細雨中呼喊》也是筆者最喜歡的小說之一,來來回回已經(jīng)讀了四五遍,對里面的每個故事和劇情都有深刻的印象。

但是呢,畢竟這也是一部有著 14.9 萬字的長篇小說,小說里蘊含了眾多的細節(jié)與情節(jié)交織,要讓我給出一個周全而精準的回答,恐怕還真不容易。

那么訊飛星火 V3.5 的表現(xiàn)如何?

首先筆者提問,小說主人公的父親(孫廣才)是一個怎樣的人?訊飛星火 V3.5 的回答如下:

在筆者看來,孫廣才的后半生算是一個徹頭徹底的無賴,自私虛偽,可鄙可憐。訊飛星火 V3.5 給出的回答與筆者的觀點頗為接近,但評判的“力度”不太夠。但不可否認,矛盾貫穿了孫廣才的整個人生,訊飛星火 V3.5 也給出了這個觀點。

《在細雨中呼喊》小說中作者對死亡有非常多的描述,而孫廣才的死又是小說中最具戲劇化的一幕。

關(guān)于這個問題,訊飛星火 V3.5 也做了精準的回答 —— 他葬身于最為骯臟的地方,但死時并不知道這些。

關(guān)于祖父的一生經(jīng)歷,訊飛星火 V3.5 也能做一個簡練的總結(jié):

不過,關(guān)于一些更復(fù)雜的問題,訊飛星火 V3.5 在事實陳述上雖然明晰透徹,在深度評價方面稍顯膚淺了一些。

比如,在“看待孫光明救人行為”這一問題時,訊飛星火 V3.5 回答“對其無私英雄主義的贊賞,也透露出對其魯莽行為的批評態(tài)度?!?/p>

小說中作者卻是這樣描述的:

孫光明是為了救那個孩子才淹死的。將舍己救人用在我弟弟身上,顯然是夸大其詞。弟弟還沒有崇高到愿意以自己的死去換別人的生。

他在那一刻的行為,來自于他對那幾個七八歲孩子的權(quán)威。

當(dāng)死亡襲擊孫光明手下的孩子時,他粗心大意地以為自己可以輕而易舉地去拯救。

被救的孩子根本無法回憶當(dāng)初的情景,他只會瞠目結(jié)舌地看著詢問他的人。幾年以后,當(dāng)有人再度提起這事時,那孩子一臉的將信將疑,仿佛這是別人編造的。

若不是村里有人親眼所見,孫光明很可能被認為是自己淹死的。

二、長圖文體驗

比起單純的無文字圖片或長文本之外的復(fù)雜情況,訊飛星火 V3.5 的圖文識別大模型可以針對復(fù)雜版面進行高精度解析。

官方表示,識別場景包括教育(書籍、作文批改)、專利、學(xué)術(shù)論文、報紙、金融文檔、體檢報告、自然場景、PPT、產(chǎn)品說明書、海報、讀物、藥盒、APP 截圖等等。

針對上述場景,你可以對圖片中的文字信息進行提問,也可以基于文字信息進行更深入、整合性的提問。

以筆者剛剛買的“鼻用噴霧劑”舉例,手機拍攝說明書照片,隨后上傳至訊飛星火 V3.5 中。

筆者詢問注意事項、使用方法,訊飛星火 V3.5 都能給出具體回答。

從結(jié)果來看,基本上是將說明書中的文字信息“OCR”了出來,然后根據(jù)詞義整理,反饋給提問者。

更復(fù)雜的場景,筆者上傳了 USB 測試儀使用說明書的截圖:

針對不同的接口,進行了功能提問,訊飛星火 V3.5 回答也令人滿意。

筆者又上傳了此前參加活動拍攝一張 PPT 圖片,并讓訊飛星火 V3.5 提取照片中的重點。

結(jié)果顯示,訊飛星火 V3.5 準確地識別出了照片中的內(nèi)容,并且正確判斷出這是廣汽集團的技術(shù)展示,同時注意到了在場觀眾對此表現(xiàn)出的高度關(guān)注。

寫到這,筆者簡單感慨一下,這個功能的想象力空間確實巨大,特別是對于視障人士而言,盡管他們的雙眼無法看見,但只需通過手機拍下照片,上傳至訊飛星火,便能立即通過語音描述,將眼前的世界傳達給視障者,能夠給日常生活帶來極大的幫助。

當(dāng)然,現(xiàn)階段的體驗也并非十全十美,比如就出現(xiàn)過一次“已讀亂回”的現(xiàn)象(下圖),回答得莫名其妙,有一定的優(yōu)化空間。

三、長語音、視頻體驗

在當(dāng)今的學(xué)習(xí)與生活中,我們不僅需要大模型來助力文字處理,同樣也需要其協(xié)助處理語音和視頻資料。尤其在“全民短視頻”的風(fēng)潮下,明明一兩句就能說明白的話,非要做成一個視頻。

同時,對于學(xué)生群體和職場人士而言,無論是學(xué)術(shù)講座還是商務(wù)采訪的視頻資料都包含了豐富的信息。關(guān)鍵在于,如何從這些視頻中高效提取出核心要點?

升級后的訊飛星火 V3.5 能夠協(xié)助用戶在這些多媒體內(nèi)容中迅速捕捉和理解關(guān)鍵信息。

筆者上傳了IT之家《今天,北京車展,哭笑嘿哈》這篇語音文章,時長在 19 分鐘左右。

針對音頻,筆者提問了音頻的主要內(nèi)容,訊飛星火 V3.5 用極短的時間給出了回答。

從結(jié)果來看,基本是令人滿意的。

不過也有一些細節(jié)上的小錯誤,比如把極氪識別成了“極客”,把蔚來 ET7 識別成了“A7”,但瑕不掩瑜,這個表現(xiàn)已經(jīng)很出色了。要知道,上述音頻中有各種新技術(shù)名詞、新車名稱,以及各種漢英夾雜的情況,這本身就有非常高的識別難度。

接下來筆者又圍繞騰勢、邁騰等新車,提出了更具體的問題,訊飛星火 V3.5 的答復(fù)都很令人滿意。

訊飛星火 V3.5 同樣也支持上傳視頻,就拿IT之家發(fā)布過的《種草華為運動健康全家桶》導(dǎo)購視頻為例,視頻長達 6 分鐘。

首先,筆者讓其概述整個視頻內(nèi)容,訊飛星火 V3.5 給出了精準回答。

不過,一個細節(jié)上的小錯誤,把“HarmonyOS”識別成了“哈姆 6s”(也有可能跟視頻里的讀音有關(guān)),但是整體回答并沒有偏離主題,也沒有給出含糊不清的回答。

詢問視頻推薦哪些值得買的產(chǎn)品,訊飛星火 V3.5 也能依次排列,并給出每個產(chǎn)品的亮點。

另外,在體驗中,訊飛星火 V3.5 在識別過程中,也沒有太長的加載時間,基本問題都是按“秒”來回答的,而且是越用越快,你問的問題越多,它回答的速度就越快。

四、訊飛星火語音大模型

訊飛星火 V3.5 這次升級了星火語音大模型,帶來了“多情感超擬人合成”和“一句話聲音復(fù)刻”首發(fā)兩項功能,偏趣味性體驗。

在語音對話中是一個類似通話界面,而訊飛星火大模型所提供的回答非常接近自然人聲,雖然帶有一絲機器人特有的韻味,但整體上已經(jīng)非常逼真。

“一句話聲音復(fù)刻”就很有意思了,它可以模仿你或者是身邊其他人的聲音。完成聲紋錄制后,你可以在“我創(chuàng)建的發(fā)音人”中找到自己的聲音。選擇后,在使用語音交互時,大模型就會以自己的聲音與你對話,且聲音還原地相當(dāng)真實。

大家可以點擊下方視頻感受一下:

總結(jié):

AI 不是一個新鮮的概念,幾年前談及 AI 改變生活,筆者總覺得是天方夜譚,遙不可及。然而,也就在這短短兩三年的時間里,AI 技術(shù)迎來了爆炸性的升級變革,一個真正屬于 AI 的黃金時代就在眼前。

在這個過程中,科大訊飛既是參與者,也是推動者。訊飛的星火大模型,也僅僅是科大訊飛在 AI 領(lǐng)域創(chuàng)新的一個具體呈現(xiàn)之一。

這一次訊飛星火大模型 V3.5 升級,在長文本處理、圖文識別以及長語音和視頻處理方面都展現(xiàn)出了卓越的能力,重點加碼了用戶在專業(yè)性、實用性這兩方面的需求體驗。

就拿文章開頭講到的那樣,我們每天要接觸著海量的信息,一份用詞晦澀、專業(yè)術(shù)語堆積、繞來繞去的合同,又或者是復(fù)雜難懂的免責(zé)條款就能難道無數(shù)打工人。

在過去,或許需要上網(wǎng)查閱各種資料,又或者是花錢咨詢專家來獲得幫助。這個過程中,你或許還會遇到各種充值繳費才能顯示答案,尋找專家過程中也難免遇到各類騙子。

但是有了訊飛星火大模型 V3.5 這類應(yīng)用的出現(xiàn),上述問題處理的就非常簡單了。

類似的場景還有那些冗長繁瑣的會議音頻,打工人可以輕松地在幾萬字的車轱轆話中找到最關(guān)鍵的那幾句;在視頻中迅速提取精華,甚至為科研報告快速生成摘要...

盡管訊飛星火大模型 V3.5 在某些細節(jié)體驗上還有待優(yōu)化,但其所帶來的想象力空間無疑是巨大的。

今年 6 月 27 日訊飛星火 V4.0 將正式發(fā)布,屆時還將帶來哪些新功能,我們可以好好期待一下了。

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機APP應(yīng)用 魔方 最會買 要知