設置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

百度文小言官宣支持多模型調(diào)度,升級端到端語音大模型、圖片問答能力

2025/3/31 15:22:23 來源:IT之家 作者:遠洋 責編:遠洋

IT之家 3 月 31 日消息,今日在新一期百度 AI DAY 上,文小言宣布完成品牌煥新與功能升級。除品牌視覺形象煥新外,文小言聚焦模型開放與功能創(chuàng)新,支持多模型融合調(diào)度,升級全新語音大模型、圖片問答、AI 生圖生視頻等多項能力。

文小言此次升級的核心亮點在于“多模型融合調(diào)度”。通過整合百度自研的文心 X1、文心 4.5 等模型,并接入 DeepSeek-R1、可靈等第三方優(yōu)質(zhì)模型,文小言實現(xiàn)了多模型間的智能協(xié)同。用戶只需選擇“自動模式”,即可一鍵調(diào)用最優(yōu)模型組合,或根據(jù)需求靈活選擇單一模型完成特定任務,大幅提升響應速度與任務處理能力。

據(jù)IT之家了解,此次功能升級,文小言進一步提升了全新語音大模型、圖片問答、AI 生圖生視頻等能力。全新語音大模型支持方言對話、復雜知識問答及隨時打斷等場景,用戶可進行語音知識問答或趣味角色扮演。

百度語音首席架構師賈磊透露,該模型是百度在業(yè)界首個推出、基于全新互相關注意力 (Cross-Attention) 的端到端語音語言大模型。在語音場景滿足一定交互指標下,大模型調(diào)用成本比行業(yè)平均降低 50%-90%,推理響應速度極快,將語音交互等待時間壓縮至 1 秒左右,極大提升了交互流暢性。同時,在大模型加持下,實現(xiàn)了流式逐字的 LLM 驅(qū)動的多情感語音合成,情感飽滿、逼真、擬人,交互聽感也得到極大提升。

圖片問答功能讓用戶可以通過拍攝或上傳圖片,以文字或語音提問直接獲取深度解析。例如,拍攝一道數(shù)學題可實時生成解題思路與視頻解析;上傳多款商品圖可對比參數(shù)、價格,輔助購物決策;拍攝杯子設計圖后,AI 可自動解析風格并生成同款手機殼、支架等周邊產(chǎn)品。

值得一提的是,新增的“圖個冷知識”功能更富趣味性,用戶可預設“歷史學者”“科技達人”等人設視角,為同一圖片賦予多維解讀。例如,當用戶詢問“貓窗探秘,為何貓愛窗邊的科學真相?",文小言能從狩獵本能、能量獲取、領地意識等角度給出獨特解讀。

廣告聲明:文內(nèi)含有的對外跳轉鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結果僅供參考,IT之家所有文章均包含本聲明。

相關文章

關鍵詞:文小言百度

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機APP應用 魔方 最會買 要知