字節(jié) Seed 開源 UI-TARS-1.5：基于視覺-語言模型構(gòu)建的多模態(tài)智能體

2025/4/18 7:48:14 來源：IT之家作者：清源責編：清源

評論：

IT之家 4 月 18 日消息，IT之家從豆包大模型團隊獲悉，UI-TARS-1.5 昨日正式發(fā)布并開源。這是一款基于視覺-語言模型構(gòu)建的開源多模態(tài)智能體，能夠在虛擬世界中高效執(zhí)行各類任務(wù)。

有關(guān)的鏈接如下：

UI-TARS-1.5 基于字節(jié)此前提出的原生智能體方案 UI-TARS，通過強化學習進一步增強了模型的高階推理能力，使模型能夠在“行動”前先進行“思考”。

該版本的模型中，團隊還展示了一個新的愿景：以游戲為載體來增強基礎(chǔ)模型的推理能力。與數(shù)學、編程等領(lǐng)域相比，游戲更多依賴直觀的、常識性的推理，并較少依賴專業(yè)知識，因此，游戲通常是評估和提升未來模型通用能力的理想測試場景。

據(jù)介紹，UI-TARS 是一個原生 GUI 智能體，具備真實操作電腦和手機系統(tǒng)的能力，同時，還可操控瀏覽器、完成復雜交互任務(wù)。UI-TARS-1.5 能夠?qū)崿F(xiàn)精準 GUI 操作，基于團隊在四個維度的技術(shù)探索：

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

相關(guān)文章