IT之家 2 月 26 日消息,北京時(shí)間今日凌晨,微軟在官網(wǎng)開(kāi)源了多模態(tài) AI Agent 基礎(chǔ)模型 ——Magma。與傳統(tǒng) Agent 相比,Magma 具備跨數(shù)字、物理世界的多模態(tài)能力,能自動(dòng)處理圖像、視頻、文本等不同類(lèi)型數(shù)據(jù),此外,Magma 還能內(nèi)置了心理預(yù)測(cè)功能,增強(qiáng)了對(duì)未來(lái)視頻幀中時(shí)空動(dòng)態(tài)的理解能力,能夠準(zhǔn)確推測(cè)視頻中人物或物體的意圖和未來(lái)行為。
用戶(hù)可以用 Magma 來(lái)自動(dòng)下電商訂單、查詢(xún)天氣;也可以自動(dòng)操作實(shí)體機(jī)器人,或者在下真實(shí)象棋時(shí)獲得幫助。
根據(jù)官方介紹,Magma 能夠幫助 AI 驅(qū)動(dòng)的助手或機(jī)器人理解周?chē)h(huán)境并采取相應(yīng)行動(dòng)。例如,它可以幫助家用機(jī)器人學(xué)習(xí)如何整理以前從未見(jiàn)過(guò)的物品,或幫助虛擬助手為不熟悉的任務(wù)生成逐步的用戶(hù)界面導(dǎo)航說(shuō)明。
Magma 是能夠適應(yīng)數(shù)字和物理環(huán)境中新任務(wù)的 VLA(IT之家注:視覺(jué)語(yǔ)言動(dòng)作)基礎(chǔ)模型之一,能夠有效地從海量的公開(kāi)視覺(jué)和語(yǔ)言數(shù)據(jù)中學(xué)習(xí)知識(shí),從而融合語(yǔ)言、空間和時(shí)間智能,應(yīng)對(duì)數(shù)字和物理世界中的復(fù)雜任務(wù)和環(huán)境。
IT之家附開(kāi)源鏈接:https://microsoft.github.io/Magma/
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。