IT之家 5 月 25 日消息,巴塞羅那超級計算中心(BSC)和加泰羅尼亞理工大學(xué)(UPC)的研究人員開發(fā)了一種將手語翻譯成文本的新工具,以給予聽覺障礙者更多包容性和可及性。該工具利用人工智能技術(shù),包括自我注意機制和更快的吞吐量,以更準確地理解手語者的姿勢并產(chǎn)生準確的文字轉(zhuǎn)寫。
該工具基于 How2Sign 數(shù)據(jù)集,這是一個公開可用的大規(guī)模、多模態(tài)和多視圖數(shù)據(jù)集,包括 80 小時的美國手語教學(xué)視頻和相應(yīng)的英語文字記錄。該數(shù)據(jù)集由 BSC 和 UPC 發(fā)布,用于訓(xùn)練模型,以便將手語轉(zhuǎn)換為文本。研究人員使用膨脹式三維網(wǎng)絡(luò)(I3D)對數(shù)據(jù)進行預(yù)處理,這是一種視頻提取方法,可以對視頻進行三維過濾,直接從視頻中獲取時空信息。并使用了一個轉(zhuǎn)化器式的機器學(xué)習(xí)模型,與 ChatGPT 等其他人工智能工具背后的模型類似。
該研究的主要作者 Laia Tarrés 表示:“我們開發(fā)的新工具是以前發(fā)布的名為 How2Sign 的出版物的延伸,在那里,訓(xùn)練模型所需的數(shù)據(jù)被公布。利用這些已經(jīng)可用的數(shù)據(jù),我們開發(fā)了一個新的開源軟件,能夠?qū)W習(xí)視頻和文本之間的映射。”
研究人員發(fā)現(xiàn),他們的模型能夠產(chǎn)生有意義的翻譯,但仍存在改進的空間。該工具尚處于實驗階段,研究人員將繼續(xù)努力,以創(chuàng)建一個能夠與無聽力損失者使用的技術(shù)相媲美的工具。
Laia Tarrés 同時表示:“這個自動手語翻譯的開放工具是對關(guān)注無障礙環(huán)境的科學(xué)界的寶貴貢獻,它的發(fā)表代表了向為所有人創(chuàng)造更具包容性和無障礙的技術(shù)邁出的重要一步。”
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。