設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

突破 100 種,微軟翻譯新增對(duì) 12 種語(yǔ)言/方言支持,包括藏語(yǔ)、維吾爾語(yǔ)...

2021/10/12 15:14:50 來源:IT之家 作者:玄隱 責(zé)編:玄隱

IT之家 10 月 12 日消息,微軟翻譯今天宣布支持 12 種新的語(yǔ)言和方言。有了這項(xiàng)支持,微軟翻譯現(xiàn)在總共支持 103 種語(yǔ)言,覆蓋了世界人口的 72%。有了這個(gè)版本,微軟翻譯服務(wù)可以將文本和文件翻譯成全世界 56.6 億人所使用的本土語(yǔ)言。

IT之家獲悉,微軟翻譯新增加的語(yǔ)言是巴什基爾語(yǔ)、迪維希語(yǔ)、格魯吉亞語(yǔ)、吉爾吉斯語(yǔ)、馬其頓語(yǔ)、蒙古語(yǔ)(西里爾語(yǔ))、蒙古語(yǔ)(傳統(tǒng)版)、塔塔爾語(yǔ)、藏語(yǔ)、土庫(kù)曼語(yǔ)、維吾爾語(yǔ)和烏茲別克語(yǔ)(拉丁語(yǔ))。這些新語(yǔ)言有 8460 萬人使用。

微軟技術(shù)研究員和 Azure 人工智能首席技術(shù)官黃學(xué)東說:“一百種語(yǔ)言對(duì)我們來說是一個(gè)很好的里程碑,可以實(shí)現(xiàn)我們的雄心壯志,讓每個(gè)人無論說什么語(yǔ)言都能進(jìn)行交流?!?/p>

微軟翻譯的演變

20 多年前,微軟研究院首次開發(fā)了機(jī)器翻譯系統(tǒng)。2003 年,一個(gè)機(jī)器翻譯系統(tǒng)將整個(gè)微軟知識(shí)庫(kù)從英文翻譯成西班牙文、法文、德文和日文,并將翻譯內(nèi)容發(fā)布在其網(wǎng)站上,成為當(dāng)時(shí)互聯(lián)網(wǎng)上最大的面向公眾的原始機(jī)器翻譯應(yīng)用。

微軟在統(tǒng)計(jì)機(jī)器翻譯(SMT)模型的基礎(chǔ)上進(jìn)一步發(fā)展了這些系統(tǒng),并通過 Windows Live Translator、Translator API 以及微軟 Office 應(yīng)用程序的內(nèi)置功能向公眾提供。

微軟表示,多年來,我們?yōu)槭澜缟显S多最常用的語(yǔ)言增加了翻譯系統(tǒng)。隨著人工智能(AI)技術(shù)的發(fā)展,微軟采用了神經(jīng)機(jī)器翻譯(NMT)技術(shù),并將所有機(jī)器翻譯系統(tǒng)遷移到基于 Transformer 技術(shù)的神經(jīng)模型上,實(shí)現(xiàn)了翻譯流暢性和準(zhǔn)確性的巨大提升。

雖然 NMT 技術(shù)顯著提高了整體翻譯質(zhì)量,但 Transformer 架構(gòu)的出現(xiàn)為創(chuàng)建機(jī)器翻譯模型鋪平了新的道路,使其能夠用比以前更少的材料進(jìn)行訓(xùn)練。使用多語(yǔ)言 Transformer 架構(gòu),現(xiàn)在可以用其他語(yǔ)言的材料來增加訓(xùn)練數(shù)據(jù),通常是在同一或相關(guān)的語(yǔ)言家族中,為數(shù)據(jù)量小的語(yǔ)言制作模型,通常被稱為低資源語(yǔ)言。

即使有了這些技術(shù),也必須要有一套目標(biāo)語(yǔ)言的數(shù)字文件,以及另一種已經(jīng)包括在內(nèi)的語(yǔ)言的翻譯--通常被稱為 parallel 文件。

▲ 微軟翻譯所翻譯的語(yǔ)言數(shù)量折線圖,從 2007 年的 7 種到 2021 年的 100 多種。該系統(tǒng)從 2007 年到 2016 年一直使用統(tǒng)計(jì)機(jī)器翻譯(SMT)。2016 年采用神經(jīng)機(jī)器翻譯(NMT)技術(shù)有助于提高翻譯質(zhì)量,2019 年采用 Transformer 架構(gòu),使微軟團(tuán)隊(duì)能夠用較少的數(shù)據(jù)量為低資源語(yǔ)言建立模型。

在增加新語(yǔ)言時(shí),微軟表示,最大的挑戰(zhàn)之一是獲得訓(xùn)練和制作機(jī)器翻譯模型所需的足夠的雙語(yǔ)數(shù)據(jù)。這些數(shù)據(jù)由高質(zhì)量的人工翻譯內(nèi)容組成,既包括想要添加的語(yǔ)言,也包括該服務(wù)已經(jīng)支持的語(yǔ)言之一。對(duì)于許多語(yǔ)言來說,這種雙語(yǔ)數(shù)據(jù)是很難獲得的,特別是對(duì)于數(shù)字資源不足或?yàn)l臨滅絕的語(yǔ)言。

微軟稱,很幸運(yùn)與語(yǔ)言社區(qū)的伙伴合作,他們可以獲得人工翻譯的文本,并可以幫助收集資源不足的語(yǔ)言的數(shù)據(jù)。這些社區(qū)合作伙伴,通常是與他們各自社區(qū)合作的志愿者,通過咨詢社區(qū)成員,不辭辛苦地收集雙語(yǔ)句子。然后,他們?cè)u(píng)估所產(chǎn)生的機(jī)器翻譯模型的質(zhì)量。

Azure 認(rèn)知服務(wù)翻譯在微軟產(chǎn)品中公開了 NMT 模型,并通過文本翻譯和文檔翻譯 API 向翻譯客戶公開。這些 API 將純文本和復(fù)雜文件從一種語(yǔ)言翻譯成另一種語(yǔ)言。Azure 認(rèn)知服務(wù)翻譯器 API 可在公共云和安全的微軟 Azure 政府云中使用。此外,文本翻譯 API 在 Docker 容器中可用,允許客戶在企業(yè)內(nèi)部處理內(nèi)容以滿足特定的監(jiān)管要求。

Azure 認(rèn)知服務(wù)翻譯還包括自定義翻譯服務(wù),該服務(wù)使用戶能夠使用自己的翻譯記憶庫(kù)來建立自定義機(jī)器翻譯模型,以翻譯其業(yè)務(wù)和相關(guān)行業(yè)中使用的特定領(lǐng)域術(shù)語(yǔ)。這些自定義機(jī)器翻譯模型可以通過文本和文檔翻譯 API 使用。

為了翻譯音頻或語(yǔ)音內(nèi)容,Azure 認(rèn)知服務(wù)翻譯與 Azure 認(rèn)知服務(wù)語(yǔ)音緊密結(jié)合,通過 Azure 語(yǔ)音 SDK 支持語(yǔ)音翻譯和多設(shè)備對(duì)話。

Azure 認(rèn)知服務(wù)翻譯器及其支持的產(chǎn)品被客戶廣泛采用。該服務(wù)無縫集成到許多微軟產(chǎn)品中,并隨時(shí)供每個(gè)人使用和創(chuàng)建他們選擇的語(yǔ)言內(nèi)容。一些微軟產(chǎn)品整合包括用于翻譯文本和文件的 Microsoft 365,用于翻譯整個(gè)網(wǎng)頁(yè)的 Microsoft Edge 瀏覽器,用于翻譯信息的 SwiftKey,用于翻譯用戶提交的內(nèi)容的 LinkedIn,用于在移動(dòng)中進(jìn)行多語(yǔ)言對(duì)話的 Translator 應(yīng)用程序,以及更多。

廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:微軟,翻譯機(jī)器翻譯

軟媒旗下網(wǎng)站: IT之家 最會(huì)買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會(huì)買 要知