設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

AI 破解古文字登 Nature 封面:修復(fù)缺失文字,精確地理位置和書寫時(shí)間

量子位 2022/3/10 13:01:06 責(zé)編:長(zhǎng)河

最新一期的 Nature 封面,AI 再度來到舞臺(tái)中央,這一次是在破譯古文字方面立功了。這是一種基于 Transformer 架構(gòu)的方法,由 DeepMind、谷歌、牛津大學(xué)等多家研究機(jī)構(gòu)聯(lián)合開發(fā)。

AI破解古文字登Nature封面

在單獨(dú)修復(fù)受損文本時(shí),這種方法能達(dá)到 62% 的準(zhǔn)確率。在實(shí)際應(yīng)用中,歷史學(xué)家單獨(dú)破譯某塊古希臘石碑的準(zhǔn)確率本來只有 25%,但在使用這一方法后一舉提升了近乎 3 倍,達(dá)到了 72%。

不僅能修復(fù)文字,這一方法在地理歸屬的任務(wù)上也有 71% 的準(zhǔn)確率,還能將古文字的書寫日期精確到 30 年以內(nèi)。目前,這一方法已經(jīng)引起了不小的討論熱度:

DeepMind推特

現(xiàn)在已經(jīng)有可以在線解析古希臘文字的網(wǎng)頁(yè)版,架構(gòu)方法也已開源

DeepMind Twitter圖片

Transformer 破譯古文字

這是一個(gè)叫做 Ithaca 的架構(gòu),以荷馬史詩(shī)《奧德賽》中的希臘島嶼命名。Ithaca 架構(gòu)中的注意力機(jī)制能夠通過串聯(lián)輸入的單個(gè)字符、完整單詞的表征與順序位置來了解輸入文本的每一部分的位置,最終權(quán)衡不同的輸入對(duì)模型決策過程的影響。

完整架構(gòu)由多個(gè) Transformer 塊組成,每個(gè) Transformer 塊都輸出一個(gè)經(jīng)過處理的表征序列(Sequence of Processed Representations),其長(zhǎng)度即輸入字符的數(shù)量。其輸入隨后被傳遞給三個(gè)分別負(fù)責(zé)文字修復(fù)、地理歸屬、時(shí)間歸屬的任務(wù)頭,每個(gè)頭都由一個(gè)前饋的神經(jīng)網(wǎng)絡(luò)組成,專門負(fù)責(zé)各自任務(wù)的訓(xùn)練。

Ithaca 架構(gòu)

在文字修復(fù)任務(wù)中,Ithaca 會(huì)提供 20 個(gè)按概率排列的解析結(jié)果預(yù)測(cè):

解析結(jié)果預(yù)測(cè)

地理歸屬的確定上,則會(huì)依據(jù)古歷史學(xué)中的 84 個(gè)區(qū)域中對(duì)輸入文本進(jìn)行分類,將可能的區(qū)域預(yù)測(cè)類別通過地圖和柱狀圖展現(xiàn):

將可能的區(qū)域預(yù)測(cè)類別通過地圖和柱狀圖展現(xiàn)

日期歸屬任務(wù)同樣也通過分布預(yù)測(cè)的柱狀圖來展示。如下圖所示,公元前 300-250 年的日期 10 年一組,被表示為 5 個(gè)概率相同的范圍,而公元前 305 年的銘文將以 100% 的概率被分配到公元前 300-310 年的十年組:

日期歸屬任務(wù)

歷史學(xué)家的 AI 助手

研究人員分別將 Ithaca 與歷史學(xué)家、同類 AI 方法 Pythia、以及 Ithaca 與歷史學(xué)家合作等不同破解古文字的方法做了對(duì)比。

字錯(cuò)率(CER)總是越低越好,在文字修復(fù)任務(wù)上,Ithaca 的字錯(cuò)率和準(zhǔn)確率都最好,如果與歷史學(xué)家合作時(shí),效果還將再次提升。

字錯(cuò)率

在論文的最后,研究人員表示,研究方法適用于手稿學(xué)、錢幣學(xué)和紙草學(xué)等所有與古代文本相關(guān)的學(xué)科,也適用于古代、現(xiàn)代的任何語言。

目前,這一方法已經(jīng)投入了實(shí)際使用,比如在雅典時(shí)期頒布的某個(gè)重要法令的碑文的日期確認(rèn)上,歷史學(xué)家們之前認(rèn)為是在公元前 446/5 年之前書寫的。而 Ithaca 與歷史學(xué)家一起,將這一日期更新到了公元前 424/3 年:

雅典時(shí)期頒布的某個(gè)重要法令

Ithaca 現(xiàn)在提供了在線試用的途徑,登錄官網(wǎng),在方框中中輸入古希臘銘文,將缺少的字符標(biāo)記為破折號(hào)(-)),將預(yù)測(cè)的字符標(biāo)記為問號(hào)(?)。

在線試用

每次查詢最多可以預(yù)測(cè) 10 個(gè)連續(xù)或非連續(xù)的問號(hào),點(diǎn)擊查詢后將在下方顯示文本缺失的字符,并將其歸屬到原來的地點(diǎn)和時(shí)間:

顯示內(nèi)容

作者介紹

研究由 DeepMind、威尼斯卡福斯卡里大學(xué)(Ca’ Foscari University of Venice)、哈佛大學(xué)、雅典經(jīng)商大學(xué) (Athens University of Economics and Business)、谷歌幾家 AI 團(tuán)隊(duì)合作開發(fā)。

論文有兩位共同一作,其中 annis Assael 為 DeepMind 的 AI 部門的研究員,碩博都畢業(yè)于牛津大學(xué),同時(shí)也是福布斯“30 歲以下 30 名歐洲杰出科學(xué)家”之一:

論文一作

共同一作 Thea Sommerschield 則是一位歷史學(xué)家,目前任威尼斯佛斯卡里大學(xué)的人文科學(xué)院,以及哈佛大學(xué)希臘研究中心的研究員,主要研究領(lǐng)域是將機(jī)器學(xué)習(xí)應(yīng)用于研究古代地中海的書面文化。

論文一作

論文:

https://www.nature.com/articles/s41586-022-04448-z

開源鏈接:

https://github.com/DeepMind/ithaca

在線試用:

https://ithaca.DeepMind.com/?job=eyJyZXF1ZXN0SUQiOiJmYzUwNGY0NWNhZjJjZWMxZjIxZDA4YWVjNTdkMjEzMSIsImF0dHJpYnV0aW9uIjp0cnVlLCJyZXN0b3JhdGlvbiI6dHJ1ZX0%3D

廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:AI人工智能

軟媒旗下網(wǎng)站: IT之家 最會(huì)買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會(huì)買 要知