設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

免費(fèi)開放,字節(jié)跳動與北京大學(xué)合作研發(fā)的數(shù)字化平臺“識典古籍”測試版上線

2022/10/12 13:31:46 來源:IT之家 作者:瀟公子 責(zé)編:瀟公子

IT之家 10 月 12 日消息,據(jù)字節(jié)跳動宣布,字節(jié)跳動與北京大學(xué)合作研發(fā)的古籍?dāng)?shù)字化平臺“識典古籍”測試版上線。目前,平臺已上線 390 部經(jīng)典古籍,共計(jì) 3000 多萬字,向公眾免費(fèi)開放。未來三年,“識典古籍”將陸續(xù)完成一萬種古籍的智能化整理工作,基本覆蓋儒家、道家和佛家的核心書目。

“識典古籍”測試版網(wǎng)站首頁,https://www.shidianguji.com/

據(jù)不完全統(tǒng)計(jì),中國現(xiàn)存古籍約 20 萬種,其中已經(jīng)完成數(shù)字化影像掃描的有 8 萬種,而實(shí)現(xiàn)文本數(shù)字化的僅 3-4 萬種。

為了方便大家在古籍“圖書館”里檢索、閱讀,“識典古籍”平臺主要采用三項(xiàng)人工智能技術(shù):

一、文字識別,也就是用 OCR(光學(xué)字符識別)技術(shù)將古籍影印版圖像識別成文字。目前行業(yè)內(nèi) OCR 的識別準(zhǔn)確率平均為 93% 至 94%,而“識典古籍”將這個數(shù)字提高到 96% 至 97%。

二、自動標(biāo)點(diǎn),指通過算法,給原本缺少斷句的古籍自動打上標(biāo)點(diǎn)符號。舉個例子,《論語》開篇“學(xué)而時習(xí)之不亦說乎”,自動標(biāo)點(diǎn)后的結(jié)果是“學(xué)而時習(xí)之,不亦說乎?”

三、命名實(shí)體識別,即識別古籍中的“專有名詞”,包括人名、地名、書籍、時間、官職五大類型。

字節(jié)跳動稱,與同類型平臺相比,“識典古籍”訪問比較穩(wěn)定,速度快。繁簡體轉(zhuǎn)換和主題詞檢索功能,便于高效獲取內(nèi)容。平臺還提供了權(quán)威來源的影印版底本,與數(shù)字化文本內(nèi)容互相對照。另外,一年多來,字節(jié)跳動資助國家圖書館定向修復(fù)珍貴古籍 104 冊件,現(xiàn)已完成 50 余冊件,包括一批稀有的樣式雷圖檔。

IT之家獲悉,未來,“識典古籍”還將實(shí)現(xiàn)全自動整理校對,并免費(fèi)開放這項(xiàng)能力,促進(jìn)存量古籍?dāng)?shù)字化。平臺還將向全社會開放古籍閱讀檢索研究能力,同時鼓勵擁有文獻(xiàn)的學(xué)者自行上傳文獻(xiàn),用戶還能參與再創(chuàng)作和再闡釋。

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:古籍,字節(jié)跳動

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會買 要知