IT之家 1 月 11 日消息,中國網(wǎng)絡(luò)空間安全協(xié)會(huì)于 1 月 9 日發(fā)布公告,面向社會(huì)發(fā)布中文互聯(lián)網(wǎng)語料資源平臺(tái),支持行業(yè)領(lǐng)域、內(nèi)容模態(tài)、體量規(guī)模等多種標(biāo)簽分類,便于用戶下載與使用。
該協(xié)會(huì)表示在中央網(wǎng)信辦指導(dǎo)下,會(huì)同國家互聯(lián)網(wǎng)應(yīng)急中心,在前期發(fā)布中文互聯(lián)網(wǎng)基礎(chǔ)語料 1.0 的基礎(chǔ)上,依托專委會(huì)建立的語料共建共享機(jī)制,匯聚一批新的高質(zhì)量可信數(shù)據(jù),經(jīng)過信源篩選、內(nèi)容過濾、數(shù)據(jù)去重等一系列嚴(yán)格細(xì)致的數(shù)據(jù)加工處理措施,形成并對(duì)社會(huì)發(fā)布中文互聯(lián)網(wǎng)基礎(chǔ)語料 2.0,規(guī)模 120GB,數(shù)據(jù) 3800 萬條。
IT之家注:目前平臺(tái)共入駐 27 個(gè)語料數(shù)據(jù)集,數(shù)據(jù)總量約 2.7T,主要分三類:
一是中國網(wǎng)絡(luò)空間安全協(xié)會(huì)會(huì)同國家互聯(lián)網(wǎng)應(yīng)急中心等建設(shè)的中文互聯(lián)網(wǎng)基礎(chǔ)語料;
二是人民網(wǎng)、北京智源研究院、上海人工智能實(shí)驗(yàn)室等單位共享的互聯(lián)網(wǎng)語料;
三是中國網(wǎng)絡(luò)空間研究院、中國國家版本館、中國大百科全書出版社、中國社會(huì)科學(xué)院圖書館等單位貢獻(xiàn)的優(yōu)質(zhì)中文基礎(chǔ)語料樣本。
用戶登錄中國網(wǎng)絡(luò)空間安全協(xié)會(huì)網(wǎng)站(https://www.cybersac.cn/ newhome),點(diǎn)擊“中文互聯(lián)網(wǎng)語料資源平臺(tái)”鏈接,通過注冊(cè)、認(rèn)證等程序,即可下載相關(guān)語料。
網(wǎng)安協(xié)會(huì)人工智能安全治理專委會(huì)負(fù)責(zé)人表示,數(shù)據(jù)是發(fā)展人工智能的基礎(chǔ)關(guān)鍵資源,中文互聯(lián)網(wǎng)基礎(chǔ)語料 2.0 是各界協(xié)同共建高質(zhì)量中文語料的又一重要成果,專委會(huì)將持續(xù)加強(qiáng)中文互聯(lián)網(wǎng)基礎(chǔ)語料建設(shè),為人工智能技術(shù)創(chuàng)新和產(chǎn)業(yè)發(fā)展提供有力支撐和保障。
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。