1 月 20 日消息,據(jù)報(bào)道,近來(lái),AI 語(yǔ)言處理工具“tl;dr papers”在推特上得到大量學(xué)者推薦?!皌l;dr papers”運(yùn)用 AI 語(yǔ)言處理領(lǐng)域(AI language processing)的前沿技術(shù),根據(jù)論文摘要總結(jié)論文觀點(diǎn),能將難以理解的學(xué)術(shù)文章提煉為簡(jiǎn)潔通俗的短句,增強(qiáng)趣味性,不僅便于讀者閱讀,也為教育科普提供了新手段。同時(shí),它對(duì)文章的概括也能啟發(fā)研究人員從新角度重新審視研究對(duì)象。
英語(yǔ)俚語(yǔ)中用縮寫(xiě)“tl;dr”代表“Too Long;Didn’t Read”,意為“文章太長(zhǎng),沒(méi)有興趣看”。對(duì)于那些有難度、不想看的學(xué)術(shù)論文,“tl;dr papers”正好可以助你一臂之力,它將長(zhǎng)篇幅的文章濃縮至一句話,讓你能夠快速瀏覽文章內(nèi)容。
目前,AI 語(yǔ)言處理工具在微軟、谷歌等主流公司被廣泛應(yīng)用,但它們對(duì)訓(xùn)練數(shù)據(jù)的依賴(lài)性較高,不能自主辨別不良信息,甚至?xí)椭鷤鞑ミ@些信息。此外,AI 語(yǔ)言處理工具常產(chǎn)生違背基本常識(shí)的處理結(jié)果,其準(zhǔn)確性還有待提高。
一、一句話概括高難度論文,新科普手段出現(xiàn)
“tl;dr papers”是由亞什?達(dá)尼(Yash Dani)和辛迪?吳(Cindy Wu)在兩年前創(chuàng)建的 AI 語(yǔ)言處理網(wǎng)站,本意是協(xié)助自己了解更多軟件開(kāi)發(fā)知識(shí)。上周末,學(xué)者們紛紛在推特上分享“tl;dr papers”對(duì)其學(xué)術(shù)論文的概括總結(jié),熱度一夜飆升。“tl;dr papers”主要根據(jù)學(xué)術(shù)論文摘要進(jìn)行概括,刪減了學(xué)術(shù)術(shù)語(yǔ),用語(yǔ)簡(jiǎn)潔,雖然忽略了概念之間的細(xì)微差別,但整體上總結(jié)準(zhǔn)確,富有趣味性,得到學(xué)者們的廣泛肯定。
澳大利亞國(guó)立大學(xué)全球女性領(lǐng)導(dǎo)力研究所所長(zhǎng)米歇爾?瑞恩(Michelle Ryan)教授曾發(fā)表一篇關(guān)于“glass cliff”的文章,指出在組織面臨危機(jī)或經(jīng)濟(jì)低迷時(shí)期,女性比男性更有可能被選中擔(dān)任領(lǐng)導(dǎo)角色,這本質(zhì)上是一種性別歧視?!皌l;dr papers”將其概括為“很多女性被置于‘glass cliff’之上,這是一個(gè)糟糕的地方”,這句總結(jié)句式簡(jiǎn)單、意義明確,小學(xué)生也能毫不費(fèi)力地看懂。
▲ Ryan 教授在推特上發(fā)文支持“tl;dr papers”
賓夕法尼亞大學(xué)安納伯格傳播學(xué)院的博士生贊恩?格里芬?塔利?庫(kù)珀(Zane Griffin Talley Cooper)也用其概括了一篇有關(guān)“數(shù)據(jù)外圍(data peripheries)”的論文,原文內(nèi)容是追溯大數(shù)據(jù)基礎(chǔ)設(shè)施材料的物理學(xué)歷史。這篇論文最后被總結(jié)為“大數(shù)據(jù)存儲(chǔ)在硬盤(pán)驅(qū)動(dòng)器上,硬盤(pán)驅(qū)動(dòng)器由非常小的磁鐵制成,磁鐵從地下開(kāi)采出來(lái)?!睅?kù)珀意識(shí)到,表面上看“tl;dr papers”是用于娛樂(lè),但實(shí)際上它還可以被應(yīng)用到教學(xué)和研究中,比如幫助學(xué)生閱讀復(fù)雜的論文,為在線期刊生成簡(jiǎn)化版摘要,方便公眾閱讀。
二、看看機(jī)器如何理解,激發(fā)研究人員創(chuàng)造力
莫納什大學(xué)新興技術(shù)研究實(shí)驗(yàn)室的高級(jí)研究員賈森?薩多夫斯基(Jathan Sadowski)對(duì)“tl;dr papers”很感興趣,將它看作研究人員創(chuàng)造力的催化劑。他認(rèn)為“tl;dr papers”提供的總結(jié)往往具有“偶然的智慧”,這也許是機(jī)器學(xué)習(xí)無(wú)法完全理解語(yǔ)言的副產(chǎn)品,但機(jī)器提供的這些視角能夠幫助在自己的領(lǐng)域挖掘甚深的學(xué)者從更新奇的角度看待自己的研究對(duì)象。
薩多夫斯基認(rèn)為,像“tl;dr papers”這樣的 AI 語(yǔ)言處理工具可以挖掘自身作為“創(chuàng)造力催化劑”的定位。布萊恩?伊諾(Brian Eno)和彼得?施密特(Peter Schmidt)曾創(chuàng)造一組卡片“Oblique Strategies”,每張卡片上都有一個(gè)警句或評(píng)論,旨在通過(guò)鼓勵(lì)橫向思維來(lái)幫助藝術(shù)家(尤其是音樂(lè)家)打破創(chuàng)作障礙。“tl;dr papers”也可以提供類(lèi)似的服務(wù),激發(fā)學(xué)者開(kāi)拓新的思維模式。事實(shí)上,一些公司已經(jīng)察覺(jué)到 AI 在這方面的潛力,推出了 AI 創(chuàng)意寫(xiě)作助手。
▲ Oblique Strategies 網(wǎng)站隨機(jī)生成的警句
三、囿于數(shù)據(jù)庫(kù)和統(tǒng)計(jì)方法,AI 語(yǔ)言處理工具難辨是非
目前 AI 語(yǔ)言處理工具以訓(xùn)練數(shù)據(jù)為基礎(chǔ),而訓(xùn)練數(shù)據(jù)通常只是從互聯(lián)網(wǎng)上搜集的大量文本,因此這些 AI 語(yǔ)言處理工具有可能會(huì)強(qiáng)調(diào)不良信息,比如重復(fù)涉及種族主義和性別歧視的污言穢語(yǔ),還可能以更微妙的方式帶有偏見(jiàn)。
AI 語(yǔ)言處理工具的不準(zhǔn)確性也令人擔(dān)憂(yōu)。這些工具運(yùn)用統(tǒng)計(jì)方法處理語(yǔ)言,對(duì)內(nèi)容的理解方式與人類(lèi)不同,這可能會(huì)導(dǎo)致一些非?;镜腻e(cuò)誤,甚至可能危及生命。谷歌搜索曾在回答“癲癇發(fā)作應(yīng)對(duì)措施”問(wèn)題時(shí)提供了誤導(dǎo)性的醫(yī)療建議。去年 12 月,亞馬遜的語(yǔ)音助手 Alexa 在一個(gè)孩子讓其隨機(jī)推薦一個(gè)挑戰(zhàn)時(shí),引導(dǎo)孩子把手機(jī)充電器插到墻上插座的一半,然后用一枚硬幣去觸碰暴露在外的金屬頭。
▲ 用戶(hù)發(fā)布了 Alexa 給出的誤導(dǎo)性信息截圖
這些都說(shuō)明了 AI 語(yǔ)言處理工具在結(jié)構(gòu)模型上的弱點(diǎn),即作為模型基礎(chǔ)的數(shù)據(jù)魚(yú)龍混雜,模型采用的方法與人類(lèi)理解語(yǔ)言的方式也存在差距。薩多夫斯基認(rèn)為,像這樣的 AI 語(yǔ)言處理工具應(yīng)該小心處理,讓它們盡量可以發(fā)揮正面作用。
結(jié)語(yǔ):AI 語(yǔ)言處理工具拓展應(yīng)用范圍,但精確性還需加強(qiáng)
AI 語(yǔ)言處理工具“tl;dr papers”對(duì)高難度學(xué)術(shù)論文進(jìn)行了準(zhǔn)確、簡(jiǎn)潔的概括,使學(xué)術(shù)內(nèi)容以更富趣味性的形式呈現(xiàn)在大眾面前。這些概括不僅具有娛樂(lè)性,還能夠促進(jìn)知識(shí)科普,激發(fā)研究人員的創(chuàng)造力,助力教學(xué)和研究工作,展現(xiàn)了人工智能語(yǔ)言處理工具廣闊的應(yīng)用前景。
AI 語(yǔ)言處理工具長(zhǎng)期采用以統(tǒng)計(jì)為主的經(jīng)驗(yàn)主義方法,這種與人類(lèi)大相徑庭的語(yǔ)言理解方式幫助人們?cè)谟?jì)算機(jī)語(yǔ)言處理上取得了極大進(jìn)步。未來(lái),這種方法能否進(jìn)一步消除人們對(duì)其錯(cuò)誤傾向性、準(zhǔn)確性的擔(dān)憂(yōu),值得期待。
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。