設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

3 分鐘看完一篇論文,AI 文本生成模型把今年 NeurIPS 2300+ 篇總結(jié)了個遍

量子位 2021/11/26 13:08:58 責(zé)編:江離

今年 NeurIPS 大會論文已經(jīng)放榜,終于可以學(xué)習(xí)一下大佬們的研究了。

不過,打開電腦,隨便點(diǎn)開一篇,就是一大段密密麻麻的文字糊臉…… 只是摘要就有這么長,還有 2300 多篇,這工作量實(shí)在勸退。

能不能讓論文們都做一道經(jīng)典的語文題:“用一句話概括全文內(nèi)容”?還真可以。

最近 Reddit 上的一位博主發(fā)布了一篇今年的 NeurIPS 大會論文匯總,其中的每篇論文下方(紅框中)都有一句由 AI 生成的高度凝練的總結(jié)

而這款 AI 文本分析軟件,其實(shí)就是東京工業(yè)大學(xué)團(tuán)隊(duì)開發(fā)的 Paper Digest。

它號稱能幫你把論文閱讀時間減少到 3 分鐘。

除了總結(jié)論文內(nèi)容以外,它還可以篩選出已經(jīng)發(fā)布代碼的論文。

同樣,這次 NeurIPS 大會上的 200 多篇已發(fā)布代碼的文章也被匯總了出來(可能會有疏漏)。

點(diǎn)擊“code”,就可以直接跳轉(zhuǎn)到相應(yīng)的 GitHub 頁面。

AI 如何做好概括題

那這個 AI 文本分析神器應(yīng)該怎么用呢?

很簡單,先打開 Paper Digest 的官網(wǎng)。完成一些注冊工作后,滑到一個搜索框的界面:

在這個搜索框里填上你要總結(jié)概括的論文的 DOI 號。

DOI 號就像論文的身份證號,是獨(dú)一無二的。以隨便打開的一篇論文為例,它長這樣(紅框中即為 DOI 號):

填完之后,點(diǎn)擊“Digest”就開始總結(jié)了:

只需幾秒鐘,就會有一句話的總結(jié)輸出,你也可以選擇一個最合適反饋給 Paper Digest,幫他們豐富數(shù)據(jù)庫。

除了輸入 DOI 號,如果你有本地的論文 PDF 文件,也可以直接導(dǎo)入。

是不是很方便?其實(shí)這樣方便好用的模型還不止一種。

比如,在一款免費(fèi)學(xué)術(shù)搜索引擎 Semantic Scholar 里,也加入了一個類似的高度概括 AI:TLDR。

TLDR(Too Long,Don’t Read),其實(shí)就是太長不看的意思……

在 Semantic Scholar 上搜索論文時,帶有 TLDR(紅框)標(biāo)志的就是 AI 生成的一句話總結(jié)。

具體到方法原理上,我們不妨以 TLDR 為例一起來看看。

舉個例子,下圖中上邊的格子中是摘要,簡介,結(jié)論中相對重要的段落和句子。TLDR 會標(biāo)記出突出的部分,然后組合成一個新的句子。

它的訓(xùn)練邏輯也很容易理解。簡單來說,就是先確定一個標(biāo)準(zhǔn)答案,然后把標(biāo)準(zhǔn)答案打亂,再讓 TLDR 嘗試復(fù)原。

這和人類提煉概括的過程也很像。概括本身也需要忽視一些干擾,然后提取出最重要的部分。

所以在訓(xùn)練之前要準(zhǔn)備兩個數(shù)據(jù)庫,也就是標(biāo)準(zhǔn)答案:一個是 SciTLDR,它包含接近 2000 篇計算機(jī)科學(xué)相關(guān)論文,每篇論文都有一個最好的總結(jié)。

另一個是論文-標(biāo)題對數(shù)據(jù)庫。由于標(biāo)題中一般有很多重要的語句,對生成 TLDR 來說很有幫助。

將這兩個數(shù)據(jù)庫分別加上控制碼“<TITLE>”和“<TLDR>”之后進(jìn)行混合,送入 BART 模型。

最后的 BART 模型是一個基于 Transformer 的預(yù)訓(xùn)練 sequence-to-sequence 去噪自編碼器,它的訓(xùn)練步驟主要有兩步:

首先用任意噪聲破壞函數(shù)文本,相當(dāng)于把標(biāo)準(zhǔn)答案打亂。然后讓模型學(xué)習(xí)重建原來的文本。這整個學(xué)習(xí)策略就是 CATTS。

來看看效果如何。

下圖中 TLDR-Auth 是論文作者本人寫的總結(jié),TLDR-PR 是本科學(xué)生讀完論文寫的總結(jié)。

BART 和 CATTS 分別是原有模型和 CATTS 模型給出的總結(jié)。

從重合度看起來效果還是不錯的。

相關(guān)推薦還需下功夫

不過,不論是 TLDR 還是 Paper Digest,都有不完善的地方。

TLDR 只針對計算機(jī)科學(xué)的論文進(jìn)行了總結(jié)。

而對于 Paper Digest,網(wǎng)友表示它雖然概括做得很好,但是相關(guān)推薦實(shí)在是不行,今后仍需改進(jìn)。

而且 Paper Digest 并不適用于所有論文。

目前,它只對來源于開放獲取期刊的論文或者本地 PDF 文件導(dǎo)入的論文有效。

但是不論哪種文本分析 AI,都可以快速獲取論文高度凝練的概括信息。

如果大家想快速了解今年 NeurIPS 大會的論文情況,可以從文末鏈接中找到這次的匯總。

參考鏈接

[1]https://www.reddit.com/r/MachineLearning/comments/r0gnej/r_one_sentence_highlight_for_every_neurips2021/

[2]https://aclanthology.org/2020.findings-emnlp.428.pdf

[3]https://www.paperdigest.org/2021/11/neurips-2021-highlights/

[4]https://www.paper-digest.com/

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:AI,論文,AI 文本生成模型NeurIPS

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會買 要知