首頁 > 智能時代>人工智能

3 分鐘看完一篇論文，AI 文本生成模型把今年 NeurIPS 2300+ 篇總結(jié)了個遍

量子位 2021/11/26 13:08:58 責(zé)編：江離

評論：

今年 NeurIPS 大會論文已經(jīng)放榜，終于可以學(xué)習(xí)一下大佬們的研究了。

不過，打開電腦，隨便點(diǎn)開一篇，就是一大段密密麻麻的文字糊臉…… 只是摘要就有這么長，還有 2300 多篇，這工作量實(shí)在勸退。

3 分鐘看完一篇論文，AI 文本生成模型把今年 NeurIPS 2300+ 篇總結(jié)了個遍

能不能讓論文們都做一道經(jīng)典的語文題：“用一句話概括全文內(nèi)容”？還真可以。

最近 Reddit 上的一位博主發(fā)布了一篇今年的 NeurIPS 大會論文匯總，其中的每篇論文下方（紅框中）都有一句由 AI 生成的高度凝練的總結(jié)。

3 分鐘看完一篇論文，AI 文本生成模型把今年 NeurIPS 2300+ 篇總結(jié)了個遍

而這款 AI 文本分析軟件，其實(shí)就是東京工業(yè)大學(xué)團(tuán)隊(duì)開發(fā)的 Paper Digest。

它號稱能幫你把論文閱讀時間減少到 3 分鐘。

3 分鐘看完一篇論文，AI 文本生成模型把今年 NeurIPS 2300+ 篇總結(jié)了個遍

除了總結(jié)論文內(nèi)容以外，它還可以篩選出已經(jīng)發(fā)布代碼的論文。

同樣，這次 NeurIPS 大會上的 200 多篇已發(fā)布代碼的文章也被匯總了出來（可能會有疏漏）。

點(diǎn)擊“code”，就可以直接跳轉(zhuǎn)到相應(yīng)的 GitHub 頁面。

3 分鐘看完一篇論文，AI 文本生成模型把今年 NeurIPS 2300+ 篇總結(jié)了個遍

AI 如何做好概括題

那這個 AI 文本分析神器應(yīng)該怎么用呢？

很簡單，先打開 Paper Digest 的官網(wǎng)。完成一些注冊工作后，滑到一個搜索框的界面：

3 分鐘看完一篇論文，AI 文本生成模型把今年 NeurIPS 2300+ 篇總結(jié)了個遍

在這個搜索框里填上你要總結(jié)概括的論文的 DOI 號。

DOI 號就像論文的身份證號，是獨(dú)一無二的。以隨便打開的一篇論文為例，它長這樣（紅框中即為 DOI 號）：

3 分鐘看完一篇論文，AI 文本生成模型把今年 NeurIPS 2300+ 篇總結(jié)了個遍

填完之后，點(diǎn)擊“Digest”就開始總結(jié)了：

3 分鐘看完一篇論文，AI 文本生成模型把今年 NeurIPS 2300+ 篇總結(jié)了個遍

只需幾秒鐘，就會有一句話的總結(jié)輸出，你也可以選擇一個最合適反饋給 Paper Digest，幫他們豐富數(shù)據(jù)庫。

3 分鐘看完一篇論文，AI 文本生成模型把今年 NeurIPS 2300+ 篇總結(jié)了個遍

除了輸入 DOI 號，如果你有本地的論文 PDF 文件，也可以直接導(dǎo)入。

3 分鐘看完一篇論文，AI 文本生成模型把今年 NeurIPS 2300+ 篇總結(jié)了個遍

是不是很方便？其實(shí)這樣方便好用的模型還不止一種。

比如，在一款免費(fèi)學(xué)術(shù)搜索引擎 Semantic Scholar 里，也加入了一個類似的高度概括 AI：TLDR。

TLDR（Too Long，Don’t Read），其實(shí)就是太長不看的意思……

在 Semantic Scholar 上搜索論文時，帶有 TLDR（紅框）標(biāo)志的就是 AI 生成的一句話總結(jié)。

3 分鐘看完一篇論文，AI 文本生成模型把今年 NeurIPS 2300+ 篇總結(jié)了個遍

具體到方法原理上，我們不妨以 TLDR 為例一起來看看。

舉個例子，下圖中上邊的格子中是摘要，簡介，結(jié)論中相對重要的段落和句子。TLDR 會標(biāo)記出突出的部分，然后組合成一個新的句子。

3 分鐘看完一篇論文，AI 文本生成模型把今年 NeurIPS 2300+ 篇總結(jié)了個遍

它的訓(xùn)練邏輯也很容易理解。簡單來說，就是先確定一個標(biāo)準(zhǔn)答案，然后把標(biāo)準(zhǔn)答案打亂，再讓 TLDR 嘗試復(fù)原。

這和人類提煉概括的過程也很像。概括本身也需要忽視一些干擾，然后提取出最重要的部分。

所以在訓(xùn)練之前要準(zhǔn)備兩個數(shù)據(jù)庫，也就是標(biāo)準(zhǔn)答案：一個是 SciTLDR，它包含接近 2000 篇計算機(jī)科學(xué)相關(guān)論文，每篇論文都有一個最好的總結(jié)。

另一個是論文-標(biāo)題對數(shù)據(jù)庫。由于標(biāo)題中一般有很多重要的語句，對生成 TLDR 來說很有幫助。

將這兩個數(shù)據(jù)庫分別加上控制碼“<TITLE>”和“<TLDR>”之后進(jìn)行混合，送入 BART 模型。

最后的 BART 模型是一個基于 Transformer 的預(yù)訓(xùn)練 sequence-to-sequence 去噪自編碼器，它的訓(xùn)練步驟主要有兩步：

首先用任意噪聲破壞函數(shù)文本，相當(dāng)于把標(biāo)準(zhǔn)答案打亂。然后讓模型學(xué)習(xí)重建原來的文本。這整個學(xué)習(xí)策略就是 CATTS。

3 分鐘看完一篇論文，AI 文本生成模型把今年 NeurIPS 2300+ 篇總結(jié)了個遍

來看看效果如何。

下圖中 TLDR-Auth 是論文作者本人寫的總結(jié)，TLDR-PR 是本科學(xué)生讀完論文寫的總結(jié)。

BART 和 CATTS 分別是原有模型和 CATTS 模型給出的總結(jié)。

3 分鐘看完一篇論文，AI 文本生成模型把今年 NeurIPS 2300+ 篇總結(jié)了個遍

從重合度看起來效果還是不錯的。

3 分鐘看完一篇論文，AI 文本生成模型把今年 NeurIPS 2300+ 篇總結(jié)了個遍

AI 如何做好概括題

相關(guān)推薦還需下功夫

相關(guān)文章

3 分鐘看完一篇論文，AI 文本生成模型把今年 NeurIPS 2300+ 篇總結(jié)了個遍

AI 如何做好概括題

相關(guān)推薦還需下功夫

相關(guān)文章

3 分鐘看完一篇論文，AI 文本生成模型把今年 NeurIPS 2300+ 篇總結(jié)了個遍