設置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

今年高考英語 AI 得分 134,復旦武大校友這項研究有點意思

量子位 2022/6/25 12:57:08 責編:長河

在挑戰(zhàn)寫語文作文后,AI 現(xiàn)在又盯上了高考英語。

結果好家伙,今年高考英語卷(全國甲卷)一上手,就拿了 134 分。

而且不是偶然的超常發(fā)揮。

在 2018-2021 年的 10 套真題測試中,AI 的分數(shù)都在 125 分以上,最高紀錄為 138.5 分,聽力和閱讀理解還拿過滿分。

這就是由 CMU 學者提出的,高考英語測試 AI 系統(tǒng) Qin。

它的參數(shù)量只有 GPT-3 的 16 分之一,平均成績卻比 GPT-3 高出 15 分

其背后的秘訣名叫重構預訓練 (reStructured Pre-training),是作者提出的一種新學習范式。

具體來看,就是把維基百科、YouTube 等平臺的信息重新提取重構,再喂給 AI 進行訓練,由此讓 AI 具有更強的泛化能力。

兩位學者用足足 100 多頁的論文,深入解釋了這一新范式。

那么,這一范式到底講了什么?

我們來深扒一下~

什么是重構預訓練?

論文題目很簡單,就叫 reStructured Pre-training(重構預訓練,RST)。

核心觀點凝練來說就是一句話,要重視數(shù)據(jù)啊!

作者認為,這個世界上有價值的信息無處不在,而目前的 AI 系統(tǒng)并沒有充分利用數(shù)據(jù)中的信息。

比如像維基百科,Github,里面包含了各種可以供模型學習的信號:實體,關系,文本摘要,文本主題等。這些信號之前由于技術瓶頸都沒有被考慮。

所以,作者在本文中提出了一種方法,可以用神經(jīng)網(wǎng)絡統(tǒng)一地存儲和訪問包含各種類型信息的數(shù)據(jù)。

他們以信號為單位、結構化地表示數(shù)據(jù),這很類似于數(shù)據(jù)科學里我們常常將數(shù)據(jù)構造成表或 JSON 格式,然后通過專門的語言(如 SQL)來檢索所需的信息。

具體來看,這里的信號,其實就是指數(shù)據(jù)中的有用信息。

比如在“莫扎特生于薩爾茨堡”這句話中,“莫扎特”、“薩爾茨堡”就是信號。

然后,就需要在各種平臺上挖掘數(shù)據(jù)、提取信號,作者把這個過程比作了從礦山里尋寶。

接下來,利用 prompt 方法,就能將這些來自不同地方的信號統(tǒng)一成一種形式。

最后,再將這些重組的數(shù)據(jù)集成并存儲到語言模型中。

這樣一來,該研究就能從 10 個數(shù)據(jù)源中,統(tǒng)一 26 種不同類型的信號,讓模型獲得很強的泛化能力。

結果表明,在多個數(shù)據(jù)集中,RST-T、RST-A 零樣本學習的表現(xiàn),都優(yōu)于 GPT-3 的少樣本學習性能

而為了更進一步測試新方法的表現(xiàn),作者還想到了讓 AI 做高考題的方法。

他們表示,現(xiàn)在很多工作方法走的都是漢化 GPT-3 的思路,在評估的應用場景上也是跟隨 OpenAI、DeepMind。

比如 GLUE 測評基準、蛋白質折疊評分等。

基于對當下 AI 模型發(fā)展的觀察,作者認為可以開辟出一條新的賽道試試,所以就想到了用高考給 AI 練練手。

他們找來了前后幾年共 10 套試卷進行標注,請高中老師來進行打分。

像聽力 / 識圖理解這樣的題目,還找來機器視覺、語音識別領域的學者幫忙。

最終,煉出了這套高考英語 AI 模型,也可以叫她為 Qin。

從測試結果可以看到,Qin 絕對是學霸級別了,10 套卷子成績都高于 T0pp 和 GPT-3。

此外,作者還提出了高考 benchmark。

他們覺得當下很多評價基準的任務都很單一,大多沒有實用價值,和人類情況對比也比較困難。

而高考題目既涵蓋了各種各樣的知識點,還直接有人類分數(shù)來做比對,可以說是一箭雙雕了。

NLP 的第五范式?

如果從更深層次來看,作者認為,重構預訓練或許會成為 NLP 的一種新范式,即把預訓練 / 微調過程視為數(shù)據(jù)存儲 / 訪問過程。

此前,作者將 NLP 的發(fā)展總結成了 4 種范式:

  • P1. 非神經(jīng)網(wǎng)絡時代的完全監(jiān)督學習 (Fully Supervised Learning, Non-Neural Network)

  • P2. 基于神經(jīng)網(wǎng)絡的完全監(jiān)督學習 (Fully Supervised Learning, Neural Network)

  • P3. 預訓練,精調范式 (Pre-train, Fine-tune)

  • P4. 預訓練,提示,預測范式(Pre-train, Prompt, Predict)

但是基于當下對 NLP 發(fā)展的觀察,他們認為或許之后可以以一種 data-centric 的方式來看待問題。

也就是,預訓 / 精調、few-shot / zero-shot 等概念的差異化會更加模糊,核心只關注一個點 ——

有價值的信息有多少、能利用多少

此外,他們還提出了一個 NLP 進化假說。

其中的核心思想是,技術發(fā)展方向總是順著這樣的 —— 做更少的事實現(xiàn)更好、更通用的系統(tǒng)。

作者認為,NLP 經(jīng)歷了特征工程、架構工程、目標工程、提示工程,當下正在朝著數(shù)據(jù)工程方向發(fā)展。

復旦武大校友打造

本篇論文的一作為 Weizhe Yuan。

她本科畢業(yè)于武漢大學,后赴卡內(nèi)基梅隆大學讀研,學習數(shù)據(jù)科學專業(yè)。

研究方向集中在 NLP 任務的文本生成和評估。

去年,她被 AAAI 2022、NeurIPS 2021 分別接收了一篇論文,還獲得了 ACL 2021 Best Demo Paper Award。

論文的通訊作者為卡內(nèi)基梅隆大學語言技術研究所(LTI)的博士后研究員劉鵬飛。

他于 2019 年在復旦大學計算機系獲得博士學位,師從邱錫鵬教授、黃萱菁教授。

研究興趣包括 NLP 模型可解釋性、遷移學習、任務學習等。

博士期間,他包攬了各種計算機領域的獎學金,包括 IBM 博士獎學金、微軟學者獎學金、騰訊人工智能獎學金、百度獎學金。

One More Thing

值得一提的是,劉鵬飛在和我們介紹這項工作時,直言“最初我們就沒打算拿去投稿”。

這是因為他們不想讓會議論文的格式限制了構思論文的想象力

我們決定把這篇論文當作一個故事來講,并給“讀者”一種看電影的體驗。

這也是為什么我們在第三頁,設置了一個“觀影模式“的全景圖。

就是為了帶著大家去了解 NLP 發(fā)展的歷史,以及我們所展望的未來是怎樣的,讓每一個研究者都能有一定的代入感,感受到自己去帶領著預訓練語言模型們 (PLMs) 通過礦山尋寶走向更好明天的一個過程。

論文結尾,還藏了一些驚喜彩蛋。

比如 PLMs 主題表情包:

還有結尾的插畫:

這么看,100 多頁的論文讀起來也不會累了~

論文地址:

https://arxiv.org/abs/2206.11147

廣告聲明:文內(nèi)含有的對外跳轉鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結果僅供參考,IT之家所有文章均包含本聲明。

相關文章

關鍵詞:AI,人工智能

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機APP應用 魔方 最會買 要知