首頁 > 科學(xué)探索>科技前沿

AI 中文語言理解得分首超人類，阿里達(dá)摩院創(chuàng)造新紀(jì)錄，大模型又立功了

量子位 2022/11/25 17:58:11 責(zé)編：遠(yuǎn)生

評論：

最新中文語言理解領(lǐng)域權(quán)威榜單 CLUE，誕生了一項新的紀(jì)錄：

來自阿里達(dá)摩院的大模型，獲得了超越人類成績的 86.685 高分。

AI 中文語言理解得分首超人類，阿里達(dá)摩院創(chuàng)造新紀(jì)錄，大模型又立功了

這是該榜單誕生近三年以來，首次有 AI 超過人類得分。

這也意味著 AI 理解中文的水平又達(dá)到了一個新的高度。

那么，創(chuàng)下這一紀(jì)錄的 AliceMind，是如何做到的？

4 項任務(wù)超人類水平，同時實(shí)現(xiàn)總榜平均分首次超越

作為業(yè)界最權(quán)威的中文自然語言理解榜單之一，CLUE 從文本分類、閱讀理解、自然語言推理等 9 項任務(wù)中全面考核 AI 模型的語言理解能力。

過去三年，該榜單吸引了眾多國內(nèi) NLP 團(tuán)隊的參與，盡管榜首位置多次易主，但參評 AI 模型一直未能超越人類成績。

本次，這個來源于阿里通義大模型系列的 AliceMind，一舉在 4 項任務(wù)中超過了人類水平，并實(shí)現(xiàn)總分的首次超越。

據(jù)介紹，AliceMind 一共靠下面兩個關(guān)鍵技術(shù)獲得這一成績。

首先，基礎(chǔ)模型迭代升級

AliceMind 的基礎(chǔ)模型在通用語言預(yù)訓(xùn)練模型 StructBERT1.0（入選 ICLR 2020）之上，進(jìn)行了迭代升級。

AI 中文語言理解得分首超人類，阿里達(dá)摩院創(chuàng)造新紀(jì)錄，大模型又立功了

此前 1.0 的工作聚焦于通過在句子級別和詞級別引入兩個新的目標(biāo)函數(shù)，相當(dāng)于給機(jī)器內(nèi)置一個“語法識別器”。

這使機(jī)器在面對語序錯亂或不符合語法習(xí)慣的詞句時，仍能準(zhǔn)確理解并給出正確的表達(dá)和回應(yīng)，大大提高機(jī)器對詞語、句子以及語言整體的理解力。

本次，達(dá)摩院通過使用此前團(tuán)隊用于 PLUG / 中文 GPT-3 等超大規(guī)模模型訓(xùn)練所使用的海量高質(zhì)量中文文本，以及近兩年訓(xùn)練技術(shù)的經(jīng)驗，進(jìn)行了以下改進(jìn)：

替換激活函數(shù)，用 GLU 替換 GeLU；
使用更大規(guī)模的字 / 詞混合的詞表，替換了原始的字級別詞表；
使用相對位置向量替代絕對位置向量；
選取 5 億規(guī)模的模型，在增加約 60% 模型參數(shù)和計算量的前提下，獲得性能顯著提升。

此外，阿里達(dá)摩院配合 AliceMind 在大規(guī)模預(yù)訓(xùn)練領(lǐng)域訓(xùn)練端和推理端的加速技術(shù)的積累，利用 StrongHold (SuperComputing 2022) 等技術(shù)實(shí)現(xiàn)了在 16 卡 A100 上用 14 天時間完成超過 500B tokens 的訓(xùn)練。

其次，F(xiàn)inetune

預(yù)訓(xùn)練模型是語義理解的重要基礎(chǔ)，但是如何將其應(yīng)用于下游任務(wù)同樣也是一項重要的挑戰(zhàn)。

達(dá)摩院 NLP 團(tuán)隊面對語義相似度、文本分類、閱讀理解等下游任務(wù)，從遷移學(xué)習(xí)、數(shù)據(jù)增強(qiáng)、特征增強(qiáng)等方面進(jìn)行了一系列的探索，來提升下游任務(wù)的性能表現(xiàn)。

以 CLUE 榜單中的 WSC 任務(wù)為例：

{

“target”: {

“span2_index”: 25, “span1_index”: 14,

“span1_text”: “小橋”，“span2_text”: “它”

“idx”: 14,

“l(fā)abel”: “true”，

“text”: “村里現(xiàn)在最高壽的人，也不知這小橋是什么年間建造的。它年年搖搖欲墜，但年年都存在著?！?/p>

}

輸入樣本構(gòu)建方式：

村里現(xiàn)在最高壽的人，也不知這 <名詞> 小橋 </名詞 > 是什么年間建造的。< 代詞 > 它 </代詞 > 年年搖搖欲墜，但年年都存在著。

在常規(guī)的分類方法中，一般使用 [CLS] 標(biāo)簽的最后一層隱藏狀態(tài)作為輸入分類器的特征，要求模型通過標(biāo)記隱式地學(xué)習(xí)指代任務(wù)。

為了加強(qiáng)分類器的輸入特征，阿里達(dá)摩院從編碼器最后一層隱藏狀態(tài)中提取出指代詞和名詞所對應(yīng)的向量表示并進(jìn)行 mean pooling。

隨后將名詞和代詞的向量表示進(jìn)行拼接，并用分類器進(jìn)行 0-1 分類。在加入增強(qiáng)輸入特征后，在 dev 集上，模型表現(xiàn)從 87.82 提升至 93.42 (+5.6)。

通過分析 structbert 的預(yù)訓(xùn)練任務(wù)，我們也可以發(fā)現(xiàn)，這種特征構(gòu)建的方式，更符合 structbert 預(yù)訓(xùn)練任務(wù)的形式，縮短了 Pretrain 階段和 Fine-tune 階段的 gap，從而提高了模型表現(xiàn)。

AI 中文語言理解得分首超人類，阿里達(dá)摩院創(chuàng)造新紀(jì)錄，大模型又立功了

△structbert 預(yù)訓(xùn)練任務(wù)

關(guān)于 AliceMind

阿里達(dá)摩院歷經(jīng)三年研發(fā)出阿里通義 AliceMind。

該模型體系涵蓋預(yù)訓(xùn)練模型、多語言預(yù)訓(xùn)練模型、超大中文預(yù)訓(xùn)練模型等，具備閱讀理解、機(jī)器翻譯、對話問答、文檔處理等能力。

AI 中文語言理解得分首超人類，阿里達(dá)摩院創(chuàng)造新紀(jì)錄，大模型又立功了

并先后登頂了 GLUE、CLUE、XTREME、VQA Challenge、DocVQA、MS MARCO 在內(nèi)的自然語言處理領(lǐng)域的的六大權(quán)威榜單，斬獲 36 項冠軍。

AliceMind 已于去年 6 月開源。

本次在 CLUE benchmark 上首超人類中所使用的 backbone 模型，已經(jīng)在達(dá)摩院此前發(fā)布的 ModelScope 平臺中開放。

開放地址：

https://modelscope.cn/models/damo/nlp_structbert2_fill-mask_chinese-large/summary

本文來自微信公眾號：量子位（ID：QbitAI），作者：豐色

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

AI 中文語言理解得分首超人類，阿里達(dá)摩院創(chuàng)造新紀(jì)錄，大模型又立功了

4 項任務(wù)超人類水平，同時實(shí)現(xiàn)總榜平均分首次超越

首先，基礎(chǔ)模型迭代升級

其次，F(xiàn)inetune

關(guān)于 AliceMind

相關(guān)文章

AI 中文語言理解得分首超人類，阿里達(dá)摩院創(chuàng)造新紀(jì)錄，大模型又立功了

4 項任務(wù)超人類水平，同時實(shí)現(xiàn)總榜平均分首次超越

首先，基礎(chǔ)模型迭代升級