不拆分單詞也可以做 NLP，哈工大最新模型在多項(xiàng)任務(wù)中打敗 BERT，還能直接訓(xùn)練中文

量子位 2022/3/5 15:13:16 責(zé)編：瀟公子

評(píng)論：

眾所周知，BERT 在預(yù)訓(xùn)練時(shí)會(huì)對(duì)某些單詞進(jìn)行拆分（術(shù)語(yǔ)叫做“WordPiece”）。比如把“l(fā)oved”、“l(fā)oving”和“l(fā)oves”拆分成“l(fā)ov”、“ed”、“ing”和”es”。

目的是縮減詞表、加快訓(xùn)練速度，但這樣一來(lái)，在某些時(shí)候反而會(huì)阻礙模型的理解能力。比如把”lossless”分成”loss”和”less”的時(shí)候。

現(xiàn)在，來(lái)自哈工大和騰訊 AI Lab 的研究人員，嘗試?yán)貌蛔鰡卧~拆分的詞匯表開發(fā)了一個(gè) BERT 風(fēng)格的預(yù)訓(xùn)練模型 ——WordBERT。結(jié)果，這個(gè) WordBERT 在完形填空測(cè)試和機(jī)器閱讀理解方面的成績(jī)相比 BERT 有了很大提高。

在其他 NLP 任務(wù)，比如詞性標(biāo)注 (POS-Tagging)、組塊分析 (Chunking) 和命名實(shí)體識(shí)別 (NER) 中，WordBERT 的表現(xiàn)也都優(yōu)于 BERT。由于不用分詞，這個(gè) WordBERT 還可以直接進(jìn)行中文訓(xùn)練。更值得一提的是，它在性能提升的同時(shí)，推理速度并沒有變慢。

不拆分單詞也可以做 NLP，哈工大最新模型在多項(xiàng)任務(wù)中打敗 BERT，還能直接訓(xùn)練中文

可謂一舉多得。

NO WordPieces

與 BERT 類似，WordBERT 包含兩個(gè)組件：詞向量（word embedding）和 Transformer 層。和以前的模型一樣，WordBERT 采用多層雙向 Transformer 來(lái)學(xué)習(xí)語(yǔ)境表示（contextualized representation）。

word embedding 則是用來(lái)獲得單詞向量表示的參數(shù)矩陣，與把單詞分成 WordPiece 的 BERT 相比，WordBERT 的詞匯由完整的單詞組成。他們用自然語(yǔ)言處理軟件包 Spacy 處理數(shù)據(jù)，生成了兩個(gè)詞匯表，一個(gè)規(guī)模為 500K，一個(gè)為 1M。詞匯表中還被單獨(dú)添加了 5 個(gè)特殊單詞：[PAD]、[UNK]、 [CLS]、[SEP] 和 [MASK]。

通過不同的詞匯表規(guī)模、初始化配置和不同語(yǔ)言，最后研究人員一共訓(xùn)練出四個(gè)版本的 WordBERT：WordBERT-500K、WordBERT-1M、WordBERT-Glove 和 WordBERT-ZH。

不拆分單詞也可以做 NLP，哈工大最新模型在多項(xiàng)任務(wù)中打敗 BERT，還能直接訓(xùn)練中文

它們的配置如上，嵌入?yún)?shù)都是隨機(jī)初始化的，嵌入維數(shù)和基準(zhǔn) BERT 保持一致。其中 WordBERT-Glove 用的詞匯表是現(xiàn)成的 Glove vocabulary，里面包含約 190 萬(wàn)個(gè)未編碼的單詞，該模型由相應(yīng)的單詞向量（word vectors）在 WordBERT 之上初始化而來(lái)。WordBERT-ZH 則是用中文詞匯訓(xùn)練出來(lái)的 WordBERT，它也保持了 768 的詞嵌入維數(shù)。

性能與速度兼具

在測(cè)試環(huán)節(jié)中，完形填空的測(cè)試數(shù)據(jù)集來(lái)自 CLOTH，它由中學(xué)教師設(shè)計(jì)，通常用來(lái)對(duì)中國(guó)初高中學(xué)生進(jìn)行入學(xué)考試。其中既有只需在當(dāng)前句子中進(jìn)行推理的簡(jiǎn)單題，也有需要在全文范圍內(nèi)進(jìn)行推理的難題。結(jié)果如下：

不拆分單詞也可以做 NLP，哈工大最新模型在多項(xiàng)任務(wù)中打敗 BERT，還能直接訓(xùn)練中文

△ M 代表初中，H 代表高中

WordBERT-1M 獲得了最佳成績(jī)，并接近人類水平。它在高中題比 BERT 高了 3.18 分，初中題高了 2.59 分，這說(shuō)明 WordBERT 在復(fù)雜任務(wù)中具有更高的理解和推理能力。在詞性標(biāo)注、組塊分析和命名實(shí)體識(shí)別（NER）等分類任務(wù)中，WordBERT 的成績(jī)?nèi)缦拢?/p>

不拆分單詞也可以做 NLP，哈工大最新模型在多項(xiàng)任務(wù)中打敗 BERT，還能直接訓(xùn)練中文

相比來(lái)看，它在 NER 任務(wù)上的優(yōu)勢(shì)更明顯一些（后兩列）。

研究人員推測(cè)，這可能是 WordBERT 在學(xué)習(xí)低頻詞的表征方面有優(yōu)勢(shì)，因?yàn)槊麑?shí)體（named entities）往往就是一些不常見的稀有詞。對(duì)于“中文版”WordBERT-ZH，研究人員在 CLUE benchmark 上的各種任務(wù)中測(cè)試其性能。除了 BERT，對(duì)比模型還包括 WoBERT 和 MarkBERT，這也是兩個(gè)基于 BERT 預(yù)訓(xùn)練的中文模型。

不拆分單詞也可以做 NLP，哈工大最新模型在多項(xiàng)任務(wù)中打敗 BERT，還能直接訓(xùn)練中文

結(jié)果，WordBERT-ZH 在四項(xiàng)任務(wù)中都打敗了所有其他對(duì)比模型，在全部五項(xiàng)任務(wù)上的表現(xiàn)都優(yōu)于基線 BERT，并在 TNEWS（分類）、OCNLI（推理）和 CSL（關(guān)鍵字識(shí)別）任務(wù)上取得了 3 分以上的差距。這說(shuō)明，基于詞的模型對(duì)中文也是非常有效的。

最后，實(shí)驗(yàn)還發(fā)現(xiàn)：性能不差的 WordBERT，在不同任務(wù)上的推理速度也并未“落于下風(fēng)”。

不拆分單詞也可以做 NLP，哈工大最新模型在多項(xiàng)任務(wù)中打敗 BERT，還能直接訓(xùn)練中文