近年來,語言模型(LM)在自然語言處理(NLP)研究中變得更加突出,在實踐中也越來越有影響力。一般來說,擴大模型的規(guī)模已被證明可以提升在一系列 NLP 任務中的性能。
不過,擴大模型規(guī)模的挑戰(zhàn)也是顯而易見的:訓練新的、更大的模型需要大量的計算資源。此外,新的模型往往是從頭開始訓練的,無法利用以前的模型的訓練權重。
對于這個問題,谷歌的研究人員探討了兩種互補的方法,在不額外消耗大量計算資源的情況下,大幅提高現有語言模型的性能。
首先,在 「Transcending Scaling Laws with 0.1% Extra Compute」一文中,研究人員介紹了 UL2R,這是一個輕量級的第二階段預訓練模型,使用一個混合 enoisers 目標。UL2R 提高了一系列任務的性能,甚至在以前具有接近隨機性能的任務上釋放出突發(fā)性能。