設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

華為改進(jìn) Transformer 架構(gòu):盤古-π 解決特征缺陷問題,同規(guī)模性能超 LLaMA

量子位 2024/1/2 13:06:07 責(zé)編:問舟

華為盤古系列,帶來架構(gòu)層面上新!華為諾亞方舟實(shí)驗(yàn)室等聯(lián)合推出新型大語言模型架構(gòu):盤古-π。

它通過增強(qiáng)非線性,在傳統(tǒng) Transformer 架構(gòu)上做出改進(jìn),由此可以顯著降低特征塌陷問題。帶來的直接效果就是模型輸出表達(dá)能力更強(qiáng)。

在使用相同數(shù)據(jù)訓(xùn)練的情況下,盤古-π(7B)在多任務(wù)上超越 LLaMA 2 等同規(guī)模大模型,并能實(shí)現(xiàn) 10% 的推理加速。

在 1B 規(guī)模上可達(dá) SOTA。

同時(shí)還基于這一架構(gòu)煉出了一個(gè)金融法律大模型“云山”。

該工作由 AI 大牛陶大程領(lǐng)銜。

具體如何實(shí)現(xiàn)?一起來看。

利用非線性解決特征塌陷

目前常見大模型基本都采用 Transformer 架構(gòu),比如 GPT、LLaMA 等。

它的核心構(gòu)成包括多頭自注意力機(jī)制(MSA)和前饋網(wǎng)絡(luò)(FFN)。

MSA 的主要功能是計(jì)算輸入序列中每個(gè) token 和其他所有 token 之間的相關(guān)性,通過學(xué)習(xí)輸入序列中的依賴關(guān)系,可以增強(qiáng)對(duì)語言的理解能力。FFN 主要對(duì)輸入進(jìn)行非線性轉(zhuǎn)換,增強(qiáng)模型表達(dá)能力,使其可以逼近更復(fù)雜的函數(shù)。

不過,華為諾亞方舟實(shí)驗(yàn)室發(fā)現(xiàn),特征崩潰(feature collapse)會(huì)影響 Transformer 架構(gòu)的表現(xiàn),降低其表達(dá)能力,使模型難以區(qū)分不同輸入。

以 LLaMA 為例,在更深層的神經(jīng)網(wǎng)絡(luò)上,特征等級(jí)顯著降低,導(dǎo)致了所有 token 之間的相似性更強(qiáng)。

從機(jī)制上來看,自注意力模塊可以看做在完全圖上進(jìn)行信息聚合,連續(xù)堆疊多層注意力就像連續(xù)多層圖卷積一樣,會(huì)產(chǎn)生過度特征平滑效應(yīng)。

另一方面,多層感知器(MLP)中的激活函數(shù)提供的非線性還不夠,抑制特征崩潰的作用有限。

由此,團(tuán)隊(duì)想要提高模型的非線性表達(dá)能力,避免特征崩潰,進(jìn)而提出了本次工作盤古-π。

如下是盤古-π 的結(jié)構(gòu)示意:

在 FFN 中加入串聯(lián)激活函數(shù),在 MSA 中集成一種增強(qiáng)快捷連接(Aug-S),可以更有效地在 Transformer 架構(gòu)中引入更多非線性。

使用了增強(qiáng)快捷連接(Aug-S)的 MSA,能將每個(gè) token 的特征轉(zhuǎn)換為不同表示形式。

基于這一新架構(gòu),通過大規(guī)模訓(xùn)練和微調(diào),研究團(tuán)隊(duì)開發(fā)了一個(gè)盤古-π 基礎(chǔ)模型

實(shí)驗(yàn)結(jié)果顯示,該模型在多任務(wù)中表現(xiàn)超越其他同規(guī)模模型(分別測(cè)試了 7B 和 1B 規(guī)模)。

而且盤古-π-7B 可以達(dá)到約 10% 的推理加速。

同時(shí)團(tuán)隊(duì)還以此為基礎(chǔ)開發(fā)了一個(gè)金融法律領(lǐng)域大模型“云山”,它同樣在多個(gè) benchmark 中成績(jī)超越其他模型。

通訊作者為陶大程

值得關(guān)注的是,本項(xiàng)研究的團(tuán)隊(duì)陣容也非常亮眼。

通訊作者為陶大程。他是歐洲科學(xué)院外籍院士、澳大利亞科學(xué)院院士。本科就讀于中科大,碩士畢業(yè)于港中文 MMLab、師從湯曉鷗。

2007 年從英國(guó)博士畢業(yè)后,先后在中國(guó)香港理工大學(xué)、新加坡南洋理工大學(xué),澳大利亞悉尼科技大學(xué)、悉尼大學(xué)任教。目前是清華大學(xué)智能產(chǎn)業(yè)研究院 AIR 團(tuán)隊(duì)卓越訪問教授。

與此同時(shí),他還先后加盟過優(yōu)必選、京東,曾是京東最高級(jí)別 AI 科學(xué)家、擔(dān)任京東探索研究院院長(zhǎng)。

一作為王云鶴。他是 2012 實(shí)驗(yàn)室諾亞方舟實(shí)驗(yàn)室高級(jí)研究員,現(xiàn)任華為算法應(yīng)用部部長(zhǎng)。

王云鶴在華為負(fù)責(zé)高效 AI 算法的創(chuàng)新研發(fā)以及在華為業(yè)務(wù)中的應(yīng)用。他和團(tuán)隊(duì)開發(fā)了高效 AI 算法,其衍生應(yīng)用在中國(guó)天眼 FAST 觀測(cè)工作中,協(xié)助中科院國(guó)家天文臺(tái)專家找到了數(shù)百個(gè)新的快速射電暴樣本。

論文地址:

  • http://arxiv.org/abs/2312.17276

廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

軟媒旗下網(wǎng)站: IT之家 最會(huì)買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會(huì)買 要知