首頁 > 科學(xué)探索>科技前沿

Transformer 全新里程碑，誕生 6 年，開山之作被引近 8 萬

新智元 2023/6/15 12:40:01 責(zé)編：夢澤

評論：

原文標(biāo)題：《Transformer 全新里程碑！誕生 6 年，開山之作被引近 8 萬，沒奪下 NeurIPS 最佳論文，卻徹底改變 AI 界》

Transformer，6 歲了！2017 年，Attention is All You Need 奠基之作問世，至今被引數(shù)近 8 萬。這個王者架構(gòu)還能繼續(xù)打多久？

2017 年 6 月 12 日，Attention is All You Need，一聲炸雷，大名鼎鼎的 Transformer 橫空出世。

它的出現(xiàn)，不僅讓 NLP 變了天，成為自然語言領(lǐng)域的主流模型，還成功跨界 CV，給 AI 界帶來了意外的驚喜。

到今天為止，Transformer 誕生 6 周年。而這篇論文被引數(shù)高達(dá) 77926。

Transformer 全新里程碑，誕生 6 年，開山之作被引近 8 萬

英偉達(dá)科學(xué)家 Jim Fan 對這篇蓋世之作做了深度總結(jié)：

1. Transformer 并沒有發(fā)明注意力，而是將其推向極致。

第一篇注意力論文是在 3 年前（2014 年）發(fā)表的。

這篇論文來自 Yoshua Bengio 的實(shí)驗(yàn)室，而標(biāo)題并不起眼「Neural Machine Translation by Jointly Learning to Align and Translate」。

Transformer 全新里程碑，誕生 6 年，開山之作被引近 8 萬

它是「RNN + 上下文向量」（即注意力）的組合。

或許很多人都沒有聽說過這篇論文，但它是 NLP 中最偉大的里程碑之一，已經(jīng)被引用了 29K 次（相比之下，Transformer 為 77K）。

2. Transformer 和最初的注意力論文，都沒有談到通用序列計(jì)算機(jī)。

相反，兩者都為了解決一個狹隘而具體的問題：機(jī)器翻譯。值得注意的是，AGI（不久的某一天）可以追溯到不起眼的谷歌翻譯。

3. Transformer 發(fā)表在 2017 年的 NeurIPS 上，這是全球頂級的人工智能會議之一。然而，它甚至沒有獲得 Oral 演講，更不用說獲獎了。

那一年的 NeurIPS 上有 3 篇最佳論文。截止到今天，它們加起來有 529 次引用。

Transformer 全新里程碑，誕生 6 年，開山之作被引近 8 萬

Transformer 這一經(jīng)典之作卻在 NeurIPS 2017 沒有引起很多人的關(guān)注。

對此，Jim Fan 認(rèn)為，在一項(xiàng)出色的工作變得有影響力之前，很難讓人們認(rèn)可它。

Transformer 全新里程碑，誕生 6 年，開山之作被引近 8 萬

我不會責(zé)怪 NeurIPS 委員會 —— 獲獎?wù)撐娜匀皇且涣鞯?，但影響力沒有那么大。一個反例是 ResNet。

何凱明等人在 CVPR 2016 年獲得了最佳論文。這篇論文當(dāng)之無愧，得到了正確的認(rèn)可。

2017 年，該領(lǐng)域聰明的人中，很少有人能夠預(yù)測到今天 LLM 革命性的規(guī)模。就像 20 世紀(jì) 80 年代一樣，很少有人能預(yù)見自 2012 年以來深度學(xué)習(xí)的海嘯。

Transformer 全新里程碑，誕生 6 年，開山之作被引近 8 萬

OpenAI 科學(xué)家 Andrej Karpathy 對 Jim Fan 第 2 點(diǎn)總結(jié)頗感興趣，并表示，

介紹注意力的論文（由 @DBahdanau , @kchonyc , Bengio）比「Attention is All You Need」的論文受到的關(guān)注要少 1000 倍。而且從歷史上看，這兩篇論文都非常普通，但有趣的是恰好都是為機(jī)器翻譯而開發(fā)的。

Transformer 全新里程碑，誕生 6 年，開山之作被引近 8 萬

你只需要注意力！

Transformer 誕生之前，AI 圈的人在自然語言處理中大都采用基于 RNN（循環(huán)神經(jīng)網(wǎng)絡(luò)）的編碼器-解碼器（Encoder-Decoder）結(jié)構(gòu)來完成序列翻譯。

然而，RNN 及其衍生的網(wǎng)絡(luò)最致命的缺點(diǎn)就是慢。關(guān)鍵問題就在于前后隱藏狀態(tài)的依賴性，無法實(shí)現(xiàn)并行。

Transformer 全新里程碑，誕生 6 年，開山之作被引近 8 萬

Transformer 的現(xiàn)世可謂是如日中天，讓許多研究人員開啟了追星之旅。

2017 年，8 位谷歌研究人員發(fā)表了 Attention is All You Need?？梢哉f，這篇論文是 NLP 領(lǐng)域的顛覆者。

Transformer 全新里程碑，誕生 6 年，開山之作被引近 8 萬

論文地址：https://arxiv.org/ pdf / 1706.03762.pdf

它完全摒棄了遞歸結(jié)構(gòu)，依賴注意力機(jī)制，挖掘輸入和輸出之間的關(guān)系，進(jìn)而實(shí)現(xiàn)了并行計(jì)算。

甚至，有人發(fā)問「有了 Transformer 框架后是不是 RNN 完全可以廢棄了？」

Transformer 全新里程碑，誕生 6 年，開山之作被引近 8 萬

JimFan 所稱 Transformer 當(dāng)初的設(shè)計(jì)是為了解決翻譯問題，毋庸置疑。

谷歌當(dāng)年發(fā)的博客，便闡述了 Transformer 是一種語言理解的新型神經(jīng)網(wǎng)絡(luò)架構(gòu)。

Transformer 全新里程碑，誕生 6 年，開山之作被引近 8 萬

文章地址：https://ai.googleblog.com/ 2017/08 / transformer-novel-neural-network.html

具體來講，Transformer 由四部分組成：輸入、編碼器、解碼器，以及輸出。

輸入字符首先通過 Embedding 轉(zhuǎn)為向量，并加入位置編碼（Positional Encoding）來添加位置信息。

然后，通過使用多頭自注意力和前饋神經(jīng)網(wǎng)絡(luò)的「編碼器」和「解碼器」來提取特征，最后輸出結(jié)果。

Transformer 全新里程碑，誕生 6 年，開山之作被引近 8 萬

如下圖所示，谷歌給出了 Transformer 如何用在機(jī)器翻譯中的例子。

機(jī)器翻譯的神經(jīng)網(wǎng)絡(luò)通常包含一個編碼器，在讀取完句子后生成一個表征。空心圓代表著 Transformer 為每個單詞生成的初始表征。

然后，利用自注意力，從所有其他的詞中聚合信息，在整個上下文中為每個詞產(chǎn)生一個新表征，由實(shí)心圓表示。

接著，將這個步驟對所有單詞并行重復(fù)多次，依次生成新的表征。

Transformer 全新里程碑，誕生 6 年，開山之作被引近 8 萬

同樣，解碼器的過程與之類似，但每次從左到右生成一個詞。它不僅關(guān)注其他先前生成的單詞，還關(guān)注編碼器生成的最終表征。

2019 年，谷歌還專門為其申請了專利。

Transformer 全新里程碑，誕生 6 年，開山之作被引近 8 萬

自此，在自然語言處理中，Transformer 逆襲之路頗有王者之風(fēng)。

歸宗溯源，現(xiàn)在各類層出不窮的 GPT（Generative Pre-trained Transformer），都起源于這篇 17 年的論文。

Transformer 全新里程碑，誕生 6 年，開山之作被引近 8 萬

然而，Transformer 燃爆的不僅是 NLP 學(xué)術(shù)圈。

萬能 Transformer：從 NLP 跨到 CV

2017 年的谷歌博客中，研究人員曾對 Transformer 未來應(yīng)用潛力進(jìn)行了暢享：

不僅涉及自然語言，還涉及非常不同的輸入和輸出，如圖像和視頻。

Transformer 全新里程碑，誕生 6 年，開山之作被引近 8 萬

沒錯，在 NLP 領(lǐng)域掀起巨浪后，Transformer 又來「踢館」計(jì)算機(jī)視覺領(lǐng)域。甚至，當(dāng)時許多人狂呼 Transformer 又攻下一城。

自 2012 年以來，CNN 已經(jīng)成為視覺任務(wù)的首選架構(gòu)。

隨著越來越高效的結(jié)構(gòu)出現(xiàn)，使用 Transformer 來完成 CV 任務(wù)成為了一個新的研究方向，能夠降低結(jié)構(gòu)的復(fù)雜性，探索可擴(kuò)展性和訓(xùn)練效率。

2020 年 10 月，谷歌提出的 Vision Transformer (ViT)，不用卷積神經(jīng)網(wǎng)絡(luò)（CNN），可以直接用 Transformer 對圖像進(jìn)行分類。

Transformer 全新里程碑，誕生 6 年，開山之作被引近 8 萬

值得一提的是，ViT 性能表現(xiàn)出色，在計(jì)算資源減少 4 倍的情況下，超過最先進(jìn)的 CNN。

緊接著，2021 年，OpenAI 連仍兩顆炸彈，發(fā)布了基于 Transformer 打造的 DALL-E，還有 CLIP。

Transformer 全新里程碑，誕生 6 年，開山之作被引近 8 萬

這兩個模型借助 Transformer 實(shí)現(xiàn)了很好的效果。DALL-E 能夠根據(jù)文字輸出穩(wěn)定的圖像。而 CLIP 能夠?qū)崿F(xiàn)圖像與文本的分類。

再到后來的 DALL-E 進(jìn)化版 DALL-E 2，還有 Stable Diffusion，同樣基于 Transformer 架構(gòu)，再次顛覆了 AI 繪畫。

以下，便是基于 Transformer 誕生的模型的整條時間線。

Transformer 全新里程碑，誕生 6 年，開山之作被引近 8 萬

由此可見，Transformer 是有多么地能打。

2021 年，當(dāng)時就連谷歌的研究人員 David Ha 表示，Transformers 是新的 LSTMs。

Transformer 全新里程碑，誕生 6 年，開山之作被引近 8 萬

而他曾在 Transformer 誕生之前，還稱 LSTM 就像神經(jīng)網(wǎng)絡(luò)中的 AK47。無論我們?nèi)绾闻τ眯碌臇|西來取代它，它仍然會在 50 年后被使用。

Transformer 全新里程碑，誕生 6 年，開山之作被引近 8 萬

Transformer 僅用 4 年的時間，打破了這一預(yù)言。

新硅谷「七叛徒」

如今，6 年過去了，曾經(jīng)聯(lián)手打造出谷歌最強(qiáng) Transformer 的「變形金剛們」怎么樣了？

Jakob Uszkoreit 被公認(rèn)是 Transformer 架構(gòu)的主要貢獻(xiàn)者。

Transformer 全新里程碑，誕生 6 年，開山之作被引近 8 萬

他在 2021 年中離開了 Google，并共同創(chuàng)立了 Inceptive Labs，致力于使用神經(jīng)網(wǎng)絡(luò)設(shè)計(jì) mRNA。

Transformer 全新里程碑，誕生 6 年，開山之作被引近 8 萬

到目前為止，他們已經(jīng)籌集了 2000 萬美元，并且團(tuán)隊(duì)規(guī)模也超過了 20 人。

Transformer 全新里程碑，誕生 6 年，開山之作被引近 8 萬

Ashish Vaswani 在 2021 年底離開 Google，創(chuàng)立了 AdeptAILabs。

Transformer 全新里程碑，誕生 6 年，開山之作被引近 8 萬

可以說，AdeptAILabs 正處在高速發(fā)展的階段。

目前，公司不僅已經(jīng)籌集了 4.15 億美元，而且也估值超過了 10 億美元。

此外，團(tuán)隊(duì)規(guī)模也剛剛超過了 40 人。

Transformer 全新里程碑，誕生 6 年，開山之作被引近 8 萬

然而，Ashish 卻在幾個月前離開了 Adept。

Transformer 全新里程碑，誕生 6 年，開山之作被引近 8 萬

在 Transformers 論文中，Niki Parmar 是唯一的女性作者。

Transformer 全新里程碑，誕生 6 年，開山之作被引近 8 萬

她在 2021 年底離開 Google，并和剛剛提到的 Ashish Vaswani 一起，創(chuàng)立了 AdeptAILabs。

不過，Niki 在幾個月前也離開了 Adept。

Transformer 全新里程碑，誕生 6 年，開山之作被引近 8 萬

Noam Shazeer 在 Google 工作了 20 年后，于 2021 年底離開了 Google。

Transformer 全新里程碑，誕生 6 年，開山之作被引近 8 萬

隨后，他便立刻與自己的朋友 Dan Abitbol 一起，創(chuàng)立了 Character AI。

Transformer 全新里程碑，誕生 6 年，開山之作被引近 8 萬

雖然公司只有大約 20 名員工，但效率卻相當(dāng)之高。

目前，他們已經(jīng)籌集了近 2 億美元，并即將躋身獨(dú)角獸的行列。

Transformer 全新里程碑，誕生 6 年，開山之作被引近 8 萬

Aidan Gomez 在 2019 年 9 月離開了 Google Brain，創(chuàng)立了 CohereAI。

Transformer 全新里程碑，誕生 6 年，開山之作被引近 8 萬

經(jīng)過 3 年的穩(wěn)定發(fā)展后，公司依然正在擴(kuò)大規(guī)模 ——Cohere 的員工數(shù)量最近超過了 180 名。

與此同時，公司籌集到的資金也即將突破 4 億美元大關(guān)。

Transformer 全新里程碑，誕生 6 年，開山之作被引近 8 萬

Lukasz Kaiser 是 TensorFlow 的共同作者人之一，他在 2021 年中離開了 Google，加入了 OpenAI。

Transformer 全新里程碑，誕生 6 年，開山之作被引近 8 萬

Illia Polosukhin 在 2017 年 2 月離開了 Google，于 2017 年 6 月創(chuàng)立了 NEAR Protocol。

Transformer 全新里程碑，誕生 6 年，開山之作被引近 8 萬

目前，NEAR 估值約為 20 億美元。

與此同時，公司已經(jīng)籌集了約 3.75 億美元，并進(jìn)行了大量的二次融資。

Transformer 全新里程碑，誕生 6 年，開山之作被引近 8 萬

現(xiàn)在，只有 Llion Jones 還在谷歌工作。

Transformer 全新里程碑，誕生 6 年，開山之作被引近 8 萬

在論文的貢獻(xiàn)方面，他風(fēng)趣地調(diào)侃道：「自己最大的意義在于 —— 起標(biāo)題?！?/p>

Transformer 全新里程碑，誕生 6 年，開山之作被引近 8 萬

網(wǎng)友熱評

走到現(xiàn)在，回看 Transformer，還是會引發(fā)不少網(wǎng)友的思考。

AI 中的開創(chuàng)性論文。

Transformer 全新里程碑，誕生 6 年，開山之作被引近 8 萬

馬庫斯表示，這有點(diǎn)像波特蘭開拓者隊(duì)對邁克爾?喬丹的放棄。

Transformer 全新里程碑，誕生 6 年，開山之作被引近 8 萬

這件事說明了，即使在這樣的一級研究水平上，也很難預(yù)測哪篇論文會在該領(lǐng)域產(chǎn)生何種程度的影響。

Transformer 全新里程碑，誕生 6 年，開山之作被引近 8 萬

這個故事告訴我們，一篇研究文章的真正價值是以一種長期的方式體現(xiàn)出來的。

Transformer 全新里程碑，誕生 6 年，開山之作被引近 8 萬

哇，時間過得真快！令人驚訝的是，這個模型突破了注意力的極限，徹底改變了 NLP。

Transformer 全新里程碑，誕生 6 年，開山之作被引近 8 萬

在我攻讀博士期間，我的導(dǎo)師 @WenmeiHwu 總是教育我們，最有影響力的論文永遠(yuǎn)不會獲得最佳論文獎或任何認(rèn)可，但隨著時間的推移，它們最終會改變世界。我們不應(yīng)該為獎項(xiàng)而奮斗，而應(yīng)該專注于有影響力的研究！

Transformer 全新里程碑，誕生 6 年，開山之作被引近 8 萬

參考資料：

https://twitter.com/DrJimFan/status/1668287791200108544
https://twitter.com/karpathy/status/1668302116576976906
https://twitter.com/JosephJacks_/status/1647328379266551808

本文來自微信公眾號：新智元（ID：AI_era）

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

Transformer 全新里程碑，誕生 6 年，開山之作被引近 8 萬

你只需要注意力！

萬能 Transformer：從 NLP 跨到 CV

新硅谷「七叛徒」

網(wǎng)友熱評

相關(guān)文章

Transformer 全新里程碑，誕生 6 年，開山之作被引近 8 萬