首頁 > 科學(xué)探索>科技前沿

30 頁論文，俞士綸團(tuán)隊(duì)新作：AIGC 全面調(diào)查，從 GAN 到 ChatGPT 發(fā)展史

新智元 2023/3/31 20:16:02 責(zé)編：夢(mèng)澤

評(píng)論：

2022 年，可以說是生成式 AI 的元年。近日，俞士綸團(tuán)隊(duì)發(fā)表了一篇關(guān)于 AIGC 全面調(diào)查，介紹了從 GAN 到 ChatGPT 的發(fā)展史。

剛剛過去的 2022 年，無疑是生成式 AI 爆發(fā)的奇點(diǎn)。

自 2021 年起，生成式 AI 連續(xù) 2 年入選 Gartner 的「人工智能技術(shù)成熟度曲線」，被認(rèn)為是未來重要的 AI 技術(shù)趨勢(shì)。

近日，俞士綸團(tuán)隊(duì)發(fā)表了一篇關(guān)于 AIGC 全面調(diào)查，介紹了從 GAN 到 ChatGPT 的發(fā)展史。

30 頁論文，俞士綸團(tuán)隊(duì)新作：AIGC 全面調(diào)查，從 GAN 到 ChatGPT 發(fā)展史

論文地址：https://arxiv.org/ pdf / 2303.04226.pdf

本文節(jié)選了論文部分內(nèi)容進(jìn)行介紹。

奇點(diǎn)已來？

近年來，人工智能生成內(nèi)容（AIGC，也稱生成式 AI）引發(fā)了計(jì)算機(jī)科學(xué)界以外的廣泛關(guān)注。

整個(gè)社會(huì)開始對(duì)大型科技公司開發(fā)的各種內(nèi)容生成的產(chǎn)品，如 ChatGPT 和 DALL-E-2，產(chǎn)生了極大興趣。

AIGC，是指使用生成式人工智能（GAI）技術(shù)生成內(nèi)容，并可以在短時(shí)間內(nèi)自動(dòng)創(chuàng)建大量內(nèi)容。

ChatGPT 是 OpenAI 開發(fā)的一個(gè)用于構(gòu)建會(huì)話的 AI 系統(tǒng)。該系統(tǒng)能夠以一種有意義的方式有效地理解人類語言并作出回應(yīng)。

此外，DALL-E-2 也是 OpenAI 開發(fā)的另一種最先進(jìn)的 GAI 模型，能夠在幾分鐘內(nèi)從文本描述中創(chuàng)建獨(dú)特的高質(zhì)量圖像。

30 頁論文，俞士綸團(tuán)隊(duì)新作：AIGC 全面調(diào)查，從 GAN 到 ChatGPT 發(fā)展史

AIGC 在圖像生成中的示例

從技術(shù)上講，AIGC 是指給定指令，可以引導(dǎo)模型完成任務(wù)，利用 GAI 生成滿足指令的內(nèi)容。這個(gè)生成過程通常包括兩個(gè)步驟：從指令中提取意圖信息，并根據(jù)提取的意圖生成內(nèi)容。

然而，正如以前的研究所證明的那樣，包含上述兩個(gè)步驟的 GAI 模型的范式并非是完全新穎的。

與此前工作相比，最近 AIGC 進(jìn)步的核心點(diǎn)是在更大的數(shù)據(jù)集上訓(xùn)練更復(fù)雜的生成模型，使用更大的基礎(chǔ)模型框架，并且可以訪問廣泛的計(jì)算資源。

比如，GPT-3 和 GPT-2 的主框架一樣，但是預(yù)訓(xùn)練數(shù)據(jù)大小從 WebText (38GB) 增加到 CommonCrawl (過濾后為 570GB) ，基礎(chǔ)模型大小從 1.5B 增加到 175B。

30 頁論文，俞士綸團(tuán)隊(duì)新作：AIGC 全面調(diào)查，從 GAN 到 ChatGPT 發(fā)展史

因此，GPT-3 在各種任務(wù)上比 GPT-2 有更好的泛化能力。

除了數(shù)據(jù)量和計(jì)算能力增加所帶來的好處之外，研究人員還在探索將新技術(shù)與 GAI 算法結(jié)合起來的方法。

比如，ChatGPT 利用人類反饋的強(qiáng)化學(xué)習(xí) (RLHF) 來確定給定指令的最適當(dāng)響應(yīng)，從而隨著時(shí)間的推移提高模型的可靠性和準(zhǔn)確性。這種方法使 ChatGPT 能夠更好地理解長時(shí)間對(duì)話中的人類偏好。

同時(shí)，在 CV 中，Stability AI 在 2022 年提出的 Stable Diffusion 在圖像生成方面也取得了巨大的成功。

與以往的方法不同，生成擴(kuò)散模型可以通過控制探索和開發(fā)之間的平衡來幫助生成高分辨率圖像，從而在生成的圖像中實(shí)現(xiàn)多樣性，與訓(xùn)練數(shù)據(jù)相似性的和諧組合。

通過將這些進(jìn)步結(jié)合起來，模型在 AIGC 的任務(wù)中取得了重大進(jìn)展，并已被藝術(shù)、廣告和教育等各行各業(yè)采用。

在不久的將來，AIGC 將繼續(xù)成為機(jī)器學(xué)習(xí)研究的重要領(lǐng)域。

30 頁論文，俞士綸團(tuán)隊(duì)新作：AIGC 全面調(diào)查，從 GAN 到 ChatGPT 發(fā)展史

一般來說，GAI 模型可以分為兩種類型: 單模態(tài)模型和多模態(tài)模型

因此，對(duì)過去的研究進(jìn)行一次全面的回顧，并找出這個(gè)領(lǐng)域存在的問題是至關(guān)重要的。這是首份關(guān)注 AIGC 領(lǐng)域的核心技術(shù)和應(yīng)用的調(diào)查。

這是 AIGC 第一次在技術(shù)和應(yīng)用方面總結(jié) GAI 的全面調(diào)查。

以前的調(diào)查主要從 GAI 不同角度介紹，包括自然語言生成，圖像生成，多模態(tài)機(jī)器學(xué)習(xí)生成。然而，這些先前的工作只關(guān)注 AIGC 的特定部分。

在這次調(diào)查中，最先回顧了 AIGC 常用的基礎(chǔ)技術(shù)。然后，進(jìn)一步提供了先進(jìn) GAI 算法的全面總結(jié)，包括單峰生成和多峰生成。此外，論文還研究了 AIGC 的應(yīng)用和潛在挑戰(zhàn)。

最后強(qiáng)調(diào)了這個(gè)領(lǐng)域未來方向?？傊?，本文的主要貢獻(xiàn)如下:

-據(jù)我們所知，我們是第一個(gè)為 AIGC 和 AI 增強(qiáng)的生成過程提供正式定義和全面調(diào)查。

-我們回顧了 AIGC 的歷史、基礎(chǔ)技術(shù)，并從單峰生成和多峰生成的角度對(duì) GAI 任務(wù)和模型的最新進(jìn)展進(jìn)行了綜合分析。

-本文討論了 AIGC 面臨的主要挑戰(zhàn)和未來的研究趨勢(shì)。

生成式 AI 歷史

生成模型在人工智能中有著悠久的歷史，最早可以追溯到 20 世紀(jì) 50 年代隱馬爾可夫模型 (HMMs) 和高斯混合模型（GMMs）的發(fā)展。

這些模型生成了連續(xù)的數(shù)據(jù)，如語音和時(shí)間序列。然而，直到深度學(xué)習(xí)的出現(xiàn)，生成模型的性能才有了顯著的提高。

在早期的深度生成模型中，不同的領(lǐng)域通常沒有太多的重疊。

30 頁論文，俞士綸團(tuán)隊(duì)新作：AIGC 全面調(diào)查，從 GAN 到 ChatGPT 發(fā)展史

生成 AI 在 CV、NLP 和 VL 中的發(fā)展史

在 NLP 中，生成句子的傳統(tǒng)方法是使用 N-gram 語言模型學(xué)習(xí)詞的分布，然后搜索最佳序列。然而，這種方法不能有效適應(yīng)長句子。

為了解決這個(gè)問題，遞歸神經(jīng)網(wǎng)絡(luò)（RNNs）后來被引入到語言建模任務(wù)中，允許相對(duì)較長的依賴關(guān)系進(jìn)行建模。

其次是長期短期記憶（LSTM）和門控遞歸單元（GRU）的發(fā)展，它們利用門控機(jī)制來在訓(xùn)練中控制記憶。這些方法能夠在一個(gè)樣本中處理大約 200 個(gè)標(biāo)記（token），這與 N-gram 語言模型相比標(biāo)志著顯著的改善。

同時(shí)，在 CV 中，在基于深度學(xué)習(xí)方法出現(xiàn)之前，傳統(tǒng)的圖像生成算法使用了紋理合成（PTS）和紋理映射等技術(shù)。

這些算法基于手工設(shè)計(jì)的特征，并且在生成復(fù)雜多樣圖像的方面能力有限。

2014 年，生成對(duì)抗網(wǎng)絡(luò)（GANs）首次被提出，因其在各種應(yīng)用中取得了令人印象深刻的結(jié)果，成為人工智能領(lǐng)域的里程碑。

變異自動(dòng)編碼器（VAEs）和其他方法，如生成擴(kuò)散模型，也被開發(fā)出來，以便對(duì)圖像生成過程進(jìn)行更細(xì)粒度的控制，并能夠生成高質(zhì)量的圖像。

生成模型在不同領(lǐng)域的發(fā)展遵循著不同的路徑，但最終出現(xiàn)了交集: Transformer 架構(gòu)。

2017 年，由 Vaswani 等人在 NLP 任務(wù)中引入 Transformer，后來應(yīng)用于 CV，然后成為各領(lǐng)域中許多生成模型的主導(dǎo)架構(gòu)。

在 NLP 領(lǐng)域，許多著名的大型語言模型，如 BERT 和 GPT，都采用 Transformer 架構(gòu)作為其主要構(gòu)建模塊。與之前的構(gòu)建模塊，即 LSTM 和 GRU 相比，具有優(yōu)勢(shì)。

在 CV 中，Vision Transformer (ViT) 和 Swin Transformer 后來進(jìn)一步發(fā)展了這一概念，將 Transformer 體系結(jié)構(gòu)與視覺組件相結(jié)合，使其能夠應(yīng)用于基于圖像的下行系統(tǒng)。

除了 Transformer 給單個(gè)模態(tài)帶來的改進(jìn)外，這種交叉也使來自不同領(lǐng)域的模型能夠融合在一起，執(zhí)行多模態(tài)任務(wù)。

多模態(tài)模型的一個(gè)例子是 CLIP。CLIP 是一個(gè)聯(lián)合的視覺語言模型。它將 Transformer 架構(gòu)與視覺組件相結(jié)合，允許在大量文本和圖像數(shù)據(jù)上進(jìn)行訓(xùn)練。

由于在預(yù)訓(xùn)練中結(jié)合了視覺和語言知識(shí)，CLIP 也可以在多模態(tài)提示生成中作為圖像編碼器使用。總之，基于 Transformer 模型的出現(xiàn)徹底改變了人工智能的生成，并導(dǎo)致了大規(guī)模訓(xùn)練的可能性。

近年來，研究人員也開始引入基于這些模型的新技術(shù)。

例如，在 NLP 中，為了幫助模型更好地理解任務(wù)需求，人們有時(shí)更傾向于少樣本（few-shot）提示。它指的是在提示中包含從數(shù)據(jù)集中選擇的一些示例。

在視覺語言中，研究人員將特定模式的模型與自監(jiān)督對(duì)比學(xué)習(xí)目標(biāo)的模式相結(jié)合，以提供更強(qiáng)大的表示。

未來，隨著 AIGC 變得愈發(fā)重要，越來越多的技術(shù)將被引入，將賦予這一領(lǐng)域極大的生命力。

AIGC 基礎(chǔ)

本節(jié)中，介紹了 AIGC 常用的基礎(chǔ)模型。

基礎(chǔ)模型

Transformer

Transformer 是許多最先進(jìn)模型的骨干架構(gòu)，如 GPT-3、DALL-E-2、Codex 和 Gopher。

它最早是為了解決傳統(tǒng)模型，如 RNNs，在處理變長序列和上下文感知方面的局限性而提出的。

Transformer 的架構(gòu)主要是基于一種自注意力機(jī)制，使模型能夠注意到輸入序列中的不同部分。

Transformer 由一個(gè)編碼器和一個(gè)解碼器組成。編碼器接收輸入序列并生成隱藏表示，而解碼器接收隱藏表示并生成輸出序列。

編碼器和解碼器的每一層都由一個(gè)多頭注意力和一個(gè)前饋神經(jīng)網(wǎng)絡(luò)組成。多頭注意力是 Transformer 的核心組件，學(xué)習(xí)根據(jù)標(biāo)記的相關(guān)性分配不同的權(quán)重。

這種信息路由方法使該模型能夠更好地處理長期的依賴關(guān)系，因此，在廣泛的 NLP 任務(wù)中提高了性能。

Transformer 的另一個(gè)優(yōu)點(diǎn)是它的架構(gòu)使其具有高度并行性，并允許數(shù)據(jù)戰(zhàn)勝歸納偏置。這一特性使得 Transformer 非常適合大規(guī)模的預(yù)訓(xùn)練，使基于 Transformer 的模型能夠適應(yīng)不同的下游任務(wù)。

預(yù)訓(xùn)練語言模型

自從引入 Transformer 架構(gòu)以來，由于其并行性和學(xué)習(xí)能力，讓其成為自然語言處理的主流選擇。

一般來說，這些基于 Transformer 的預(yù)訓(xùn)練語言模型可以根據(jù)其訓(xùn)練任務(wù)通常分為兩類: 自回歸語言模型，以及掩碼語言模型。

給定一個(gè)由多個(gè)標(biāo)記組成的句子，掩蔽語言建模的目標(biāo)，例如 BERT 和 RoBERTa，即預(yù)測(cè)給定上下文信息的掩蔽標(biāo)記的概率。

掩碼語言模型最顯著的例子是 BERT，它包括掩蔽語言建模和下句預(yù)測(cè)任務(wù)。RoBERTa 使用與 BERT 相同的架構(gòu)，通過增加預(yù)訓(xùn)練數(shù)據(jù)量，以及納入更具挑戰(zhàn)性的預(yù)訓(xùn)練目標(biāo)來提高其性能。

XL-Net 也是基于 BERT 的，它結(jié)合了排列操作來改變每次訓(xùn)練迭代的預(yù)測(cè)順序，使模型能夠?qū)W習(xí)更多跨標(biāo)記的信息。

而自回歸語言模型，如 GPT-3 和 OPT，是對(duì)給定前一個(gè)標(biāo)記的概率進(jìn)行建模，因此是從左到右的語言模型。與掩碼語言模型不同，自回歸語言模型更適合生成式任務(wù)。

從人類反饋中強(qiáng)化學(xué)習(xí)

盡管經(jīng)過大規(guī)模數(shù)據(jù)的訓(xùn)練，AIGC 可能并不總是輸出與用戶意圖一致的內(nèi)容。

為了使 AIGC 輸出更好地符合人類的偏好，從人類反饋中強(qiáng)化學(xué)習(xí)（RLHF）已應(yīng)用于各種應(yīng)用中的模型微調(diào)，如 Sparrow、InstructGPT 和 ChatGPT。

通常情況下，RLHF 的整個(gè)流程包括以下三個(gè)步驟: 預(yù)訓(xùn)練、獎(jiǎng)勵(lì)學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的微調(diào)。

硬件

近年來，硬件技術(shù)有了顯著的進(jìn)步，促進(jìn)了大模型的訓(xùn)練。

在過去，使用 CPU 訓(xùn)練一個(gè)大型神經(jīng)網(wǎng)絡(luò)可能需要幾天甚至幾周的時(shí)間。然而，隨著算力的增強(qiáng)，這一過程已經(jīng)被加速了幾個(gè)數(shù)量級(jí)。

例如，英偉達(dá)的 NVIDIA A100 GPU 在 BERT 大型推理過程中比 V100 快 7 倍，比 T4 快 11 倍。

此外，谷歌的張量處理單元（TPU）專為深度學(xué)習(xí)設(shè)計(jì)的，與 A100 GPU 相比，提供了更高的計(jì)算性能。

計(jì)算能力的加速進(jìn)步顯著提高了人工智能模型訓(xùn)練的效率，為開發(fā)大型復(fù)雜模型提供了新的可能性。

分布式訓(xùn)練

另一個(gè)重大的改進(jìn)是分布式訓(xùn)練。

在傳統(tǒng)機(jī)器學(xué)習(xí)中，訓(xùn)練通常是在一臺(tái)機(jī)器上使用單個(gè)處理器進(jìn)行的。這種方法可以很好地應(yīng)用于小型數(shù)據(jù)集和模型，但是在處理大數(shù)據(jù)集和復(fù)雜模型時(shí)就變得不切實(shí)際。

在分布式訓(xùn)練中，訓(xùn)練的任務(wù)被分散到多個(gè)處理器或機(jī)器上，使模型的訓(xùn)練速度大大提升。

一些公司也發(fā)布了框架，簡化了深度學(xué)習(xí)堆棧的分布式訓(xùn)練過程。這些框架提供了工具和 API，使開發(fā)者能夠輕松地將訓(xùn)練任務(wù)分布在多個(gè)處理器或機(jī)器上，而不必管理底層基礎(chǔ)設(shè)施。

云端運(yùn)算

云計(jì)算在訓(xùn)練大模型方面也發(fā)揮了至關(guān)重要的作用。以前，模型經(jīng)常在本地進(jìn)行訓(xùn)練?，F(xiàn)在，隨著 AWS 和 Azure 等云計(jì)算服務(wù)提供了對(duì)強(qiáng)大計(jì)算資源的訪問，深度學(xué)習(xí)研究人員和從業(yè)人員可以根據(jù)需要?jiǎng)?chuàng)建大模型訓(xùn)練所需的大型 GPU 或 TPU 集群。

總的來說，這些進(jìn)步使得開發(fā)更復(fù)雜、更精確的模型成為可能，在人工智能研究和應(yīng)用的各個(gè)領(lǐng)域開啟了新的可能性。

作者介紹

俞士綸（Philip S. Yu）是計(jì)算機(jī)領(lǐng)域?qū)W者，是 ACM / IEEE Fellow，在伊利諾大學(xué)芝加哥分校（UIC）計(jì)算機(jī)科學(xué)系任特聘教授。

他在大數(shù)據(jù)挖掘與管理的理論、技術(shù)方面取得了舉世矚目的成就。他針對(duì)大數(shù)據(jù)在規(guī)模、速度和多樣性上的挑戰(zhàn)，在數(shù)據(jù)挖掘、管理的方法和技術(shù)上提出了有效的前沿的解決方案，尤其在融合多樣化數(shù)據(jù)、挖掘數(shù)據(jù)流、頻繁模式、子空間和圖方面做出了突破性的貢獻(xiàn)。

30 頁論文，俞士綸團(tuán)隊(duì)新作：AIGC 全面調(diào)查，從 GAN 到 ChatGPT 發(fā)展史

他還在并行和分布式數(shù)據(jù)庫處理技術(shù)領(lǐng)域做出了開創(chuàng)性貢獻(xiàn)，并應(yīng)用于 IBM S / 390 Parallel Sysplex 系統(tǒng)，成功將傳統(tǒng) IBM 大型機(jī)轉(zhuǎn)型為并行微處理器架構(gòu)。

參考資料：

https://arxiv.org/pdf/2303.04226.pdf

本文來自微信公眾號(hào)：新智元（ID：AI_era）

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

30 頁論文，俞士綸團(tuán)隊(duì)新作：AIGC 全面調(diào)查，從 GAN 到 ChatGPT 發(fā)展史

奇點(diǎn)已來？

生成式 AI 歷史

AIGC 基礎(chǔ)

基礎(chǔ)模型

Transformer

預(yù)訓(xùn)練語言模型

從人類反饋中強(qiáng)化學(xué)習(xí)

硬件

分布式訓(xùn)練

云端運(yùn)算

作者介紹

相關(guān)文章

30 頁論文，俞士綸團(tuán)隊(duì)新作：AIGC 全面調(diào)查，從 GAN 到 ChatGPT 發(fā)展史

奇點(diǎn)已來？