設置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

30 頁論文,俞士綸團隊新作:AIGC 全面調(diào)查,從 GAN 到 ChatGPT 發(fā)展史

新智元 2023/3/31 20:16:02 責編:夢澤

2022 年,可以說是生成式 AI 的元年。近日,俞士綸團隊發(fā)表了一篇關(guān)于 AIGC 全面調(diào)查,介紹了從 GAN 到 ChatGPT 的發(fā)展史。

剛剛過去的 2022 年,無疑是生成式 AI 爆發(fā)的奇點。

自 2021 年起,生成式 AI 連續(xù) 2 年入選 Gartner 的「人工智能技術(shù)成熟度曲線」,被認為是未來重要的 AI 技術(shù)趨勢。

近日,俞士綸團隊發(fā)表了一篇關(guān)于 AIGC 全面調(diào)查,介紹了從 GAN 到 ChatGPT 的發(fā)展史。

論文地址:https://arxiv.org/ pdf / 2303.04226.pdf

本文節(jié)選了論文部分內(nèi)容進行介紹。

奇點已來?

近年來,人工智能生成內(nèi)容(AIGC,也稱生成式 AI)引發(fā)了計算機科學界以外的廣泛關(guān)注。

整個社會開始對大型科技公司開發(fā)的各種內(nèi)容生成的產(chǎn)品,如 ChatGPT 和 DALL-E-2,產(chǎn)生了極大興趣。

AIGC,是指使用生成式人工智能(GAI)技術(shù)生成內(nèi)容,并可以在短時間內(nèi)自動創(chuàng)建大量內(nèi)容。

ChatGPT 是 OpenAI 開發(fā)的一個用于構(gòu)建會話的 AI 系統(tǒng)。該系統(tǒng)能夠以一種有意義的方式有效地理解人類語言并作出回應。

此外,DALL-E-2 也是 OpenAI 開發(fā)的另一種最先進的 GAI 模型,能夠在幾分鐘內(nèi)從文本描述中創(chuàng)建獨特的高質(zhì)量圖像。

AIGC 在圖像生成中的示例

從技術(shù)上講,AIGC 是指給定指令,可以引導模型完成任務,利用 GAI 生成滿足指令的內(nèi)容。這個生成過程通常包括兩個步驟:從指令中提取意圖信息,并根據(jù)提取的意圖生成內(nèi)容。

然而,正如以前的研究所證明的那樣,包含上述兩個步驟的 GAI 模型的范式并非是完全新穎的。

與此前工作相比,最近 AIGC 進步的核心點是在更大的數(shù)據(jù)集上訓練更復雜的生成模型,使用更大的基礎模型框架,并且可以訪問廣泛的計算資源。

比如,GPT-3 和 GPT-2 的主框架一樣,但是預訓練數(shù)據(jù)大小從 WebText (38GB) 增加到 CommonCrawl (過濾后為 570GB) ,基礎模型大小從 1.5B 增加到 175B。

因此,GPT-3 在各種任務上比 GPT-2 有更好的泛化能力。

除了數(shù)據(jù)量和計算能力增加所帶來的好處之外,研究人員還在探索將新技術(shù)與 GAI 算法結(jié)合起來的方法。

比如,ChatGPT 利用人類反饋的強化學習 (RLHF) 來確定給定指令的最適當響應,從而隨著時間的推移提高模型的可靠性和準確性。這種方法使 ChatGPT 能夠更好地理解長時間對話中的人類偏好。

同時,在 CV 中,Stability AI 在 2022 年提出的 Stable Diffusion 在圖像生成方面也取得了巨大的成功。

與以往的方法不同,生成擴散模型可以通過控制探索和開發(fā)之間的平衡來幫助生成高分辨率圖像,從而在生成的圖像中實現(xiàn)多樣性,與訓練數(shù)據(jù)相似性的和諧組合。

通過將這些進步結(jié)合起來,模型在 AIGC 的任務中取得了重大進展,并已被藝術(shù)、廣告和教育等各行各業(yè)采用。

在不久的將來,AIGC 將繼續(xù)成為機器學習研究的重要領域。

一般來說,GAI 模型可以分為兩種類型: 單模態(tài)模型和多模態(tài)模型

因此,對過去的研究進行一次全面的回顧,并找出這個領域存在的問題是至關(guān)重要的。這是首份關(guān)注 AIGC 領域的核心技術(shù)和應用的調(diào)查。

這是 AIGC 第一次在技術(shù)和應用方面總結(jié) GAI 的全面調(diào)查。

以前的調(diào)查主要從 GAI 不同角度介紹,包括自然語言生成 ,圖像生成,多模態(tài)機器學習生成。然而,這些先前的工作只關(guān)注 AIGC 的特定部分。

在這次調(diào)查中,最先回顧了 AIGC 常用的基礎技術(shù)。然后,進一步提供了先進 GAI 算法的全面總結(jié),包括單峰生成和多峰生成。此外,論文還研究了 AIGC 的應用和潛在挑戰(zhàn)。

最后強調(diào)了這個領域未來方向??傊?,本文的主要貢獻如下:

-據(jù)我們所知,我們是第一個為 AIGC 和 AI 增強的生成過程提供正式定義和全面調(diào)查。

-我們回顧了 AIGC 的歷史、基礎技術(shù),并從單峰生成和多峰生成的角度對 GAI 任務和模型的最新進展進行了綜合分析。

-本文討論了 AIGC 面臨的主要挑戰(zhàn)和未來的研究趨勢。

生成式 AI 歷史

生成模型在人工智能中有著悠久的歷史,最早可以追溯到 20 世紀 50 年代隱馬爾可夫模型 (HMMs) 和高斯混合模型(GMMs)的發(fā)展。

這些模型生成了連續(xù)的數(shù)據(jù),如語音和時間序列。然而,直到深度學習的出現(xiàn),生成模型的性能才有了顯著的提高。

在早期的深度生成模型中,不同的領域通常沒有太多的重疊。

生成 AI 在 CV、NLP 和 VL 中的發(fā)展史

在 NLP 中,生成句子的傳統(tǒng)方法是使用 N-gram 語言模型學習詞的分布,然后搜索最佳序列。然而,這種方法不能有效適應長句子。

為了解決這個問題,遞歸神經(jīng)網(wǎng)絡(RNNs)后來被引入到語言建模任務中,允許相對較長的依賴關(guān)系進行建模。

其次是長期短期記憶(LSTM)和門控遞歸單元(GRU)的發(fā)展,它們利用門控機制來在訓練中控制記憶。這些方法能夠在一個樣本中處理大約 200 個標記(token),這與 N-gram 語言模型相比標志著顯著的改善。

同時,在 CV 中,在基于深度學習方法出現(xiàn)之前,傳統(tǒng)的圖像生成算法使用了紋理合成(PTS)和紋理映射等技術(shù)。

這些算法基于手工設計的特征,并且在生成復雜多樣圖像的方面能力有限。

2014 年,生成對抗網(wǎng)絡(GANs)首次被提出,因其在各種應用中取得了令人印象深刻的結(jié)果,成為人工智能領域的里程碑。

變異自動編碼器(VAEs)和其他方法,如生成擴散模型,也被開發(fā)出來,以便對圖像生成過程進行更細粒度的控制,并能夠生成高質(zhì)量的圖像。

生成模型在不同領域的發(fā)展遵循著不同的路徑,但最終出現(xiàn)了交集: Transformer 架構(gòu)。

2017 年,由 Vaswani 等人在 NLP 任務中引入 Transformer,后來應用于 CV,然后成為各領域中許多生成模型的主導架構(gòu)。

在 NLP 領域,許多著名的大型語言模型,如 BERT 和 GPT,都采用 Transformer 架構(gòu)作為其主要構(gòu)建模塊。與之前的構(gòu)建模塊,即 LSTM 和 GRU 相比,具有優(yōu)勢。

在 CV 中,Vision Transformer (ViT) 和 Swin Transformer 后來進一步發(fā)展了這一概念,將 Transformer 體系結(jié)構(gòu)與視覺組件相結(jié)合,使其能夠應用于基于圖像的下行系統(tǒng)。

除了 Transformer 給單個模態(tài)帶來的改進外,這種交叉也使來自不同領域的模型能夠融合在一起,執(zhí)行多模態(tài)任務。

多模態(tài)模型的一個例子是 CLIP。CLIP 是一個聯(lián)合的視覺語言模型。它將 Transformer 架構(gòu)與視覺組件相結(jié)合,允許在大量文本和圖像數(shù)據(jù)上進行訓練。

由于在預訓練中結(jié)合了視覺和語言知識,CLIP 也可以在多模態(tài)提示生成中作為圖像編碼器使用??傊?Transformer 模型的出現(xiàn)徹底改變了人工智能的生成,并導致了大規(guī)模訓練的可能性。

近年來,研究人員也開始引入基于這些模型的新技術(shù)。

例如,在 NLP 中,為了幫助模型更好地理解任務需求,人們有時更傾向于少樣本(few-shot)提示。它指的是在提示中包含從數(shù)據(jù)集中選擇的一些示例。

在視覺語言中,研究人員將特定模式的模型與自監(jiān)督對比學習目標的模式相結(jié)合,以提供更強大的表示。

未來,隨著 AIGC 變得愈發(fā)重要,越來越多的技術(shù)將被引入,將賦予這一領域極大的生命力。

AIGC 基礎

本節(jié)中,介紹了 AIGC 常用的基礎模型。

基礎模型

Transformer

Transformer 是許多最先進模型的骨干架構(gòu),如 GPT-3、DALL-E-2、Codex 和 Gopher。

它最早是為了解決傳統(tǒng)模型,如 RNNs,在處理變長序列和上下文感知方面的局限性而提出的。

Transformer 的架構(gòu)主要是基于一種自注意力機制,使模型能夠注意到輸入序列中的不同部分。

Transformer 由一個編碼器和一個解碼器組成。編碼器接收輸入序列并生成隱藏表示,而解碼器接收隱藏表示并生成輸出序列。

編碼器和解碼器的每一層都由一個多頭注意力和一個前饋神經(jīng)網(wǎng)絡組成。多頭注意力是 Transformer 的核心組件,學習根據(jù)標記的相關(guān)性分配不同的權(quán)重。

這種信息路由方法使該模型能夠更好地處理長期的依賴關(guān)系,因此,在廣泛的 NLP 任務中提高了性能。

Transformer 的另一個優(yōu)點是它的架構(gòu)使其具有高度并行性,并允許數(shù)據(jù)戰(zhàn)勝歸納偏置。這一特性使得 Transformer 非常適合大規(guī)模的預訓練,使基于 Transformer 的模型能夠適應不同的下游任務。

預訓練語言模型

自從引入 Transformer 架構(gòu)以來,由于其并行性和學習能力,讓其成為自然語言處理的主流選擇。

一般來說,這些基于 Transformer 的預訓練語言模型可以根據(jù)其訓練任務通常分為兩類: 自回歸語言模型,以及掩碼語言模型。

給定一個由多個標記組成的句子,掩蔽語言建模的目標,例如 BERT 和 RoBERTa,即預測給定上下文信息的掩蔽標記的概率。

掩碼語言模型最顯著的例子是 BERT,它包括掩蔽語言建模和下句預測任務。RoBERTa 使用與 BERT 相同的架構(gòu),通過增加預訓練數(shù)據(jù)量,以及納入更具挑戰(zhàn)性的預訓練目標來提高其性能。

XL-Net 也是基于 BERT 的,它結(jié)合了排列操作來改變每次訓練迭代的預測順序,使模型能夠?qū)W習更多跨標記的信息。

而自回歸語言模型,如 GPT-3 和 OPT,是對給定前一個標記的概率進行建模,因此是從左到右的語言模型。與掩碼語言模型不同,自回歸語言模型更適合生成式任務。

從人類反饋中強化學習

盡管經(jīng)過大規(guī)模數(shù)據(jù)的訓練,AIGC 可能并不總是輸出與用戶意圖一致的內(nèi)容。

為了使 AIGC 輸出更好地符合人類的偏好,從人類反饋中強化學習(RLHF)已應用于各種應用中的模型微調(diào),如 Sparrow、InstructGPT 和 ChatGPT。

通常情況下,RLHF 的整個流程包括以下三個步驟: 預訓練、獎勵學習和強化學習的微調(diào)。

硬件

近年來,硬件技術(shù)有了顯著的進步,促進了大模型的訓練。

在過去,使用 CPU 訓練一個大型神經(jīng)網(wǎng)絡可能需要幾天甚至幾周的時間。然而,隨著算力的增強,這一過程已經(jīng)被加速了幾個數(shù)量級。

例如,英偉達的 NVIDIA A100 GPU 在 BERT 大型推理過程中比 V100 快 7 倍,比 T4 快 11 倍。

此外,谷歌的張量處理單元(TPU)專為深度學習設計的,與 A100 GPU 相比,提供了更高的計算性能。

計算能力的加速進步顯著提高了人工智能模型訓練的效率,為開發(fā)大型復雜模型提供了新的可能性。

分布式訓練

另一個重大的改進是分布式訓練。

在傳統(tǒng)機器學習中,訓練通常是在一臺機器上使用單個處理器進行的。這種方法可以很好地應用于小型數(shù)據(jù)集和模型,但是在處理大數(shù)據(jù)集和復雜模型時就變得不切實際。

在分布式訓練中,訓練的任務被分散到多個處理器或機器上,使模型的訓練速度大大提升。

一些公司也發(fā)布了框架,簡化了深度學習堆棧的分布式訓練過程。這些框架提供了工具和 API,使開發(fā)者能夠輕松地將訓練任務分布在多個處理器或機器上,而不必管理底層基礎設施。

云端運算

云計算在訓練大模型方面也發(fā)揮了至關(guān)重要的作用。以前,模型經(jīng)常在本地進行訓練?,F(xiàn)在,隨著 AWS 和 Azure 等云計算服務提供了對強大計算資源的訪問,深度學習研究人員和從業(yè)人員可以根據(jù)需要創(chuàng)建大模型訓練所需的大型 GPU 或 TPU 集群。

總的來說,這些進步使得開發(fā)更復雜、更精確的模型成為可能,在人工智能研究和應用的各個領域開啟了新的可能性。

作者介紹

俞士綸(Philip S. Yu)是計算機領域?qū)W者,是 ACM / IEEE Fellow,在伊利諾大學芝加哥分校(UIC)計算機科學系任特聘教授。

他在大數(shù)據(jù)挖掘與管理的理論、技術(shù)方面取得了舉世矚目的成就。他針對大數(shù)據(jù)在規(guī)模、速度和多樣性上的挑戰(zhàn),在數(shù)據(jù)挖掘、管理的方法和技術(shù)上提出了有效的前沿的解決方案,尤其在融合多樣化數(shù)據(jù)、挖掘數(shù)據(jù)流、頻繁模式、子空間和圖方面做出了突破性的貢獻。

他還在并行和分布式數(shù)據(jù)庫處理技術(shù)領域做出了開創(chuàng)性貢獻,并應用于 IBM S / 390 Parallel Sysplex 系統(tǒng),成功將傳統(tǒng) IBM 大型機轉(zhuǎn)型為并行微處理器架構(gòu)。

參考資料:

  • https://arxiv.org/pdf/2303.04226.pdf

本文來自微信公眾號:新智元 (ID:AI_era)

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:ChatGPT,人工智能

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機APP應用 魔方 最會買 要知