原文標(biāo)題:《原來這才是【生成式 AI】??!》
隨著 ChatGPT、文心一言等 AI 產(chǎn)品的火爆,生成式 AI 已經(jīng)成為了大家茶余飯后熱議的話題。
可是,為什么要在 AI 前面加上“生成式”這三個字呢?
難道還有別的 AI 嗎?
且聽文檔君慢慢道來~
1、生成式 AI 究竟是個啥?
如果將人工智能按照用途進(jìn)行簡單分類的話,AI 其實要被劃分為兩類:決策式 AI 和生成式 AI。
決策式 AI:專注于分析情況并做出決策。它通過評估多種選項和可能的結(jié)果,幫助用戶或系統(tǒng)選擇最佳的行動方案。
例如,在自動駕駛車輛中,就是通過決策式 AI 系統(tǒng)決定何時加速、減速或變換車道。
生成式 AI:專注于創(chuàng)造全新內(nèi)容。它可以根據(jù)學(xué)習(xí)到的數(shù)據(jù)自動生成文本、圖像、音樂等內(nèi)容。
例如,你可以將幾篇論文發(fā)給生成式 AI,他可以生成一篇文獻(xiàn)綜述,囊括了這幾篇論文的關(guān)鍵思想、重要結(jié)論。
看到這里,你就知道為什么 ChatGPT、文心一言屬于生成式 AI 了吧?
接下來,讓我們正式走入生成式 AI 的世界。
2、生成式 AI 的前世今生
其實,生成式 AI 的并不是這幾年剛剛誕生,它實際已經(jīng)經(jīng)歷了三個階段:
早期萌芽階段
1950 年,Alan Turing 提出了著名的“圖靈測試”,這是生成式 AI 領(lǐng)域的一個里程碑,預(yù)示了 AI 內(nèi)容生成的可能性。
1957 年,Lejaren Hiller 和 Leonard Isaacson 完成了歷史上第一首完全由計算機“作曲”的音樂作品《Illiac Suite》。
1964 年至 1966 年間,Joseph Weizenbaum 開發(fā)了世界上第一款可人機對話的機器人“Eliza”,它通過關(guān)鍵字掃描和重組完成交互任務(wù)。
1980 年代,IBM 公司基于隱形馬爾科夫鏈模型,創(chuàng)造了語音控制打字機“Tangora”。
沉淀積累階段
隨著互聯(lián)網(wǎng)的發(fā)展,數(shù)據(jù)規(guī)模快速膨脹,為人工智能算法提供了海量訓(xùn)練數(shù)據(jù)。但是由于硬件基礎(chǔ)有限,此時的發(fā)展并不迅猛。
2007 年,紐約大學(xué)人工智能研究員 Ross Goodwin 的人工智能系統(tǒng)撰寫了小說《1 The Road》,這是世界第一部完全由人工智能創(chuàng)作的小說。
2012 年,微軟公司公開展示了一個全自動同聲傳譯系統(tǒng),可以自動將英文演講者的內(nèi)容通過語音識別、語言翻譯、語音合成等技術(shù)生成中文語音。
快速發(fā)展階段
2014 年起,大量深度學(xué)習(xí)方法的提出和迭代更新,標(biāo)志著生成式 AI 的新時代。
2017 年,微軟人工智能少女“小冰”推出了世界首部 100% 由人工智能創(chuàng)作的詩集《陽光失了玻璃窗》。
2019 年,谷歌 DeepMind 團(tuán)隊發(fā)布了 DVD-GAN 架構(gòu)用以生成連續(xù)視頻。
2020 年,OpenAI 發(fā)布 ChatGPT3,標(biāo)志著自然語言處理(NLP)和 AIGC 領(lǐng)域的一個重要里程碑。
2021 年,OpenAI 推出了 DALL-E,主要應(yīng)用于文本與圖像的交互生成內(nèi)容。
自 2022 年開始到現(xiàn)在,OpenAI 多次發(fā)布 ChatGPT 新型號,掀起了 AIGC 又一輪的高潮,它能夠理解和生成自然語言,與人類進(jìn)行復(fù)雜的對話。
自此,生成式 AI 已經(jīng)到了一個井噴式狀態(tài)。那么,生成式 AI 究竟是基于什么樣的原理呢?
3、輕松搞懂“生成式 AI”原理
在剛剛的介紹中,大家應(yīng)該都對生成式 AI 有了一個表象的認(rèn)知:學(xué)習(xí)知識 + 生成新知識。
但它是如何學(xué)習(xí)的呢?又是如何生成的呢?
這時候,我們就得來看看生成式 AI 更深層次的定義了:
定義
以 ChatGPT 為代表的生成式 AI,是對已有的數(shù)據(jù)和知識進(jìn)行向量化的歸納,總結(jié)出數(shù)據(jù)的聯(lián)合概率。從而在生成內(nèi)容時,根據(jù)用戶需求,結(jié)合關(guān)聯(lián)字詞的概率,生成新的內(nèi)容。
是不是一下子懵了?
不急,這就觸及到生成式 AI 的原理了。待文檔君給你慢慢解析。
其實制作一個生成式 AI,就像把一個泥人變成天才,一共需要四步:捏泥人 → 裝大腦 → 喂知識 → 有產(chǎn)出。
Step1:捏泥人 —— 硬件架構(gòu)的搭建
要打造一個生成式 AI 的“泥人”,首先要考慮的就是底層硬件。底層硬件構(gòu)成了生成式 AI 的算力和存力。
算力 —— 泥人的骨架
生成式 AI 需要進(jìn)行大量的計算,尤其是在處理如圖像和視頻時。大規(guī)模計算任務(wù)離不開下面這些關(guān)鍵硬件:
GPU(圖形處理單元):提供強大的并行計算能力。通過成千上萬個小處理單元并行工作,大幅提高了計算效率。
TPU(張量處理單元):專門為加速人工智能學(xué)習(xí)而設(shè)計的硬件,能夠顯著加快計算速度,進(jìn)一步增強了骨架的強度。
存力 —— 泥人的血液
生成式 AI 需要處理和存儲大量的數(shù)據(jù)。
以 GPT-3 為例,光是訓(xùn)練參數(shù)就達(dá)到了 1750 億個,訓(xùn)練數(shù)據(jù)達(dá)到 45TB,每天會產(chǎn)生 45 億字內(nèi)容。
這些數(shù)據(jù)的存放離不開下面這些硬件設(shè)施:
大容量 RAM:在訓(xùn)練生成式 AI 模型時,大量的中間計算結(jié)果和模型參數(shù)需要存儲在內(nèi)存中,大容量的 RAM 能夠顯著提高數(shù)據(jù)處理速度。
SSD(固態(tài)硬盤):大容量的 SSD 具有高速讀取和寫入能力,可以快速加載和保存數(shù)據(jù),使泥人能夠高效地存儲信息。
泥人捏好了,但是現(xiàn)在只能是一個提線木偶,沒有任何能力,所以我們就要給他裝上大腦。
Step2:裝大腦 —— 軟件架構(gòu)構(gòu)建
軟件架構(gòu)是泥人的大腦,它決定了這個泥人將以什么樣的方式對數(shù)據(jù)進(jìn)行思考推理。
從仿生學(xué)的角度,人類希望 AI 能夠模仿人腦的運行機制,對知識進(jìn)行思考推理 —— 這就是通常所說的深度學(xué)習(xí)。
為了實現(xiàn)深度學(xué)習(xí),學(xué)者們提出了大量的神經(jīng)網(wǎng)絡(luò)架構(gòu):
深度神經(jīng)網(wǎng)絡(luò)(DNN)是最普遍的神經(jīng)網(wǎng)絡(luò)架構(gòu),但是隨著數(shù)據(jù)對于網(wǎng)路架構(gòu)的要求越來越復(fù)雜,這種方法逐漸有些吃力。
卷積神經(jīng)網(wǎng)絡(luò)(CNN)是一種專門為處理圖像數(shù)據(jù)而設(shè)計的神經(jīng)網(wǎng)絡(luò)架構(gòu),能夠有效地處理圖像數(shù)據(jù),但是需要對輸入數(shù)據(jù)進(jìn)行復(fù)雜的預(yù)處理。
隨著任務(wù)復(fù)雜度的增加,循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)架構(gòu)成為處理序列數(shù)據(jù)的常用方法。
由于 RNN 在處理長序列時容易遇到梯度消失和模型退化問題,著名的 Transformer 算法被提出。
隨著算力的發(fā)展,生成式 AI 的網(wǎng)絡(luò)架構(gòu)發(fā)展越來越成熟,也開始各有側(cè)重:
Transformer 架構(gòu):是目前文本生成領(lǐng)域的主流架構(gòu),GPT、llama2 等 LLM(大語言模型)都是基于 Transformer 實現(xiàn)了卓越的性能。
GANs 架構(gòu):在圖像生成、視頻生成等領(lǐng)域有廣泛應(yīng)用,能夠生成高質(zhì)量的圖像和視頻內(nèi)容。
Diffusion 架構(gòu):在圖像生成、音頻生成等領(lǐng)域取得了很好的效果,能夠生成高質(zhì)量、多樣化的內(nèi)容。
網(wǎng)絡(luò)架構(gòu)搭建好了,腦子是有了,但是腦子里空空如也呀。所以我們通過數(shù)據(jù)訓(xùn)練給這個人造大腦喂知識。
Step3:喂知識 —— 數(shù)據(jù)訓(xùn)練
目前有兩種訓(xùn)練方式:預(yù)訓(xùn)練和 SFT(有監(jiān)督微調(diào))
預(yù)訓(xùn)練:是指將一個大型、通用的數(shù)據(jù)集作為知識喂給 AI 進(jìn)行初步學(xué)習(xí)。
經(jīng)過預(yù)訓(xùn)練的模型叫作“基礎(chǔ)模型”,它對每個領(lǐng)域都有所了解,但是無法成為某個領(lǐng)域的專家。
SFT:SFT 是指在預(yù)訓(xùn)練之后,將一個特定任務(wù)的數(shù)據(jù)集喂給 AI,進(jìn)一步訓(xùn)練模型。
例如,在已經(jīng)預(yù)訓(xùn)練的語言模型基礎(chǔ)上,用專門的醫(yī)學(xué)文本來微調(diào)模型,使其更擅長處理醫(yī)學(xué)相關(guān)的問答或文本生成任務(wù)。
但是,無論是預(yù)訓(xùn)練還是 SFT,AI 的大腦是如何吸收這些知識的呢?
這就涉及到“理解”能力了,我們以 Transformer 架構(gòu)為例,講講 AI 對于文本的理解。
對于 AI 來說,理解分兩步:理解詞語和理解句子。
理解詞語的本質(zhì)就是詞語的歸類。研究人員提出了一種方法:將詞語在不同維度上進(jìn)行拆解,從而對詞語進(jìn)行歸類。
假設(shè)有四個詞語:西瓜、草莓、番茄和櫻桃。AI 在兩個維度上對這些詞語拆解:
顏色維度:用 1 代表紅色,2 代表綠色。
形狀維度:用 1 代表圓形,2 代表橢圓形。
基于這個維度,AI 對詞語進(jìn)行打分歸類。
西瓜:顏色 = 2(綠色),形狀 = 1(圓形)
草莓:顏色 = 1(紅色),形狀 = 2(橢圓形)
番茄:顏色 = 1(紅色),形狀 = 1(圓形)
櫻桃:顏色 = 1(紅色),形狀 = 1(圓形)
通過這些打分,我們可以看到詞語在不同維度上的分類。
例如,“番茄”和“櫻桃”在顏色和形狀維度上都是相同的,說明它們在這兩個維度上的含義相同;“草莓”和“西瓜”在顏色和形狀維度上都有所不同,說明它們在這兩個維度上的含義不同。
當(dāng)然,區(qū)分他們的維度不僅僅只有兩個,AI 還可以從大小、甜度、是否有籽等大量維度對他們進(jìn)行打分,從而分類。
只要維度足夠多、打分足夠準(zhǔn)確,AI 模型就可以越精準(zhǔn)地理解一個詞語的含義。
對于目前較為先進(jìn)的 AI 模型來說,通常維度的數(shù)量可以達(dá)到上千個。
學(xué)習(xí)詞語并理解為量化的結(jié)果只完成了第一步,接下來 AI 就需要進(jìn)一步理解一組詞語的合集:句子。
我們知道即使同一個詞語在不同語句中,也會具備不同的含義。
例如:
這是一頂綠色的帽子。
某某公司致力于打造綠色機房。
在不同句子中,“綠色”這個詞含義不同,AI 是如何知道他們有不同的含義呢?
這就得益于 transformer 架構(gòu)的“自注意力(Self Attention)”機制。
簡單來說,當(dāng) AI 理解包含了一組詞語的句子時,除了理解詞語本身,還會“看一看”身邊的詞。單個詞語和句子中其他詞語之間的關(guān)聯(lián)性,稱之為“注意力”,由于是和同一個句子自身的詞語結(jié)合理解,所以稱之為“自注意力”。
因此,在 Transformer 架構(gòu)中,可以分為以下兩步:
將每個詞語轉(zhuǎn)換為一個向量。這個向量表示詞語在多維空間中的位置,反映了詞語的各種特征。
使用自注意力機制來關(guān)注句子中的不同部分。它能夠在處理每個詞語時,同時考慮句子中其他詞語的信息。
Step4:有產(chǎn)出 —— 內(nèi)容生成
在理解完大量詞語、句子之后,AI 就可以生成內(nèi)容了。它是如何生成內(nèi)容的呢?
這就是一個概率的問題了。
問大家一個問題:
我在餐廳吃 ×。
× 填個字,你會填什么?
根據(jù)你既往的經(jīng)驗,大概率你會填“飯”。
其實,× 還可以是“餅”、“面”、“蛋”等等。
像人一樣,生成式 AI 也會根據(jù)它第三步中學(xué)到的經(jīng)驗,給這些字加上概率。然后選擇概率高的詞作為生成的內(nèi)容。接著,AI 將重復(fù)這一過程,選擇下一個可能性最高的詞語,從而生成更多內(nèi)容。
但有的時候,我們希望答案是豐富多彩的,回到剛剛那個例子,我們現(xiàn)在不希望 AI 接的下一個字是“飯”,那要怎么辦呢?
AI 提供了一個調(diào)節(jié)參數(shù),叫溫度,范圍從 0 到 1。
在溫度為 0 時,說明匹配概率要選盡量大的,在以上例子中,AI 很可能選擇“飯”;
在溫度為 1 時,說明匹配概率要選盡量小的,在以上例子中,AI 很可能選擇“餅”。
數(shù)值越接近 1,得到的內(nèi)容越天馬行空。
比如,溫度設(shè)為 0.8,那么 AI 生成的句子可能是:
我在餐廳吃餅,這個餅又大又圓,我想把它套在脖子上......
但是,我們看到大多數(shù) AI 產(chǎn)品,只有一個對話框,如何修改溫度參數(shù)呢?
答案是“提示詞”,也就是我們通常所說的 prompt。
如果你輸入是“你是一名某某領(lǐng)域的專家,請用嚴(yán)謹(jǐn)?shù)目谖菍懸黄P(guān)于 xx 的文獻(xiàn)綜述?!边@時 AI 的溫度接近 0,就會選擇匹配概率盡量高的詞語生成句子。
如果你輸入是“請你請暢想一下 xx 的未來?!边@時 AI 的溫度接近 1,就會選擇匹配概率盡量低的詞語組成句子,生成意想不到的內(nèi)容。
現(xiàn)在知道 prompt 的重要性了吧!
所以,我們可以認(rèn)為,AI 生成的本質(zhì)就是一場詞語接龍:AI 根據(jù)當(dāng)前字,聯(lián)系它之前記錄的下個字的出現(xiàn)概率以及你的期望,選擇接下來的字。
當(dāng)然,生成式 AI 的內(nèi)部原理遠(yuǎn)比小編講的要復(fù)雜,小編這里只能算一個基礎(chǔ)的科普。
4、“生成式 AI”去向何方?
那么生成式 AI 真的會實現(xiàn)通用人工智能,從而替代人類嘛?目前,有兩種看法:
積極派:以 OpenAI 的 CEO Altman、英偉達(dá) CEO 黃仁勛為首的積極派,非??春蒙墒?AI 的未來,他們曾表示“再過幾年,人工智能將會比現(xiàn)在更加強大和成熟;而再過十年,它定將大放異彩“,“AI 可能在 5 年內(nèi)超越人類智能”。
消極派:以深度學(xué)習(xí)先驅(qū)楊立昆為首的消極派,一直認(rèn)為生成式 AI 無法通向用人工智能。他在多個場合表示“像 ChatGPT 這樣的大型語言模型將永遠(yuǎn)無法達(dá)到人類的智能水平”,“人類訓(xùn)練的人工智能,難以超越人類”。
那么對于我們普通人來說,我們要怎么對待生成式 AI 呢?
文檔君覺得,我們普通人不妨就把它當(dāng)做一個工具,學(xué)會使用它,提高我們的工作效率,豐富我們的日常生活,保持對世界的好奇心,充分享受科技帶來的便利就好啦!
本文來自微信公眾號:中興文檔 (ID:ztedoc)
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。