設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

從軟硬件到生態(tài)加速 AI PC 革命,英偉達(dá)憑實(shí)力證明 RTX 就是 AI

芯東西 2023/12/23 13:10:06 責(zé)編:夢澤

一個(gè)插件讓顯卡速度翻 3 倍?解密英偉達(dá) AIGC 時(shí)代的最新王牌。

作者 |  云鵬

編輯 |  漠影

最近的 AIGC 圈著實(shí)迎來了一波新品發(fā)布小高潮!

先是谷歌 Gemini 突然深夜炸場,硬剛 OpenAI 的 GPT-4,然后是斯坦??茖W(xué)家李飛飛團(tuán)隊(duì)亮出 AI 視頻生成模型 W.A.L.T,拳打 Pika 腳踢 Gen-2,最近微軟又發(fā)布了手機(jī)端側(cè)都能跑的小語言模型 Phi-2,平均性能甚至超過 Llama 2。

W.A.L.T 文生視頻案例片段

AI 大模型火爆之下,各路科技巨頭幾乎都在“All in AI”,而 AI 軍備競賽已經(jīng)很快從云端卷到了端側(cè),從智能手機(jī)到 PC,我們身邊各類熟悉的智能硬件都已被卷入這場大模型浪潮。

各類智能助手、各類 AIGC 相關(guān)應(yīng)用如雨后春筍般涌現(xiàn),各類“GPTs”已經(jīng)逐漸進(jìn)入大眾視野。

熱況之下,AI 大模型在端側(cè)的落地離不開底層硬件的支持,英偉達(dá)、英特爾、AMD 等大廠也不斷亮出各種應(yīng)對 AI 新時(shí)代的軟硬件新品,加速著 AI PC 時(shí)代的到來。PC 作為算力最強(qiáng)的消費(fèi)級產(chǎn)品,成為 AI 大模型在端側(cè)應(yīng)用的最理想平臺之一。

毫無疑問,AI 將成為 PC 產(chǎn)業(yè)發(fā)展的一個(gè)關(guān)鍵拐點(diǎn),AI 也會徹底改變玩家、創(chuàng)作者、上班族、學(xué)生乃至每一個(gè)普通 PC 用戶的體驗(yàn)。

▲ 圖片由 Bing 創(chuàng)作,來源:PCWorld

目前全球搭載英偉達(dá) RTX GPU 的 Windows PC 和工作站已經(jīng)超過了 1 億臺,英偉達(dá)作為 AI 大模型時(shí)代最核心的全棧玩家,正通過全棧生態(tài)的賦能讓這些“RTX PC”的 AI 性能有翻倍式暴漲。

在我們熟悉的文生圖應(yīng)用 Stable Diffusion 中,基于英偉達(dá)的 RTX 專用加速插件,一張 RTX 4090 僅用 49 秒就可以生成 100 張高質(zhì)量圖像,速度翻了 3 倍,而這樣的升級甚至不需要改變其他硬件配置。

英偉達(dá) RTX 相關(guān)技術(shù)在 AI 領(lǐng)域的應(yīng)用,讓全球無數(shù)開發(fā)者可以更輕松、高效地創(chuàng)建 AI 應(yīng)用,人們使用 PC 的方式,也在潛移默化中改變著。

英偉達(dá)如何為 AI PC 時(shí)代的底層筑基?英偉達(dá)在 AIGC 時(shí)代藏得最深的王牌又是什么?今天,從硬件、軟件到生態(tài),英偉達(dá)似乎已經(jīng)和 AI 畫上了等號。

01.從通用計(jì)算到加速計(jì)算,從數(shù)據(jù)中心到 PC,英偉達(dá) CUDA 生態(tài)占 C 位

今天的計(jì)算產(chǎn)業(yè)究竟醞釀著哪些關(guān)鍵變量,英偉達(dá)又在其中扮演著怎樣的角色?

正如英偉達(dá) CEO 黃仁勛在財(cái)報(bào)電話會中提到的,放眼如今的全球計(jì)算產(chǎn)業(yè),有兩個(gè)重要的轉(zhuǎn)變值得注意:第一,用一種通用處理器處理一切工作的傳統(tǒng)通用計(jì)算已經(jīng)不再具有成本和效率的優(yōu)勢,與之相對的“加速計(jì)算”將成為主流。

顧名思義,數(shù)據(jù)中心需要盡可能地去“加速”所有工作負(fù)載,這樣才能有更高的性能、能源效率和成本效益。

第二,在加速計(jì)算的大趨勢下,新的軟件開發(fā)方式成為了可能,這也推動了軟件平臺的轉(zhuǎn)變,讓以前無法實(shí)現(xiàn)的應(yīng)用程序成為可能。

或許正如黃仁勛所說,AI 并不是一種奢侈品,AI 是必需品,AI 的投資是一種戰(zhàn)略性的迫切需求,可以幫企業(yè)提高未來的競爭力。

在這場“不能輸”的 AI 之戰(zhàn)中,英偉達(dá)的 GPU 儼然已經(jīng)走到了舞臺中央,已經(jīng)走到了全球“AI 新工業(yè)”的中央。在黃仁勛看來,如今的數(shù)據(jù)中心就像一座“AI 工廠”,數(shù)據(jù)是原材料,被生產(chǎn)、開發(fā)、精煉,轉(zhuǎn)化為世界上最有價(jià)值的東西 —— 智能。

顯然,這對于所有科技巨頭來說,都是一場技術(shù)乃至商業(yè)范式的革新。

在這樣的大背景下,各行各業(yè)都在經(jīng)歷從通用計(jì)算到加速計(jì)算和生成式 AI 的平臺化轉(zhuǎn)型,而英偉達(dá)最新一季財(cái)報(bào)中數(shù)據(jù)中心業(yè)務(wù)接近 280% 的強(qiáng)勁同比增長也恰恰證明了這一點(diǎn)。

AI 大模型的初創(chuàng)公司、消費(fèi)互聯(lián)網(wǎng)公司和全球云巨頭們都在積極“備戰(zhàn)”,各大云服務(wù)商不斷加大對 AI 云的投入,企業(yè)級軟件公司也陸續(xù)為自己的平臺增加 AI 相關(guān)應(yīng)用和功能,不少廠商都推出了定制化 AI 產(chǎn)品,推動著各大行業(yè)的智能化、自動化發(fā)展。

熱潮之下,英偉達(dá)的 GPU、CPU、網(wǎng)絡(luò)、AI foundry、AI 企業(yè)軟件解決方案等產(chǎn)品和服務(wù)都成為加速這一轉(zhuǎn)型的核心“引擎”。

上述各行各業(yè)的智能化、自動化與計(jì)算產(chǎn)業(yè)密不可分,在計(jì)算產(chǎn)業(yè)中,除了數(shù)據(jù)中心在經(jīng)歷“加速計(jì)算”的轉(zhuǎn)型,PC 產(chǎn)業(yè)作為計(jì)算的關(guān)鍵一環(huán),也同樣經(jīng)歷著類似的轉(zhuǎn)變。

當(dāng)下,各類生成式 AI 產(chǎn)品正迅速成為高性能 PC 的支柱型應(yīng)用,在各行各業(yè)從業(yè)者的日常工作中發(fā)揮著重要作用。而英偉達(dá)的 RTX GPU,無疑已成為 AI PC 時(shí)代最核心的底層技術(shù)支撐。

為什么英偉達(dá)的 GPU 能夠在 AI 時(shí)代走到如此關(guān)鍵的位置,并且?guī)缀跏恰安豢商娲钡模?/p>

實(shí)際上,提到英偉達(dá)的 GPU,就不得不提到 CUDA。在黃仁勛看來,英偉達(dá)是通過發(fā)明 CUDA 這種新編程工具,以及 GPU 這種處理器來推動加速計(jì)算的。

CPU 無法高效執(zhí)行的工作,GPU 可以進(jìn)行有效的加速,并且在性能、能源成本上有著顯著優(yōu)勢?;?CUDA 的 GPU 經(jīng)歷近 25 年的發(fā)展,如今已經(jīng)與開發(fā)者、系統(tǒng)制造商、云服務(wù)提供商、技術(shù)制造商和用戶深度綁定,CUDA 生態(tài)系統(tǒng)已經(jīng)為各行各業(yè)所信任,這也是英偉達(dá)有著不可替代性的根本性因素之一。

在深度學(xué)習(xí)、AI 大模型的發(fā)展中,英偉達(dá)所提出的加速計(jì)算發(fā)揮著關(guān)鍵作用,生成式 AI 的崛起與其密不可分,這也被很多人稱之為“第四次工業(yè)革命”。

在黃仁勛看來,智能是最有價(jià)值的,倘若智能可以批量化、自動化的生產(chǎn),其帶來的價(jià)值是不可估量的。

如今英偉達(dá)所做的,正是推動這一未來走入現(xiàn)實(shí)。

02.兼容性架構(gòu)鋪路,TensorRT-LLM 讓推理性能翻倍,AI 繪圖進(jìn)入“秒速時(shí)代”

正如前文所說,英偉達(dá)在技術(shù)生態(tài)方面的布局,尤其是 25 年來在 CUDA 領(lǐng)域的深耕,是其能夠在 AI 時(shí)代占據(jù) C 位的關(guān)鍵。而這樣的生態(tài)布局如今在 PC 產(chǎn)業(yè)中釋放的能量開始愈發(fā)凸顯。

今年四季度,英偉達(dá)發(fā)布了一個(gè)名為 TensorRT-LLM 的引擎優(yōu)化編譯器,其目的就是進(jìn)一步提升大語言模型的 AI 推理性能。

AI 大模型在云端的訓(xùn)練需要消耗大量算力,而 AI 大模型真正走入每個(gè)人的生活,更需要解決推理這“最后一公里”的難題,因?yàn)閷?shí)際場景中的推理任務(wù)往往是極為復(fù)雜的。

根據(jù)官方數(shù)據(jù),在 TensorRT-LLM 的加持下,對于 Lambda2 這樣的大語言模型,H200 的推理能力可以提高到 H100 的 2 倍,成本也有著稱成倍降低,與 H100 相比,H200 在 GPT-3 模型上的推理性能有著 18 倍的提升,得益于此,英偉達(dá)的客戶可以使用更大的模型,但延遲卻不會增加。

▲ TensorRT-LLM v0.6.0 可以帶來最高 5 倍推理性能提升

實(shí)際上,TensorRT-LLM 有著這樣的表現(xiàn),與 CUDA 的特性是密不可分的。英偉達(dá) CFO 在財(cái)報(bào)電話會中特別提到,他們之所以能夠創(chuàng)建 TensorRT-LLM,正是因?yàn)?CUDA 是可編程的,如果 CUDA 和其對應(yīng)的 GPU 不是可編程的,以如今這樣快的速度迭代改進(jìn)軟件棧是很難實(shí)現(xiàn)的。

經(jīng)過 20 多年的深耕,每一個(gè)英偉達(dá) GPU 的背后,都是不斷迭代更新的軟件棧在做堅(jiān)實(shí)支撐,而 CUDA 的靈活性和兼容性無一不是這一生態(tài)的突出優(yōu)勢。

英偉達(dá)有著規(guī)模龐大的生態(tài)系統(tǒng)軟件開發(fā)人員、系統(tǒng)制造商生態(tài)系統(tǒng)和分銷合作網(wǎng)絡(luò),而將這些真正連結(jié)在一起形成一個(gè)高效生態(tài)系統(tǒng)的,正是英偉達(dá) CUDA 軟件生態(tài)和架構(gòu)層面的兼容性。

英偉達(dá) CFO 稱,一切基于兼容性構(gòu)筑是他們幾十年前就做出的一個(gè)偉大決定,保證架構(gòu)的兼容性也一直是他們的首要任務(wù)。

每當(dāng)英偉達(dá)引入一個(gè)新的特性、新功能、新技術(shù)時(shí),生態(tài)中的開發(fā)者們會立即從各個(gè)方面獲益,享受到這些紅利。目前英偉達(dá)在全球有 28000 名員工,他們服務(wù)于全球各地、各個(gè)行業(yè)、不同的市場和公司,但依然可以保持高效協(xié)作,這與良好的兼容性密不可分。

這樣的兼容性進(jìn)一步帶來的就是英偉達(dá)平臺的穩(wěn)定性,這也是全球各類新應(yīng)用幾乎都選擇率先在英偉達(dá)平臺上進(jìn)行開發(fā)并進(jìn)行優(yōu)化的關(guān)鍵原因之一。

云計(jì)算領(lǐng)域的數(shù)據(jù)中心中有著數(shù)百萬英偉達(dá) GPU,而全球 PC 和工作站用戶手中又有著 1 億多塊英偉達(dá) GPU,他們在架構(gòu)上都是兼容的,因此所有基于英偉達(dá)平臺實(shí)現(xiàn)的技術(shù)創(chuàng)新,都可以快速應(yīng)用到這些數(shù)以百萬計(jì)、數(shù)以億計(jì)的產(chǎn)品中。

這也可以說是英偉達(dá)人無我有的核心優(yōu)勢之一。

最后,在加速計(jì)算方面,英偉達(dá) GPU 可以為 Spark、Python 甚至是目前最成功的數(shù)據(jù)科學(xué)框架 Pandas 進(jìn)行加速,據(jù)了解,Pandas 現(xiàn)在由英偉達(dá)的 CUDA 加速,并且無需代碼行就能用起來。

在企業(yè)和專業(yè)領(lǐng)域之外,對于普通用戶來說,英偉達(dá) GPU 帶來的加速能力也是感知極強(qiáng)的。

就在今年四季度,英偉達(dá)在發(fā)布 TensorRT-LLM 的同時(shí)也帶來了 TensorRT-LLM for Windows,與此同時(shí),微軟也在 Ignite 大會上發(fā)布了 OpenAI Chat API 的 TensorRT-LLM 封裝接口、RTX 驅(qū)動的性能改進(jìn) DirectML for Llama 2 等新工具和資源。

可以說,Windows PC 的終端用戶們也可以享受到 TensorRT-LLM 帶來的加速紅利了。

根據(jù)官方數(shù)據(jù),TensorRT-LLM?for Windows 可以將終端設(shè)備上的大語言模型推理性能最高提升 4 倍左右,而目前英偉達(dá) RTX GPU 的裝機(jī)量已經(jīng)超過了 1 億臺,這一新特性也已經(jīng)快速全面普及開來,這對于應(yīng)用程序開發(fā)者們來說無疑是一大喜訊。

TensorRT-LLM for Windows 的推出無疑意味著 AI 大模型可以更好的應(yīng)用于端側(cè) RTX PC 中,滿足用戶各類 AIGC 需求,提升用戶的 AI PC 體驗(yàn)。

數(shù)以百計(jì)的 AI 相關(guān)開發(fā)者項(xiàng)目和應(yīng)用都可以直接在搭載 RTX GPU 的 PC 上本地運(yùn)行,同時(shí),用戶的私人和專有數(shù)據(jù)也可以在 PC 本地進(jìn)行保存。

值得一提的時(shí),TensorRT-LLM 也在持續(xù)更新,支持更多新的熱門大模型,比如 Mistral 7B 和 Nemotron-3 8B,這些版本的 TensorRT-LLM 可以直接運(yùn)行在 8GB 及以上顯存的 GeForce RTX 30 系列和 40 系列 GPU 上。

▲ TensorRT 擴(kuò)展的配置需求,由 Bilibili UP 主 Nenly 同學(xué)制作

根據(jù) Bilibili 平臺上一位專業(yè)設(shè)計(jì)師 UP 主 Nenly 同學(xué)的測試,在 Tensor RT 的加持下,Stable Diffusion 這一熱門文生圖應(yīng)用基于 RTX GPU 生成的模型推理速度直接提升了 2 倍甚至 3 倍以上,AI 繪畫進(jìn)入了“秒速時(shí)代”。

▲ 標(biāo)準(zhǔn) StableDiffusion 與 TensorRT 引擎優(yōu)化后相比,每分鐘繪制圖片數(shù)的差異,由 Bilibili UP 主 Nenly 同學(xué)制作

根據(jù) Nenly 同學(xué)發(fā)布視頻,在 GeForce RTX 4090 上,Stable Diffusion 的運(yùn)行速度是使用蘋果 M2 Ultra 的 Mac 頂配版的 7 倍。甚至 4060Ti 在 TensorRT 擴(kuò)展的支持下,生成圖片的速度已經(jīng)超過了加速前的 4090。

對于一些需要大量出具草圖的創(chuàng)意工作者們來說,這樣的加速能力所帶來的收益是極為明顯的。面對數(shù)千張圖片吞吐量的工作,節(jié)省下來的時(shí)間可能是以天計(jì)算的。

比如被譽(yù)為“插畫領(lǐng)域的劉慈欣”、“國內(nèi)科幻繪畫第一人”,也是首位獲得全球雨果獎(jiǎng)的華人藝術(shù)家趙恩哲,在工作中就使用了全流程經(jīng) GeForce RTX GPU 加速的 Stable Diffusion 進(jìn)行創(chuàng)作,AI 輔助創(chuàng)作工具可以省掉細(xì)化時(shí)間,同時(shí)給他很多意向不到的創(chuàng)作設(shè)計(jì)可能。

▲《虛空之舟》—— 使用 SD 創(chuàng)作,全流程經(jīng) GeForce RTX GPU 加速

趙恩哲特別說道,其實(shí)每位創(chuàng)作者都渴望將腦海中的世界完美呈現(xiàn),但由于技術(shù)門檻和工業(yè)化流程等方面的限制,他們過去只能在概念設(shè)計(jì)與最終呈現(xiàn)之間做出妥協(xié)。但如今,借助英偉達(dá) GeForce RTX 顯卡的強(qiáng)大算力以及 SD、RUNWAY 等 AI 創(chuàng)意工具,概念設(shè)計(jì)師可以突破限制,在短短幾秒內(nèi)嘗試所有想法,相信今后有了更強(qiáng)大的算力加持,每位藝術(shù)家都可以實(shí)現(xiàn)無限創(chuàng)造!

▲ 趙恩哲

當(dāng)然,基于 RTX GPU 這些能力,相關(guān)公司也可以基于自己的模型構(gòu)建具有最有效果的加速引擎,讓算力的效益最大化,從而實(shí)現(xiàn)顯著的降本增效。

可以說,從企業(yè)到個(gè)人,從數(shù)據(jù)中心到 PC,基于數(shù)十年建立的堅(jiān)實(shí)生態(tài),英偉達(dá)正通過技術(shù)創(chuàng)新拉近每一個(gè)人與 AI 大模型的距離。

03.DLSS 用 AI 改寫游戲產(chǎn)業(yè),英偉達(dá)為開發(fā)者武裝到牙齒,RTX 就是 AI

今天,我們看到了 Tensor RT 對于 PC 端側(cè)運(yùn)行 AI 大模型能力帶來的顛覆式升級,而在此之外,英偉達(dá) RTX GPU 已經(jīng)深耕 AI 領(lǐng)域多年,如今提到 AI,幾乎就等于提到英偉達(dá)。用英偉達(dá) CFO 的話來說,“RTX 就是 AI”。

在游戲領(lǐng)域,這一特點(diǎn)體現(xiàn)的尤為明顯。這其中最具代表性的就是 DLSS 技術(shù),這也是英偉達(dá)最早推出的 AI 模型之一,從五年前的首次亮相至今,DLSS 技術(shù)經(jīng)歷了多個(gè)大版本迭代,AI 技術(shù)的融入也愈發(fā)深入,目前已經(jīng)包含超分辨率、幀生成和光線重建三個(gè)不同的模型。

據(jù)了解,從發(fā)布之初,DLSS 技術(shù)就一直離不開背后 AI 模型的持續(xù)學(xué)習(xí),AI 模型學(xué)習(xí)的結(jié)果不斷反饋迭代,推動 DLSS 技術(shù)完善,進(jìn)而提高 DLSS 技術(shù)在游戲中帶來的性能和畫質(zhì)提升。

今年英偉達(dá)推出了 DLSS 3.5,其對于游戲圖形渲染技術(shù)發(fā)展的推動是極為明顯的,基于新的 AI 模型光線重建,DLSS 3.5 可以創(chuàng)建出更高質(zhì)量的光線追蹤畫面,同時(shí)還能進(jìn)一步提升游戲的幀率表現(xiàn),可以說是一舉兩得。

這一技術(shù)也在游戲玩家中收到了廣泛好評。根據(jù)官方數(shù)據(jù),目前支持 RTX 特性的游戲和應(yīng)用已經(jīng)超過了 500 個(gè),這一生態(tài)系統(tǒng)的發(fā)展壯大,可以說為玩家們帶來了真正體驗(yàn)上的直觀提升。

除了游戲,在生產(chǎn)力創(chuàng)作領(lǐng)域,根據(jù)官方數(shù)據(jù),目前英偉達(dá)的 RTX GPU 加速了 110 多個(gè)創(chuàng)作類應(yīng)用,尤其在生成式 AI 相關(guān)應(yīng)用領(lǐng)域,RTX GPU 的應(yīng)用更為廣泛。

如今,AI PC 時(shí)代的大門已經(jīng)被推開了,各路廠商都在積極找準(zhǔn)自己的定位,進(jìn)行產(chǎn)品和技術(shù)的布局,而在這場時(shí)代大潮中,開發(fā)者們的作用至關(guān)重要,在 RTX 加持下,開發(fā)者現(xiàn)在可以直接利用前沿 AI 大模型,通過跨供應(yīng)商 API 來部署自己的應(yīng)用。

英偉達(dá)一直在做的,其實(shí)就是增強(qiáng)開發(fā)者的能力,在 AI 新時(shí)代為開發(fā)者們武裝到牙齒。英偉達(dá)提供的新優(yōu)化、新模型和資源無疑會加速 AI 功能和應(yīng)用在全球 1 億多臺 RTX PC 上的開發(fā)和部署,AI 與 PC 的融合,會變得越來越簡單。

04.結(jié)語:AIGC 時(shí)代要想玩轉(zhuǎn) AI,英偉達(dá)是徹底繞不開了

在 AIGC 風(fēng)起云涌的當(dāng)下,無數(shù)創(chuàng)企涌入賽道,消費(fèi)者們也爭相接觸新的技術(shù)、感受生成式 AI 帶來的體驗(yàn)革新,而英偉達(dá)無疑成為了風(fēng)口浪尖上的一顆明星企業(yè),從硬件、軟件到生態(tài),英偉達(dá)的王牌一張接著一張。

AI 技術(shù)的發(fā)展,引起了整個(gè)計(jì)算產(chǎn)業(yè)范式的革新,加速計(jì)算概念的落地普及,牽動著全球各行各業(yè)的企業(yè)。從數(shù)據(jù)中心到我們每個(gè)人家中的 PC,英偉達(dá)的技術(shù)正深入每一處,在 AI 技術(shù)落地的過程中,發(fā)揮著關(guān)鍵作用。

如今回顧科技產(chǎn)業(yè)發(fā)展的歷史,我們能清楚地看到,那些最成功的公司,無一不是憑借生態(tài)取勝,從自身的產(chǎn)品技術(shù)生態(tài)到與產(chǎn)業(yè)鏈各領(lǐng)域玩家聯(lián)合形成的牢固生態(tài),生態(tài)必然會成為當(dāng)今科技巨頭們比拼的核心焦點(diǎn)。

不論如何,在當(dāng)下的 AIGC 時(shí)代,想要乘風(fēng)而行,走在浪尖,英偉達(dá)這艘大船,是必須要上了。

本文來自微信公眾號:芯東西 (ID:aichip001),作者:云鵬

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:英偉達(dá),人工智能

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會買 要知