要說有什么芯片產(chǎn)品最引數(shù)碼達(dá)人關(guān)注,那必然是 GPU。
GPU 是個(gè)熱鬧異常的市場(chǎng)。圍繞 GPU / 顯卡玩梗也成為數(shù)碼愛好者茶余飯后的一項(xiàng)樂趣:“超低功耗,極致色彩,曲面細(xì)分”“礦卡論斤賣““一卡一棟樓,兩卡毀地球,三卡銀河系,四卡創(chuàng)世紀(jì)”。它曾一度挑戰(zhàn)甚至超越同時(shí)期的 CPU,它曾讓無數(shù)游戲玩家為之瘋狂,它曾向更深、更廣領(lǐng)域延伸觸角。[1]
因?yàn)閲?guó)外廠商長(zhǎng)期壟斷,國(guó)內(nèi)對(duì)自主 GPU 的期盼越來越強(qiáng)烈。
在本文中,你將了解到:GPU 和顯卡有什么關(guān)系,GPU 的國(guó)內(nèi)外市場(chǎng)情況和國(guó)產(chǎn)化布局,GPU 及背后的思考。
1、那些容易被混淆的概念
GPU(Graphics Processing Unit,圖形處理器)又被稱作顯示核心、視覺處理器、顯示芯片,是一種專為并行處理而設(shè)計(jì)的微型處理器,非常擅長(zhǎng)處理大量簡(jiǎn)單任務(wù),包括圖形和視頻渲染。GPU 能應(yīng)用在臺(tái)式機(jī)、筆記本電腦、工作站、游戲機(jī)、嵌入式設(shè)備、數(shù)據(jù)中心等各種需要渲染圖形或高性能計(jì)算的場(chǎng)景。
在生活中,我們普遍把 GPU 叫成顯卡。不過事實(shí)上,GPU 和顯卡在術(shù)語(yǔ)上有細(xì)微差別,GPU 指的是負(fù)責(zé)處理各種任務(wù)的那顆芯片,顯卡指的是把 GPU 芯片、顯存、接口等集合在一起的那張板卡。
GPU 根據(jù)接入系統(tǒng)的方式分為集成型 GPU(Integrated GPU,iGPU)和離散型 GPU(Discrete GPU ,dGPU)兩種,前者就是我們?nèi)粘Kf的集成顯卡 / 核芯顯卡,后者就是我們?nèi)粘Kf的獨(dú)立顯卡,兩種類型 GPU 均有各自的特點(diǎn)和使用場(chǎng)景。
集成型 GPU 中,GPU 被嵌在 CPU 旁邊,且無單獨(dú)的內(nèi)存組用于圖形 / 視頻,會(huì)與 CPU 共享系統(tǒng)內(nèi)存。由于集成型 GPU 內(nèi)置于處理器中,通常功耗更低,產(chǎn)生的熱量更少,從而延長(zhǎng)了電池續(xù)航時(shí)間。
離散型 GPU 則完全以獨(dú)立板卡出現(xiàn),通常被連接在 PCI 高速插槽內(nèi),就像主板包含 CPU 一樣。離散型 GPU 除包含 GPU 芯片以外,還包括允許 GPU 運(yùn)行并連接到系統(tǒng)其余部分所需的大量組件。離散型 GPU 有自己的專用內(nèi)存,同時(shí)也擁有自己的內(nèi)存源和電源,因此其性能比集成型 GPU 更高。但由于與處理器芯片分離,因此會(huì)消耗更多功率并產(chǎn)生大量熱量。[2][3][4]
2、從專用到通用再到融合
現(xiàn)代的 GPU 擁有兩大功能,一是充當(dāng)強(qiáng)大的圖形引擎,二是用作高度并行的可編程處理器,處理各種神經(jīng)網(wǎng)絡(luò)或機(jī)器學(xué)習(xí)任務(wù)。
圖形計(jì)算是 GPU 的拿手絕活。當(dāng)我們拖動(dòng)鼠標(biāo)時(shí),GPU 將需要顯示的圖形內(nèi)容計(jì)算后呈現(xiàn)在屏幕上;當(dāng)我們打開播放器觀看電影時(shí),GPU 將壓縮后的視頻信息解碼為原始數(shù)據(jù);當(dāng)我們玩游戲時(shí),GPU 將游戲畫面計(jì)算并生成出來。輕點(diǎn)鼠標(biāo)的背后,是復(fù)雜的處理過程,包括頂點(diǎn)讀入、頂點(diǎn)渲染、圖元裝配、光柵化、像素渲染等。[5]
圖形 GPU 廣泛應(yīng)用于游戲、圖像處理和加密貨幣等場(chǎng)景,關(guān)注圖像學(xué)的幀數(shù)、渲染逼真度、真實(shí)場(chǎng)景映射度等參數(shù)指標(biāo)。[6]
通用計(jì)算是 GPU 并行計(jì)算優(yōu)勢(shì)的最佳體現(xiàn)。科學(xué)家和工程師發(fā)現(xiàn),只要數(shù)據(jù)以圖形形式存在,并將 GPU 基礎(chǔ)上增加部分通用計(jì)算能力,GPU 就能勝任各種高性能模計(jì)算任務(wù),也就是行業(yè)所說的通用 GPU(GPGPU,General-Purpose Graphics Processing Unit)。本質(zhì)上,通用 GPU 還是一種 GPU,不過它會(huì)針對(duì)高性能計(jì)算、AI 開發(fā)及許多其他驚人的突破上定制和靠攏,因此所使用的訓(xùn)練集更大、訓(xùn)練時(shí)間更短、分類 / 預(yù)測(cè) / 推理功率更低、占用基礎(chǔ)設(shè)施更少。[7]
通用 GPU 主要應(yīng)用在大規(guī)模人工智能計(jì)算、數(shù)據(jù)中心及超算等場(chǎng)景,以支持更大的數(shù)據(jù)量和并發(fā)吞吐量。[6]
兩大功能的背后,是一部漫長(zhǎng)的發(fā)展史。
1962 年,Ivan Sutherland(伊凡?蘇澤蘭)的論文《SketchPad:圖形化人機(jī)交流》和他錄制的 Sketchpad 操作視頻成為定義現(xiàn)代計(jì)算機(jī)圖形學(xué)的基礎(chǔ) [8]。之后的 20 年內(nèi),受精度和運(yùn)行強(qiáng)度等限制,彼時(shí)的顯卡僅僅是將 CPU 計(jì)算生成的圖形翻譯成顯示信號(hào),所以只能稱作圖形適配器(VGA Card)[9]。直到 IBM 在 1984 年推出了 MDA 和 CGA 兩款 2D 顯卡,才意味著行業(yè)產(chǎn)生雛形,雖然放到現(xiàn)在兩款產(chǎn)品只能算作是丑小鴨,但卻標(biāo)志著 GPU 開始走向與 CPU 分庭抗禮之路。
上世紀(jì) 90 年代,3D 圖形加速興起。歷史上第一塊真正意義的 3D 圖形加速卡 Voodoo 問世后,S3 又推出第一款同時(shí)擁有 2D 和 3D 圖形處理能力的顯卡 S3 Virge[10],此后行業(yè)便開始多點(diǎn)開花,逐漸誕生出 NVIDIA 的 NV1、Matrox 的 Mlennium、Mystique、PowerVR 的 PCX1 等優(yōu)秀產(chǎn)品,一度顯現(xiàn)出百家爭(zhēng)鳴的盛況。繁華過后,便是殘酷的大魚吞小魚式并購(gòu)和行業(yè)整合,形成英偉達(dá)、AMD 兩家獨(dú)大的格局。自此之后,GPU 也開啟了跨越式的迭代之路。
GPU 的通用性,是在迭代中逐漸表露出來的。20 世紀(jì) 90 年代到 21 世紀(jì)初,為應(yīng)對(duì)更為復(fù)雜和大量的圖形計(jì)算問題,GPU 模式不再為固定圖形流水線模式,處于圖形流水線中的頂點(diǎn)處理器、幾何處理器、像素與子素處理器的可編程性得到增強(qiáng),表現(xiàn)出通用計(jì)算能力。隨后,為解決 GPU 片內(nèi)負(fù)載均衡問題,統(tǒng)一渲染處理器(Shader Processor)取代了各種可編程部件,同時(shí)流處理器(一種流計(jì)算模型上充分考慮并發(fā)和通信的計(jì)算體系)的應(yīng)用奠定 GPU 通用計(jì)算的基礎(chǔ)。[13]
GPU 在可編程性和計(jì)算能力上的快速增長(zhǎng),引得大批研究團(tuán)體關(guān)注,爭(zhēng)相將大量需要計(jì)算的復(fù)雜問題映射到 GPU 上,并將 GPU 定位為未來高性能計(jì)算機(jī)系統(tǒng)中傳統(tǒng)微處理器的的替代方案 [14]。英偉達(dá)所研發(fā)的 Tesla 架構(gòu)正式標(biāo)志著 GPU 朝向通用 GPU 發(fā)展,為后續(xù)在深度學(xué)習(xí)領(lǐng)域廣泛應(yīng)用奠定了基礎(chǔ)。[15]
時(shí)間回到現(xiàn)在,GPU 在圖形計(jì)算上的專用性和面向人工智能的通用性上,引發(fā)科學(xué)界的爭(zhēng)論,是否要將 GPU 的 AI 和 3D 功能拆分成兩種 DSA。GPU 專用于圖形計(jì)算效率高,但只支持幾種特定的算法和模型,走通用計(jì)算兼容性好,但效率差,功耗也大。[17]
目前行業(yè)一致的觀點(diǎn)是 GPU 在圖形計(jì)算和通用計(jì)算表現(xiàn)出的“雙重人格”會(huì)逐步融合,未來將不再擁有功能界限,GPU 也將擁有原生可微和張量加速能力。[18]
那么,再往后呢?從近幾年的大會(huì)來看,GPU 將向大規(guī)模擴(kuò)展計(jì)算能力的高性能計(jì)算(GPGPU)、人工智能計(jì)算(AI GPU)、更加逼真的圖形展現(xiàn)(Ray Tracing GPU,光線追蹤 GPU)三大方向發(fā)展 [16]。其中 AI 是關(guān)鍵,GPU 硬件 / 軟件界面將使 GPU 成為“AI 世界的 CPU”,基于 AI 的渲染會(huì)讓張量加速成為 GPU 中的主流。[18]
3、GPU 與 CPU 的搶婚者
GPU 雖然好用,但它也脫離不開 CPU。一方面,GPU 無法單獨(dú)工作,需要依賴 CPU 控制調(diào)用;另一方面,二者的架構(gòu)極為不同,構(gòu)建目的也各有不同。
CPU 會(huì)包含 4 個(gè)、8 個(gè)、16 個(gè)甚至 32 個(gè)以上的強(qiáng)勁內(nèi)核,同時(shí)一個(gè)內(nèi)核之中便封裝了算術(shù)邏輯單元(ALU)、浮點(diǎn)處理單元(FPU)、 地址生成單元(AGU)、內(nèi)存管理單元(MMU)等幾乎所有功能。一般來說,CPU 中計(jì)算單元 ALU 約為 25%,邏輯控制為 25%,緩存 Cache 為 50%。反觀 GPU 中計(jì)算單元 ALU 通常達(dá)到 95%,緩存 Cache 則為 5%。[19]
最初,GPU 是為了幫助 CPU 加速圖形處理而設(shè)計(jì)的專用硬件。圖形渲染具備極強(qiáng)的并行性,需要非常密集的計(jì)算與巨大的數(shù)據(jù)傳輸帶寬,所以 GPU 被設(shè)計(jì)成包含成千上萬(wàn)個(gè)較小內(nèi)核的形式。每個(gè) GPU 的內(nèi)核都可以并行執(zhí)行一些簡(jiǎn)單的計(jì)算,內(nèi)核本身算不上十分智能,但與“一核有難八核圍觀”的 CPU 不同,GPU 能同時(shí)動(dòng)用全部?jī)?nèi)核執(zhí)行卷積、ReLU 和池化等深度學(xué)習(xí)計(jì)算。除此之外,GPU 采用了靈活的存儲(chǔ)層次設(shè)計(jì)以及兩級(jí)編程編譯模型。[20][21]
不同的結(jié)構(gòu)設(shè)計(jì)使得 GPU 有了自己的專長(zhǎng)。GPU 的頻率只有 CPU 的三分之一,但在每個(gè) clock 周期中,它能夠并行執(zhí)行多于 CPU 將近 100 倍的計(jì)算,在大量并行度任務(wù)中,GPU 比 CPU 快得多,對(duì)那些并行度很低的任務(wù),顯現(xiàn)的速度就會(huì)慢得多。另外,相比 CPU,GPU 通常擁有 5~10 倍的內(nèi)存帶寬,但在訪問數(shù)據(jù)時(shí)會(huì)有更長(zhǎng)的延遲,這就造成 GPU 在可預(yù)測(cè)的計(jì)算上做得更好,但在不可預(yù)測(cè)的計(jì)算上做得更差。[23]
由此可見,CPU 和 GPU 是互補(bǔ)且不沖突的,前者專注串行運(yùn)算,后者專注并行運(yùn)算。打個(gè)比方來說,可以將 CPU 理解為博士,不僅知識(shí)淵博,諸多問題也鉆研得很深,沒有他許多難題都沒有辦法解決。而 GPU 就是上萬(wàn)個(gè)初高中生,只會(huì)簡(jiǎn)單的算術(shù),但無論博士有多強(qiáng)大,也不可能在一瞬間計(jì)算出上萬(wàn)道簡(jiǎn)單的算術(shù)運(yùn)算。[24]
翻開計(jì)算簡(jiǎn)史,誕生了豐富多樣的數(shù)字芯片,每種數(shù)字芯片都有一段沉淀良久的發(fā)展史。計(jì)算機(jī)背后就是計(jì)算問題,無外乎標(biāo)量、矢量、矩陣、空間幾種數(shù)據(jù)類型,GPU 與其他數(shù)字芯片難免會(huì)產(chǎn)生交集和重合。現(xiàn)在,CPU 依然還是那個(gè) CPU,GPU 卻可以不是 GPU 了。
長(zhǎng)久以來,GPU 與 FPGA、ASIC 的爭(zhēng)議不斷,它們可分別構(gòu)成“CPU+GPU”“CPU+FPGA”“CPU+ASIC”的異構(gòu)計(jì)算系統(tǒng),同時(shí) FPGA 和 ASIC 廠商時(shí)常將自家產(chǎn)品與 GPU 算力平行對(duì)比,如 NVIDIA Tesla A100 時(shí)常成為“戰(zhàn)力計(jì)量單位”,CPU 的搶婚者們都在訴說著自己的優(yōu)勢(shì)。
理性而言,GPU、FPGA、ASIC 都是配合 CPU 計(jì)算的好能手,對(duì)廠商還是下游使用者而言,三者的特性截然不同,雖然可能會(huì)在部分應(yīng)用場(chǎng)景下表現(xiàn)出更強(qiáng)的算力或更好的功耗,但部署過程難免要綜合考慮 TCO(總擁有成本)、構(gòu)建難度、系統(tǒng)兼容度等,很難評(píng)判孰強(qiáng)孰弱。
不過,GPU 相對(duì)產(chǎn)品成熟,峰值計(jì)算能力優(yōu)異,同時(shí)在圖形顯示的地位無可撼動(dòng),順理成章地搭上半導(dǎo)體熱潮,成為市場(chǎng)追捧的寵兒。
數(shù)據(jù)顯示,AI 訓(xùn)練階段,GPU 約占 64% 市場(chǎng)份額,而 FPGA 和 ASIC 分別占比 22% 和 14%;推理階段,GPU 約占 42% 市場(chǎng),而 FPGA 和 ASIC 則分別占比 34% 和 24%。[25]
被國(guó)外壟斷的格局
GPU 不僅在當(dāng)下是一門空間廣闊的生意,未來更是潛力無限。
根據(jù) Verified Market Research 數(shù)據(jù)顯示,從 2021 年到 2030 年,GPU 將以 33.3% 的年復(fù)合成長(zhǎng)率,從 330 億美元成長(zhǎng)至 4773 億美元。[26]
GPU 會(huì)按照平臺(tái)對(duì)功耗負(fù)載要求不同,制作成各種規(guī)格,如手機(jī)中 GPU 典型功耗為 5W,筆記本電腦中典型功耗為 150w,臺(tái)機(jī)能夠到達(dá) 400W,數(shù)據(jù)中心全力追求性能。根據(jù)功耗大小,市場(chǎng)主要?jiǎng)澐譃樽烂婕?jí)和移動(dòng)級(jí)兩種應(yīng)用。
兩個(gè)市場(chǎng)均呈現(xiàn)三足鼎立的態(tài)勢(shì):桌面級(jí) GPU 市場(chǎng)被英偉達(dá)、AMD 和英特爾所壟斷,移動(dòng)級(jí) GPU 市場(chǎng)被 Arm、Imagination 和高通所壟斷。在軟件層面,上述國(guó)外公司也對(duì)如 CUDA 和 OpenCL 等一系列異構(gòu)計(jì)算標(biāo)準(zhǔn)提供了支持。[27]
桌面級(jí)產(chǎn)品方面,面向 PC 或游戲的圖形卡占大多數(shù)市場(chǎng),擁有 50% 以上的份額,數(shù)據(jù)中心。
Jon Peddie Research(JPR)數(shù)據(jù)顯示,2022 年 Q2,PC 使用的 GPU 出貨量(包括集成和獨(dú)立顯卡)為 8400 萬(wàn)塊,其中英特爾 GPU 市場(chǎng)份額高達(dá) 68%,主要?dú)w功于英特爾在臺(tái)式機(jī) / 筆記本電腦 CPU 集成大量核顯;AMD 以 17% 份額居于第二,這家公司既有核顯也有獨(dú)顯,但核顯明顯占大頭,獨(dú)顯只占整體 PC 市場(chǎng)約 3%;英偉達(dá)則主攻獨(dú)顯市場(chǎng),所以雖然看似只有 15% 市場(chǎng)份額,但基本稱霸獨(dú)顯市場(chǎng)。[28]
英偉達(dá)是全球獨(dú)立 GPU 的絕對(duì)領(lǐng)導(dǎo)者。初期,英偉達(dá)的重心是 PC 圖形處理業(yè)務(wù),此后乘著 GPU 通用的熱潮,拓展至智能終端、自動(dòng)駕駛、AI 算法等領(lǐng)域。從 2022 年 Q2 財(cái)報(bào)來看,英偉達(dá)的主營(yíng)業(yè)務(wù)包括游戲 GPU、數(shù)據(jù)中心 GPU、專業(yè)視覺設(shè)計(jì) GPU、智能駕駛 GPU 以及 OEM 和其他業(yè)務(wù),占比依次為 30.5%、56.8%、7.4%、3.3%、2%。[29]
為了更好地應(yīng)對(duì)競(jìng)爭(zhēng),英偉達(dá)每一代顯卡的架構(gòu)設(shè)計(jì)變化都非常大。經(jīng)過統(tǒng)計(jì)英偉達(dá)每一代架構(gòu)情況來看,性能提升的核心兩要素流處理器(Streaming Multiprocessor,SM)和緩存(Cache)都有較大設(shè)計(jì)改動(dòng),這是為了在芯片有限的面積、功耗下,不斷調(diào)整各種組件配置比例,通過制程工藝迭代,尋求最優(yōu)解法。[30]
英偉達(dá)是 GPU 概念的提出者,幾乎每一款產(chǎn)品都會(huì)引起游戲愛好者、設(shè)計(jì)者大規(guī)模討論。尤其在 40 系使用了全新 Ada Lovelace 架構(gòu),采用 TSMC 4N 定制工藝,著色器能力高達(dá) 83TFlops,有效光線追蹤計(jì)算能力達(dá)到 191TFlops,是上一代產(chǎn)品 2.8 倍。另有第四代 Tensor Cores,F(xiàn)P8 張量處理性能高達(dá) 1.32PFlops,是上一代的 5 倍。[31]
與此同時(shí),英偉達(dá)還是數(shù)據(jù)中心 GPU 的倡導(dǎo)者。不僅在業(yè)界最先推出通用 GPU 產(chǎn)品,還在 2006 年發(fā)布并行編程模型 CUDA。通用 GPU 與 CUDA 組成的軟硬件底座,構(gòu)成了英偉達(dá)引領(lǐng) AI 計(jì)算的根基。[6]
不過,英偉達(dá)的這幾個(gè)月也不好過。受半導(dǎo)體產(chǎn)業(yè)需求持續(xù)下滑影響,一度出現(xiàn)財(cái)報(bào)雪崩、股價(jià)大跌的情況。而新發(fā)布的 40 系顯卡也爭(zhēng)議滿滿,導(dǎo)致黃仁勛取消 RTX 4080 12GB 版本。[32]
AMD 的 GPU 以性價(jià)比為主要競(jìng)爭(zhēng)力。在獨(dú)立 GPU 上,同類產(chǎn)品價(jià)格普遍低于英偉達(dá) 30% 左右,在集成 GPU 上,其包含核顯的 APU 產(chǎn)品比包含核顯的英特爾 CPU 更便宜。[33]
核顯方面,據(jù) Tom's Hardware 測(cè)試數(shù)據(jù)顯示,AMD 銳龍系列的核顯在諸多游戲中表現(xiàn)優(yōu)異。[34]
獨(dú)顯方面,AMD 一直是英偉達(dá)的追趕者,僅從浮點(diǎn)算力來看,與英偉達(dá)有一定差距;從性能實(shí)際表現(xiàn)來看,與英偉達(dá)平分秋色。要說 N 卡(英偉達(dá))和 A 卡(AMD)孰強(qiáng)孰弱,暫且沒有任何人能給出定論。[35]
在大家的認(rèn)知中,英特爾跟 GPU 似乎完全搭不上邊,但實(shí)際上它在 GPU 出貨量上卻是實(shí)實(shí)在在的老大,得益于其 CPU 在全球 PC 市場(chǎng)占據(jù)將近七成(包括移動(dòng)筆記本、臺(tái)式機(jī)、服務(wù)器),其核顯也被順帶進(jìn)入千行百業(yè)。
但強(qiáng)如英特爾,也在獨(dú)立 GPU 上屢次折戟。
英特爾在 GPU 絕對(duì)不是新手或是業(yè)余選手。這家公司擁有業(yè)內(nèi)最優(yōu)秀的 GPU 工程師、最好的晶圓廠、別人只能幻想的銀行賬戶和響徹全球的品牌,甚至已經(jīng)坐擁全球最大的 GPU 銷售商的稱號(hào),出貨量比競(jìng)爭(zhēng)對(duì)手的總和還要多。也許,對(duì)其他公司來說,有這樣的成就就已經(jīng)很滿足了,但英特爾 20 年來,在獨(dú)立 GPU 上的屢屢失意讓這家公司意難平。[12]
1998 年,英特爾就曾發(fā)布過一款產(chǎn)品 Intel i740,這款產(chǎn)品的 3D 性能表現(xiàn)還不錯(cuò),但在 ATI、英偉達(dá)、S3 Graphics 等一眾產(chǎn)品中,只能算合格,無奈也只得暫時(shí)放棄獨(dú)顯之路。
之后在 2009 年,英特爾并沒有放棄獨(dú)顯的夢(mèng),計(jì)劃打造 Larrabee 圖形處理器。要知道,當(dāng)時(shí)的 GPU 就是將簡(jiǎn)單的小計(jì)算核心組合起來,而英特爾也剛好手握當(dāng)年的奔騰一代處理器核心 P54C。將這款在當(dāng)時(shí)已有 20 多年歷史的核心集成起來做成顯卡聽起來容易,但顯然 Larrabee 研究項(xiàng)目還是給英特爾帶來諸多煩惱,無數(shù)次的跳票和研究經(jīng)費(fèi)不足的新聞之后,最終計(jì)劃宣告失敗。不過,英特爾在 Larrabee 研究基礎(chǔ)上,發(fā)展出了眾核架構(gòu) (MIC) 的 Xeon Phi 協(xié)處理器,并被天河 2 號(hào)所選用,因此英特爾這次也不算白忙活。[37]
2020 年,英特爾浴火重生,把獨(dú)立顯卡的一切都押注在了新推出的 Xe 架構(gòu)上。2022 年,英特爾 Arc(銳炫)系列顯卡橫空出世,移動(dòng)、桌面、工作站、數(shù)據(jù)中心全覆蓋。這次英特爾能不能成功,還是要看后續(xù)的市場(chǎng)反饋。
移動(dòng)級(jí)產(chǎn)品方面的故事就不像桌面級(jí) GPU 那樣豐富多彩了,尤其是在手機(jī)、平板、可穿戴設(shè)備上,GPU 與架構(gòu)高度綁定,Arm、Imagination、高通 Adreno 等 IP 架構(gòu)各有擁躉,格局恐難巨變。[38]
從產(chǎn)品上來看,聯(lián)發(fā)科、三星的手機(jī) SoC 所用 GPU IP 大部分來自于 Arm;蘋果和高通的 GPU IP 則為自研(蘋果的 GPU 較大程度沿襲自 Imagination);紫光展銳的手機(jī) SoC 則使用了 Imagination 的 GPU IP。[39]
4、國(guó)產(chǎn) GPU 有什么機(jī)會(huì)
“英偉達(dá)的數(shù)據(jù)中心 GPU 的價(jià)格,貴得驚人,國(guó)產(chǎn)還替代不了?!苯?jīng)濟(jì)觀察網(wǎng)此前援引從業(yè)者的話表示,英偉達(dá) A100 GPU 售價(jià)要三千美金左右,還沒有什么替代,并且在今年 6 月,英偉達(dá)通知對(duì) A100 80G GPU 芯片漲價(jià) 20%。
行業(yè)早已苦壟斷久矣,近兩年,國(guó)內(nèi)掀起 GPU 融資潮,項(xiàng)目一個(gè)接一個(gè)地融資。
從 2020 年開始,GPU 行業(yè)融資總額已超過 200 億元。僅 2020 年~2021 年,通用 GPU 領(lǐng)域就有近 20 起融資事件發(fā)生,這些公司所追求則主要是桌面級(jí)的獨(dú)立顯卡市場(chǎng)。據(jù) Verified Market Research 數(shù)據(jù)顯示,2020 年中國(guó)大陸的獨(dú)立 GPU 市場(chǎng)規(guī)模為 47.39 億美元,預(yù)計(jì) 2027 年將超過 345.57 億美元。[41]
為什么國(guó)內(nèi)新創(chuàng)企業(yè)獨(dú)愛獨(dú)立顯卡?一方面,集成型 GPU 與 CPU 高度綁定,基本都是 CPU 廠商進(jìn)行設(shè)計(jì)生產(chǎn),如英特爾和 AMD 兩家公司的核顯,再如國(guó)產(chǎn) CPU 廠商龍芯 7A2000 內(nèi)部集成的自研 GPU[42];另一方面,獨(dú)立顯卡屬高性能器件賽道,不僅技術(shù)領(lǐng)先于集成顯卡,而且應(yīng)用面更寬,反觀集成顯卡大多是作為亮機(jī)卡或低負(fù)荷的日常卡使用。
目前來看,獲融的初創(chuàng)公司如芯瞳半導(dǎo)體、芯動(dòng)科技、摩爾線程、天數(shù)智芯、壁仞科技均已陸續(xù)推出產(chǎn)品,甚至已進(jìn)入一些整機(jī),龍芯中科、海光信息、寒武紀(jì)、芯原股份幾家上市公司也持續(xù)耕耘 GPU 業(yè)務(wù)(包括集顯和獨(dú)顯)。
但總體來看,國(guó)產(chǎn) GPU 產(chǎn)品仍處在起步階段,缺乏應(yīng)用場(chǎng)景,產(chǎn)品性能與英偉達(dá)、AMD 產(chǎn)品有一定差距,軟件和生態(tài)較難競(jìng)爭(zhēng)。雖然優(yōu)勢(shì)并不明顯,但在國(guó)際間不可抗力因素驅(qū)使下,國(guó)內(nèi)不得不考慮國(guó)產(chǎn)平替問題。
為什么 GPU 會(huì)如此吸金?因?yàn)?GPU 真的很難設(shè)計(jì)和制造,它與 CPU 并稱兩大最難芯片。行業(yè)人士一致認(rèn)為,造 GPU 比造 CPU 還難,對(duì)運(yùn)算性能、安全性、穩(wěn)定性要求極高,要復(fù)雜完整的系統(tǒng)設(shè)計(jì),才可能完成。[45]
國(guó)產(chǎn) GPU 還有哪些困境和機(jī)遇?果殼硬科技團(tuán)隊(duì)認(rèn)為:
先確定做什么
實(shí)際上,GPU 在不同應(yīng)用場(chǎng)景,也有不同的要求,選好切入點(diǎn)至關(guān)重要。目前來說,主要包括 AI 人工智能、FP 雙精度浮點(diǎn)運(yùn)算和圖形渲染三類產(chǎn)品,其中圖形渲染最難。[46]
另外,還要考慮算力成本。在如今動(dòng)不動(dòng)幾納米的制程工藝下,半導(dǎo)體生產(chǎn)必然存在良率問題,很難做到分毫不差??紤]到納米制程越小代工難度越大,全部都追求最好最穩(wěn)定并不現(xiàn)實(shí),同時(shí)最終成本也會(huì)反映在消費(fèi)端,想立足市場(chǎng)就要考慮算力成本,為不同需求的客戶提供多種可選項(xiàng)。[47]
英偉達(dá)以刀法精準(zhǔn)著稱。其 GPU 會(huì)在生產(chǎn)初始階段,掃描流處理器壞區(qū)并將這些電路關(guān)閉,根據(jù)壞區(qū)多少分為三六九等,質(zhì)量高且穩(wěn)定的核心便是價(jià)格更高的數(shù)據(jù)中心處理器,質(zhì)量不錯(cuò)但相對(duì)次之的便分別出貨給 4090、4080[30]。這樣的好處是既能做到數(shù)據(jù)中心、工作站、個(gè)人計(jì)算機(jī)的低中高端全覆蓋,又能給不同需求的提供不同的成本選項(xiàng)。
英特爾、AMD、英偉達(dá)官網(wǎng)顯示,三家的產(chǎn)品不僅價(jià)格檔位分類清晰,也覆蓋諸多場(chǎng)景。反觀國(guó)內(nèi) GPU 廠商,也主要分為數(shù)據(jù)中心 GPU 和消費(fèi)級(jí) GPU 兩個(gè)檔位,但起步階段尚不能覆蓋全部場(chǎng)景。
比 CPU 更難
為什么國(guó)產(chǎn)難以攻破 GPU?
首先,GPU 專利壁壘極高,專利全球布局重心在美國(guó),國(guó)際巨頭可以通過規(guī)模效應(yīng)分?jǐn)傃邪l(fā)成本,不斷在專利上埋雷,限制競(jìng)爭(zhēng)對(duì)手發(fā)展。
其次,由于 GPU 沒有控制器,需要依賴 CPU 控制調(diào)用,無法單獨(dú)工作,因此國(guó)產(chǎn) GPU 必須與國(guó)產(chǎn) CPU 同頻共振。
從技術(shù)實(shí)現(xiàn)難度來看,GPU 是一種比 CPU 還要難開發(fā)的芯片,國(guó)內(nèi)缺乏領(lǐng)軍人物和工程師,一個(gè)經(jīng)驗(yàn)豐富的工程師至少要在大廠鍛煉 10 年以上。從目前國(guó)產(chǎn)企業(yè)情況來看,創(chuàng)始團(tuán)隊(duì)基本均有英偉達(dá)、AMD 的工作經(jīng)驗(yàn)。[25]
除此之外,軟件生態(tài)也是 GPU 的另一個(gè)門檻,軟件決定了 GPU 生態(tài)的能力上限,也是充分釋放硬件能力的必要條件 [47]。英特爾也有類似的觀點(diǎn),他們表示基于 GPU 構(gòu)建的軟件生態(tài),將為不同負(fù)載開發(fā)芯片提供解決之道,考慮到高性能計(jì)算、人工智能和游戲等諸多領(lǐng)域需求,軟件生態(tài)需要以高度協(xié)同的方式不斷演進(jìn)。[47]
芯片可編程性不是決定性因素
《中國(guó)科學(xué)》一篇論文中指出 [48],有人將芯片可編程性當(dāng)作芯片普及的重要指標(biāo),并表示不容易編程的芯片就不會(huì)在市場(chǎng)上取得成功。判斷邏輯就是簡(jiǎn)單的“編程性不好 = 不好用 = 用的人少 = 市場(chǎng)小 = 失敗”。
實(shí)際上,DSP 也好、NPU 也好、還是以 CUDA 為代表的 GPU 等處理器芯片,在編程上都是有具有門檻的,但這并不妨礙它們擁有每年數(shù)千萬(wàn)顆的出貨量和數(shù)百億美金的市場(chǎng)容量。
編程本來就是專業(yè)人士才要考慮的問題,對(duì) GPU 來說,編程的難易程度不會(huì)直接影響市場(chǎng)需求的規(guī)模,性能、功耗、性價(jià)比才是拿下市場(chǎng)的關(guān)鍵。
消費(fèi)電子需求下行影響
半導(dǎo)體行業(yè)在近期已進(jìn)入第十七次下行階段,市場(chǎng)對(duì) GPU 需求走弱,英偉達(dá)、AMD 獨(dú)立 GPU 均受到較大波及。
除此之外,GPU 在此前之所以出現(xiàn)價(jià)格瘋漲和缺貨漩渦,一方面,是線上辦公模式的興起,另一方面,是它不務(wù)正業(yè)的應(yīng)用,挖礦。反觀現(xiàn)在發(fā)展態(tài)勢(shì),線上辦公紅利期早已結(jié)束,加之加密貨幣亂象已終止,AMD 也在財(cái)報(bào)中坦言其獨(dú)立 GPU 業(yè)務(wù)受挖礦影響較大。
按照這種邏輯來看,國(guó)產(chǎn) GPU 大多數(shù)量產(chǎn)時(shí)間均處于下行周期內(nèi),且缺乏大規(guī)模應(yīng)用契機(jī),將會(huì)迎接不小的市場(chǎng)考驗(yàn)。
何解?
一種解法是劍走偏鋒,逆向投資。果殼硬科技曾在歷史文章《半導(dǎo)體跑步進(jìn)入大過剩時(shí)代》中提到,半導(dǎo)體行業(yè)存在逆向投資的策略。如三星半導(dǎo)體三次在全球半導(dǎo)體市場(chǎng)走弱的情況下逆向投資,擴(kuò)大產(chǎn)能,擊敗美國(guó)、日本、歐洲玩家,在 DRAM 芯片市場(chǎng)拿下超 40% 份額,穩(wěn)坐頭把交椅。
另一種解法是抓住現(xiàn)有空間,撐到市場(chǎng)反漲?,F(xiàn)如今,算力成為重要生產(chǎn)力,每 12 個(gè)月便會(huì)增長(zhǎng)一倍,同時(shí)每投入 1 元在算力上,就能帶動(dòng) 3~4 元的 GDP 經(jīng)濟(jì)增長(zhǎng),因此才會(huì)有東數(shù)西算這種重要策略。國(guó)產(chǎn)需要抓住現(xiàn)有機(jī)遇,期待下一個(gè)半導(dǎo)體上行周期。[49]
國(guó)產(chǎn) GPU 需要更多時(shí)間沉淀
與此同時(shí),國(guó)內(nèi) GPU 也存在一些有趣的現(xiàn)象。
科工力量曾指出,為了在宣傳中超越英偉達(dá),國(guó)產(chǎn) GPU 存在田忌賽馬式比拼,如某款標(biāo)榜超越國(guó)際旗艦級(jí)算力的 GPU,卻不支持雙精度浮點(diǎn)運(yùn)算,只能用于人工智能方向。[50]
問芯 Voice 指出,號(hào)稱國(guó)產(chǎn) GPU 有名不副實(shí)的情況,一種是內(nèi)建 AI 加速器來跑個(gè)別性能指標(biāo)的分?jǐn)?shù),并以此宣傳超過英偉達(dá),但實(shí)際上 AI 應(yīng)用覆蓋的是千行百業(yè),不可能只為了跑一兩個(gè)性能指標(biāo),一顆好芯片的關(guān)鍵是通用性 [51];另一種是使用第三方的 GPU IP 授權(quán),并宣稱是自研自主可控。[52]
事實(shí)上,半導(dǎo)體行業(yè)從來都不是浮躁心態(tài)的短線交易,而是一個(gè)需要長(zhǎng)期技術(shù)沉淀與大魚吞小魚式洗牌的過程。對(duì)于難度極高的 GPU,國(guó)產(chǎn)更需平心靜氣,超越英偉達(dá)并非一兩日的易事。
References:
[1] 京東云開發(fā)者:分享 | 現(xiàn)代企業(yè)中的 GPU 計(jì)算.2019.3.14.https://mp.weixin.qq.com/ s/0Uh0uGLSvUKiAv8lj2i7pg
[2] Intel:What Is a GPU?.https://www.intel.cn/content/www/cn/zh/products/docs/processors/what-is-a-gpu.html
[3] Intel:What Is the Difference Between Integrated Graphics and Discrete Graphics?.2021.7.7.https://www.intel.cn/content/www/cn/zh/support/articles/000057824/graphics.html
[4] Gigabyte.https://www.gigabyte.com/Glossary/gpu
[5] 胡偉武,汪文祥,蘇孟豪,張福新,王煥東,章隆兵,肖俊華,劉蘇,陳新科,吳瑞陽(yáng),李曉鈺,高燕萍.計(jì)算機(jī)體系結(jié)構(gòu)基礎(chǔ) [M].機(jī)械工業(yè)出版社.2022 年 1 月第 3 版.https://www.loongson.cn/ pdf / computer.pdf
[6] 《中國(guó)電子報(bào)》:高端 GPU 芯片:英偉達(dá)的獨(dú)角戲?.2022.9.19.https://mp.weixin.qq.com/ s / JvexnFXvtXlppkWfTvZGbA
[7] 郭亮,吳美希,王峰,等.數(shù)據(jù)中心算力評(píng)估: 現(xiàn)狀與機(jī)遇 [J]. 信息通信技術(shù)與政策,2021, 47 (2): 79.
[8] Sutherland I E. Sketchpad (1962):“A Man-Machine Graphical Communication System”. Phil. Diss[J]. 1962.
[9] 《中國(guó)計(jì)算機(jī)學(xué)報(bào)》:綜述:顯卡 25 年歷史變遷.2010.6.9.https://it.sohu.com/ 20100609 / n272680735.shtml
[10] 《計(jì)算機(jī)學(xué)報(bào)》:綜述:顯卡 25 年歷史變遷.2010.6.9
[11] 英偉達(dá):NVIDIA 歷史.https://www.nvidia.cn/ about-nvidia / corporate-timeline/
[12] IEEE Computer SOCIETY:Famous Graphics Chips: Intel’s GPU History.https://www.computer.org/publications/tech-news/chasing-pixels/intels-gpu-history
[13] 王海峰,陳慶奎.圖形處理器通用計(jì)算關(guān)鍵技術(shù)研究綜述 [J]. 計(jì)算機(jī)學(xué)報(bào),2013, 36 (4): 757-772.http://cjc.ict.ac.cn/ quanwenjiansuo / 2013-4 / whf.pdf
[14] Owens J D, Houston M, Luebke D, et al. GPU computing[J]. Proceedings of the IEEE, 2008, 96(5): 879-899.
[15] 鄢貴海,盧文巖,李曉維,等.專用處理器比較分析 [J]. 中國(guó)科學(xué): 信息科學(xué),2022.http://scis.scichina.com/ cn / 2022 / SSI-2021-0274.pdf
[16] 熊庭剛. GPU 的發(fā)展歷程、未來趨勢(shì)及研制實(shí)踐 [J].微納電子與智能制造,2020, 2 (2): 36-40.
[17] 半導(dǎo)體行業(yè)觀察:GPU 市場(chǎng)的轉(zhuǎn)折.2022.8.15.https://mp.weixin.qq.com/ s/72eiCjK5qz-DHHYDf53S9w
[18] CP Lu, PhD:Will The GPU Star in A New Golden Age of Computer Architecture?.2021.7.22.https://medium.com/m/global-identity?redirectUrl=https%3A%2F%2Ftowardsdatascience.com%2Fwill-the-gpu-star-in-a-new-golden-age-of-computer-architecture-3fa3e044e313
[19] 萬(wàn)雪佼,徐步陸.圖形處理器 (GPU) 專利態(tài)勢(shì)研究 [J]. 集成電路應(yīng)用,2017, 34 (07): 6-9.
[20] MATLAB:https://mp.weixin.qq.com/s/J3tEZH1hHoJpoBlNshjn9w
[21] 馬安國(guó),成玉,唐遇星,等. GPU 異構(gòu)系統(tǒng)中的存儲(chǔ)層次和負(fù)載均衡策略研究 [J]. 國(guó)防科技大學(xué)學(xué)報(bào),2009, 5.http://journal.nudt.edu.cn/ publish_article / 2009/5/200905008.pdf
[22] NVIDIA:What’s the Difference Between a CPU and a GPU?.2009.12.16.https://blogs.nvidia.com/blog/2009/12/16/whats-the-difference-between-a-cpu-and-a-gpu/
[23] Thompson N C, Spanuth S. The decline of computers as a general purpose technology[J]. Communications of the ACM, 2021, 64(3): 64-72.https://doi.org/10.1145/3430936
[24] Imagination Tech:通俗易懂告訴你 CPU / GPU 是什么?.2017.10.31.https://mp.weixin.qq.com/ s / l9KCh_WstDDiIpKo0pzdaA
[25] 智東西:GPU 深度報(bào)告,三大巨頭,十四個(gè)國(guó)內(nèi)玩家一文看懂【附下載】| 智東西內(nèi)參.2021.3.14.https://mp.weixin.qq.com/ s / tvwt8R02dc4TFUQHeyyAvA
[26] Verified Market Research.Graphic Processing Unit (GPU) Market Size And Forecast.2022.4.https://www.verifiedmarketresearch.com/product/graphic-processing-unit-gpu-market/
[27] 高勝寒,熊庭剛. OpenCL 在國(guó)產(chǎn) GPU 上的實(shí)現(xiàn) [J]. 艦船電子工程,2021, 41 (9): 113-116,125.
[28] Jon Peddie Research:Q2’22 saw a significant decline in GPU and PC shipments quarter to quarter.2022.8.30.https://www.jonpeddie.com/press-releases/q222-saw-a-significant-decline-in-gpu-and-pc-shipments-quarter-to-quarter-a
[29] 英偉達(dá) 2022 年 Q2 財(cái)報(bào).https://www.sec.gov/ ix?doc=/Archives/ edgar / data / 0001045810/000104581022000147 / nvda-20220731.htm
[30] Twisted:Nvidia 顯卡架構(gòu)詳解.2022.4.9.https://www.twisted-meadows.com/ nvidia-gpu-architecture/
[31] 英偉達(dá) GeForce:NVIDIA 實(shí)現(xiàn)性能巨大飛躍,GeForce RTX 40 系列開創(chuàng)神經(jīng)網(wǎng)絡(luò)渲染新時(shí)代.2022.9.21.https://mp.weixin.qq.com/ s / Sc5uL3i2PolxXKhVhpdtxg
[32] VideoCardz:NVIDIA scraps RTX 4080 12GB.https://videocardz.com/newz/nvidia-cancels-geforce-rtx-4080-12gb
[33] 首創(chuàng)證券:GPU 國(guó)產(chǎn)化步伐加速,新興團(tuán)隊(duì)不斷涌現(xiàn).2022.8.1.https://pdf.dfcfw.com/ pdf / H3_AP202208021576791297_1.pdf?1659427369000.pdf
[34] Tom's Hardware:
CPU Benchmarks and Hierarchy 2022: Processor Ranking Charts.2022.10.16.
https://www.tomshardware.com/reviews/cpu-hierarchy,4312.html#section-integrated-gpu-gaming-cpu-benchmarks-rankings-2022
[35] Tom's Hardware:GPU Benchmarks and Hierarchy 2022: Graphics Cards Ranked.2022.10.16.https://www.tomshardware.com/reviews/gpu-hierarchy,4388.html
[36] Statista:PC graphics processing unit (GPU) shipment share worldwide from 2nd quarter 2009 to 1st quarter 2022, by vendor.2022.5.https://www.statista.com/statistics/754557/worldwide-gpu-shipments-market-share-by-vendor/
[37] 科技新知:72 核心 288 線程,英特爾這個(gè)怪物是怎么來的?.https://mp.weixin.qq.com/ s / otQQpf6deW2T74tr-TdCEg
[38] 集微網(wǎng):核芯突破!國(guó)產(chǎn) GPU 的機(jī)會(huì)窗口和生態(tài)打法.2021.5.17.https://mp.weixin.qq.com/ s / lxCzkA45PE4QFZZ4NKbMYw
[39] 國(guó)際電子商情:從跑分看手機(jī) GPU 這兩年的發(fā)展,iPhone 還獨(dú)占鰲頭嗎?.2021.12.18.https://mp.weixin.qq.com/ s / DtlJTNynQ9-aZJ3oVrKLEg
[40] Note Book Check:Smartphone and Tablet Graphics Cards - Benchmark List and Comparison.https://www.notebookcheck.net/Smartphone-Graphics-Cards-Benchmark-List.149363.0.html
[41] 《中國(guó)科學(xué)報(bào)》:摘取“皇冠上的明珠”,國(guó)產(chǎn)高性能 GPU 在路上.2022.9.5.https://news.sciencenet.cn/ sbhtmlnews / 2022/9/371092.shtm
[42] 龍芯中科:新一代龍芯 3 號(hào)系列處理器配套橋片 7A2000 正式發(fā)布,內(nèi)部集成自研 GPU.2022.7.19.https://mp.weixin.qq.com/ s / A05j9en7Ye5O7_L6Bcps9A
[43] 《科創(chuàng)板日?qǐng)?bào)》:GPU 被推至聚光燈下:行業(yè)研發(fā)壁壘高筑 一圖縱覽本土產(chǎn)業(yè)鏈“孤勇者”.2022.9.1.https://mp.weixin.qq.com/ s / g6_1JYZBXnY9voonFSWklw
[44] 首創(chuàng)證券:GPU 國(guó)產(chǎn)化步伐加速,新興團(tuán)隊(duì)不斷涌現(xiàn).2022.8.1.https://pdf.dfcfw.com/ pdf / H3_AP202208021576791297_1.pdf?1659427369000.pdf
[45] 真格基金:沐曦彭莉:在不凡“芯”路上解極致難題|真格科技故事 https://mp.weixin.qq.com/ s / WrI04AqWbUvAEfYS7KGLjQ
[46] 電子發(fā)燒友網(wǎng):GPU 難以超越 CUDA 生態(tài)?國(guó)產(chǎn) GPU 廠商:干就對(duì)了!.2022.1.29.https://mp.weixin.qq.com/ s / HBxGCl1UpUpCVEY9jTiX7g
[47] 《中國(guó)電子報(bào)》:高端 GPU 的現(xiàn)實(shí)與曙光.2022.9.16.http://m.cena.com.cn/ semi / 20220916/117621.html
[48] 鄢貴海,盧文巖,李曉維,等.專用處理器比較分析 [J]. 中國(guó)科學(xué): 信息科學(xué),2022.http://scis.scichina.com/ cn / 2022 / SSI-2021-0274.pdf
[49] 李正茂,王桂榮.論算力時(shí)代的三定律 [J]. 電信科學(xué),38 (6): 13-17.http://www.infocomm-journal.com/ dxkx / article / 2022/1000-0801/1000-0801-38-6-00013.shtml
[50] 科工力量:高端 GPU 斷供,中國(guó)頂級(jí)超算根本不怕.2022.9.2.https://mp.weixin.qq.com/ s / wDGZp4NQSVP6RFZk6H-0zA
[51] 問芯 Voice:天數(shù)智芯推出 DeepSpark 通用開發(fā)平臺(tái),國(guó)產(chǎn) GPU 不能“迷戀”少數(shù)性能指標(biāo)勝出.2022.8.31.https://mp.weixin.qq.com/ s / CYinRjsYqicOpHR9AFNgFg
[52] 問芯 Voice:獨(dú)家對(duì)話 | 國(guó)產(chǎn) GPU 不能掛羊頭賣狗肉,應(yīng)堅(jiān)持自主通用 | 天數(shù)智芯 CTO 呂堅(jiān)平.2022.7.27.https://mp.weixin.qq.com/ s / HvuTwy9O8hvULdRGo37OYw
本文來自微信公眾號(hào):果殼硬科技 (ID:guokr233),作者:付斌,編輯:李拓
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。