編者注:蘋果于 3 月 9 日公布其迄今最強自研電腦芯片 M1 Ultra,它將兩個 M1 Max 芯片拼在一起,使得芯片各項硬件指標直接翻倍,這背后的關(guān)鍵技術(shù)即是蘋果創(chuàng)新定制的封裝架構(gòu) UltraFusion。千芯科技董事長陳巍通過分析蘋果公司與其芯片代工廠臺積電的專利和論文,對這一先進封裝技術(shù)進行解讀。
2022 年 3 月,蘋果又一次觸動了芯片界的游戲規(guī)則。蘋果發(fā)布的 M1 Ultra 芯片,是迄今為止該公司最強大的芯片,卻是一個“拼裝貨”。盡管很多計算芯片已采用 Chiplet(芯粒)技術(shù)提升性能,但“拼裝貨”M1 Ultra 的性能還是讓 PC 界震撼了。
M1 Ultra 支持高達 128GB 的高帶寬、低延遲統(tǒng)一內(nèi)存,支持 20 個 CPU 核心、64 個 GPU 核心和 32 核神經(jīng)網(wǎng)絡(luò)引擎,每秒可運行高達 22 萬億次運算,提供的 GPU 性能是蘋果 M1 芯片的 8 倍,提供的 GPU 性能比最新的 16 核 PC 臺式機還高 90%。
蘋果的新 M1 Ultra 芯片“拼裝”性能之所以成為可能,要歸功于其 UltraFusion 架構(gòu)。其實,UltraFusion 功能早已內(nèi)置于之前發(fā)布的蘋果 M1 Max 芯片中,但直到 3 月的蘋果 Peek Performance 活動才被明確提出。
▲ 蘋果公司 M1 Ultra 的 UltraFusion 架構(gòu)
M1 Ultra 芯片的 UltraFusion 架構(gòu)使用硅中介層(Silicon Interposer)和微型凸塊(Micro-Bump),將芯片連接到超過 10,000 個信號。
該技術(shù)提供 2.5TB / s 的超高處理器間帶寬,以及低延遲。這一性能是其他多芯片互連技術(shù)帶寬的 4 倍多。這個速率帶寬也明顯領(lǐng)先于英特爾、AMD、Arm、臺積電和三星等眾多行業(yè)巨頭組成的通用芯粒互連聯(lián)盟(UCIe)當前的性能。
▲ 英特爾等巨頭主推的 UCIe
根據(jù)蘋果公司和臺積電已發(fā)表的專利和論文,我們從 2.5D / 3D 互連和技術(shù)層面解析 UltraFusion 封裝架構(gòu)。
01. 芯片封裝走向 2.5D / 3D 互連
按摩爾定律描述,芯片上的晶體管數(shù)量每 24 個月翻一番。這對于 CPU、GPU、FPGA 和 DSA 依然適用。
▲ 芯片晶體管數(shù)量逐漸增長(Y. H. Chen et al., 2020)
隨著芯片算力呈指數(shù)級增長,芯片尺寸逐漸超出光刻掩模版尺寸,系統(tǒng)級封裝(System on Package,SoP),特別是 Chiplet 技術(shù),成為維持摩爾定律,超越掩模版限制的有效方式。(Y. H. Chen et al., 2020)
圖靈獎得主姚期智院士也非常重視 Chiplet 技術(shù),在 2020 年指導(dǎo)成立了中國自己的 Chiplet 產(chǎn)業(yè)聯(lián)盟,該聯(lián)盟與北極雄芯共同為國內(nèi)設(shè)計企業(yè)提供 Chiplet 交流合作的平臺和高性價的解決方案。
▲ 高性價比的 Chiplet 方案(北極雄芯 / 中國 Chiplet 產(chǎn)業(yè)聯(lián)盟提供)
通過快速發(fā)展的片間互連技術(shù)和封裝技術(shù),摩爾定律從單獨的晶體管縮放(摩爾定律 1.0)演變?yōu)橄到y(tǒng)級縮放(被業(yè)界戲稱為摩爾定律 2.0)。
▲ 片間互連技術(shù)逐年快速發(fā)展(Y. H. Chen et al., 2020)
封裝從 2D(二維)逐漸發(fā)展到 2.5D 和 3D。集成電路從擴大面積和立體發(fā)展兩條路來提升整體性能。
▲ 封裝從 2D(二維)逐漸發(fā)展到 2.5D 和 3D(Kuo-Chung Yee et al., 2020)
02. 從蘋果臺積電專利論文,解析 UltraFusion 架構(gòu)
從 M1 Ultra 發(fā)布的 UltraFusion 圖示,以及蘋果及其代工廠(臺積電)的公開專利和論文來看,UltraFusion 應(yīng)是基于臺積電第五代 CoWoS Chiplet 技術(shù)的互連架構(gòu)。
▲ 蘋果公司 Chiplet 專利與 M1 Ultra(參考專利 US 20220013504A1)
Chip-on-Wafer-on-Substrate with Si interposer(CoWoS-S)是一種基于 TSV 的多芯片集成技術(shù),被廣泛應(yīng)用于高性能計算(HPC)和人工智能(AI)加速器領(lǐng)域。
隨著 CoWoS 的進步,可制造的中介層(Interposer)面積穩(wěn)步增加,從一個全掩模版尺寸(大約 830mm2)到兩個掩模版尺寸(大約 1700mm2)。中介層的面積決定了最大的封裝后的芯片的面積。
第 5 代 CoWoS-S(CoWoS-S5)達到了大至三個全光罩尺寸(~2500mm2)的水平。通過雙路光刻拼接方法,該技術(shù)的硅中介層可容納 1200mm2 的多個邏輯芯粒和八個 HBM(高帶寬內(nèi)存)堆棧。芯粒與硅中介層的采用面對面(Face to Face,互連層與互連層對接)的連接方式。
▲ CoWoS 技術(shù)所能承載的總芯片面積逐漸增大(P. K. Huang 2021)
在 UltraFusion 技術(shù)中,通過使用裸片縫合(Die Stitching)技術(shù),可將 4 個掩模版拼接來擴大中介層的面積。在這種方法中,4 個掩模被同時曝光,并在單個芯片中生成四個縫合的“邊緣”。
▲ UltraFusion 架構(gòu)互連技術(shù)(單層與多層,參考專利 US 20220013504A1 / US 20210217702A1)
根據(jù)蘋果公司的專利顯示,在這一技術(shù)中,片間互連可以是單層金屬,也可以是多層金屬。(US 20220013504A1 / US 20210217702A1)
03. 六大技術(shù)特別優(yōu)化
UltraFusion 不僅僅是簡單的物理連接結(jié)構(gòu)。在這一封裝架構(gòu)中,有幾項特別優(yōu)化過的技術(shù)。(P. K. Huang 2021)
1)低 RC 互連
在 UltraFusion 中,有新的低 RC(電容 x 電阻 = 傳輸延遲)金屬層,以在毫米互連尺度上提供更好的片間信號完整性。
與多芯片模塊(MCM)等其他封裝解決方案相比,UltraFusion 的中介層在邏輯芯粒之間或邏輯芯粒和存儲器堆棧之間提供密集且短的金屬互連。片間完整性更好,且能耗更低,并能以更高的時鐘速率運行。這種新的中介層互連方案將走線電阻和通孔電阻降低了 50% 以上。
▲ 跨中介層傳輸?shù)幕ミB功耗控制(US 20210217702A1)
2)互連功耗控制
蘋果的專利顯示,UltraFusion 使用了可關(guān)閉的緩沖器(Buffuer),進行互連緩沖器的功耗控制,有效降低暫停的互連線的能耗。
3)優(yōu)化 TSV
高縱橫比的硅通孔(TSV)是硅中介層技術(shù)另一個非常關(guān)鍵的部分。UltraFusion / CoWoS-S5 重新設(shè)計了 TSV,優(yōu)化了傳輸特性,以適合高速 SerDes 傳輸。
4)集成在中介層的電容(iCAP)
UltraFusion 在中介層集成了深溝槽電容器(iCap),幫助提升芯片的電源完整性。集成在中介層的電容密度超過 300nF / mm2,幫助各芯粒和信號互連享有更穩(wěn)定的供電。
5)新的熱界面材料
UltraFusion 通過集成在 CoWoS-S5 中的新型非凝膠型熱界面材料(TIM),熱導(dǎo)率 > 20W / K,覆蓋率達到 100%,為各個高算力芯粒提供更好的散熱支持,從而增強整體散熱。
▲ 通過 Die-Stitching 提高良率并降低成本(US 20220013504A1)
6)通過 Die-Stitching 技術(shù)有效提升封裝良率降低成本
UltraFusion 中,僅將 KGD(Known Good Die)進行鍵合,這樣避免了傳統(tǒng)的 WoW(Wafer on Wafer)或 CoW(Chip on Wafer)中失效的芯粒被封裝的問題,進而提升封裝后的良率,降低了整體的平均成本。(壞的芯片越少,在固定的流片和研發(fā)費用前提下,單芯片平均成本就越低)
04. 結(jié)語:為更強算力芯片提供想象空間
本文中,我們從蘋果公司和臺積電的專利和論文出發(fā),對 UltraFusion 技術(shù)進行了初步的解析。
UltraFusion 充分結(jié)合了封裝互連技術(shù)、半導(dǎo)體制造和電路設(shè)計技術(shù),為整合面積更大、性能更高的算力芯片提供了巨大的想象空間,為計算架構(gòu)的發(fā)展提供了非常好的助力和參照。
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。