最高 288 核！英特爾至強 6 處理器詳解：新老型號性能 1 換 3，能效比大增

2024/6/6 17:24:34 來源：IT之家作者：阿迷責(zé)編：阿迷

評論：

感謝IT之家網(wǎng)友 SNOS雪諾的線索投遞！

前不久的英特爾 Innovation 2024 峰會上，英特爾面向數(shù)據(jù)中心市場正式推出了全新的至強 6 處理器系列，這一系列處理器分為能效核（代號 Sierra Forest）和性能核（代號 Granite Rapids）兩種版本。

根據(jù)英特爾至強 6 的產(chǎn)品路線圖，從本月到 2025 年 1 季度，將有 2 個系列至強 6 能效核處理器和 5 個系列至強 6 性能核處理器陸續(xù)上市。其中 Xeon 6700E 系列將于 6 月 6 日，正式在中國大陸上市。

具體 SKU 系列如下：

至強 6 能效核：Xeon 6700E / 6900E
至強 6 性能核：Xeon 6900P / 6700P / 6500P / 6300P / 6 SoC

當(dāng)下企業(yè)用戶對人工智能的關(guān)注度空前絕后，背后有著巨大的市場等待開發(fā)，想要更好的推進 AI 應(yīng)用，很大程度上也是需要服務(wù)器算力支持，服務(wù)器性能是一方面，另一方面則是能耗，能耗是數(shù)據(jù)中心的主要支出來源，更高性能和更低功耗這是許多企業(yè)所追求的。另外，軟件通用性、可靠性、速度和延遲這些都影響到服務(wù)的穩(wěn)定和效率。

針對上述數(shù)據(jù)中心市場的需求變化，英特爾面向數(shù)據(jù)中心市場正式發(fā)布了至強 6 處理器，這一系列處理器包含能效核和性能核兩個版本。這也是英特爾第一次將至強產(chǎn)品分拆為兩個系列。

其中能效核有著更好的能效表現(xiàn)，優(yōu)勢在微服務(wù)、云原生、簡單的數(shù)據(jù)庫或是網(wǎng)絡(luò)應(yīng)用等，這些服務(wù)需求對服務(wù)器單核并沒有很高的算力密度要求；性能核則專注設(shè)計、大數(shù)據(jù)、AI 推理、游戲等高負(fù)載，對單核性能要求較高的應(yīng)用場景。

從五年一個周期來看，至強 6 能效核在其擅長領(lǐng)域上有 2 倍到 3 倍的性能提升。性能核與上一代相比則有 2 倍以上的性能提升，其中性能和擅長領(lǐng)域則是人工智能、高性能計算、通用計算等場景。

具體來看至強 6 能效核，其能效比相比于第二代至強有著大幅的提升，在轉(zhuǎn)碼表現(xiàn)上，其最高性能每瓦有 2.6 倍的提升，最高性能則有 4.2 倍提升，算力提升的同時，功耗也有很好的下降。

相比傳統(tǒng)的 200 個機柜的數(shù)據(jù)中心，使用至強 6700E 系列則可以大幅減少機柜數(shù)量，只需原先 1/3 的機柜量就能達成之前同等算力。在與英特爾的前期測試中，ebay 相比于競品有 25% 的性能功耗比優(yōu)勢，相比于現(xiàn)在第三代至強則有著 90% 的性能功耗比優(yōu)勢。SAP 則通過至強 6 能效核做到了大幅的能源節(jié)約，通過至強 6 能效核跑之前相同的負(fù)載節(jié)省 60% 的電能。

根據(jù)目前英特爾的節(jié)奏，至強 6 能效核將在本月率先上市并推出第一款產(chǎn)品 6700E，近年三季度將會推出 6900P，明年也會陸續(xù)推出更多型號。至強 6 能效核為什么能帶來這么多的能效提升，這很大一部分原因是英特爾對至強 6 進行全新的設(shè)計，并以此達成這些能效目標(biāo)。

英特爾至強 6 的能效核與性能核在架構(gòu)設(shè)計都采用了相同的底層技術(shù)和硬件模塊，其中能效核的 6700 系列平臺是傳統(tǒng)至強平臺的延續(xù)，支持 1/2/4/8 路可擴展性。核心上來看，相比于第五代的 64 個性能核增加到 86 個，能效核最高達到 144 個，有著 30% 以上的核心數(shù)提升。內(nèi)存速度也從之前的 5600MT/s提升到 6400MT/s，對于一些對內(nèi)存帶寬要求更多的應(yīng)用，英特爾在至強 6 平臺上，提供了 MCR 技術(shù)，它可以進一步把內(nèi)存速度從 6700 提升到 8000MT/s，當(dāng)應(yīng)用到一些高帶寬需求的業(yè)務(wù)時能夠有非常好的表現(xiàn)。

圖示, 文本

基于性能核的 6900 系列則最高配備 128 核心性能核，288 個核心能效核內(nèi)存帶寬可以通過 MCR 技術(shù)提升至 8800MT/s，其內(nèi)存總體帶寬達到上一代的 2.36 倍，而且在增加內(nèi)存核心數(shù)量的同時，它的內(nèi)存帶寬也有著更大幅度的增加。

日程表

分別代表著能效核與性能核的 6700 系列和 6900 系列都配備了更多的 PCIe 通道和 CXL 接口以及兩個 CPU 互聯(lián)的 UPI 帶寬。性能核包含了如 AVX-512、AMX 這樣的向量、矩陣運算單元，為高并發(fā)，特別是像 AI、科學(xué)計算類的業(yè)務(wù)提供了非常好的性能。同時隨著 MCR 內(nèi)存技術(shù)的加持，也可以為高性能計算核心提供很高的帶寬支持。

圖示, 文本

在亂序的執(zhí)行單元方面，性能核提供了 512 長度的亂序執(zhí)行引擎，能夠更好的優(yōu)化編程中的軟件指令，可以更大程度使用整個后面的執(zhí)行引擎。

能效核在服務(wù)器端新引入的一個產(chǎn)品版本。它的特點是針對一些功能進行了簡化，比如它并不具備 AVX-512 和 AMX 的功能，針對 L2 Cache 也有所調(diào)整。性能核每個核是 2M，而能效核平均每個核是 1M，L3 的容量也不一樣。通過這些調(diào)整，讓每個能效核所占的硅片面積大幅度降低，功耗所有減少。所以在同平臺、同面積、同功耗下，至強 6 可以提供更多的核心數(shù)量、更大吞吐量和更低的能耗。

從封裝構(gòu)造上來看，我們注意到第五代至強與至強 6 在設(shè)計理念上有很大的變化。第五代至強采用了 EMIB 技術(shù)將兩個模塊結(jié)合起來，這種設(shè)計巧妙地突破了傳統(tǒng)研磨尺寸對模塊尺寸的限制，使得單個處理器得以集成更多復(fù)雜的邏輯功能，從而大幅提升了性能和功能性。

而至強 6 的設(shè)計理念有了變化，并不是簡單的把模塊的大小一分為二，而是按照功能塊進行劃分。可以看到，右側(cè)圖的中間是計算模塊，上下兩部分是 I / O 模塊，I / O 模塊更多是和高速 I / O 相關(guān)，而且對密度要求并不高，所以使用 Intel 7 這樣相對比較成熟的工藝來做 I / O 模塊，而計算模塊對計算密度及核心邏輯密度要求比較高，因此則采用最新的 Intel 3 制程工藝。從模塊封裝和 SoC 的構(gòu)造來看，第五代至強到至強 6 其實是有比較大的改變的。

具體來看，至強 6 個產(chǎn)品構(gòu)成，基于其中 6700 系列的有基于能效核的計算模塊和 2 個 IO 模塊；還有基于性能核的三款 SKU，XCC、HCC 與 LCC 分別代表高中低檔不同核心數(shù)版本的模塊。

另外兩款基于 6900 系列的產(chǎn)品，IO 模塊的形狀和數(shù)量和尺寸和 6700 系列上的是一樣的，只是計算核心數(shù)量不同，6900 系列性能核版本采用了 3 篇 XCC 計算模塊，從計算核心數(shù)量來說，配備性能核的 6900 的核心數(shù)量大約增加了 50%。而能效核是采用了和配備能效核的 6700 同樣的計算單元，只是數(shù)量上從 1 片增加到 2 片，核心數(shù)量從 144 個增加到了 288 個。

實現(xiàn)這樣一個模塊化設(shè)計有幾個關(guān)鍵要素，首先是要有 Fabric 技術(shù)，能夠把計算模塊和 I / O 模塊有機結(jié)合起來。二是集成多個模塊的系統(tǒng)架構(gòu)，即面對多個模塊時，也能通過 Fabric 技術(shù)無縫地將它們連接成一個整體。想象一下，每個模塊內(nèi)部都擁有縱橫交錯的通路網(wǎng)絡(luò)，而當(dāng)這些模塊通過集成多個模塊架構(gòu)相互連接時，它們的通路不僅得以延續(xù)，還能相互融合，共同構(gòu)建起一個規(guī)模更大、更為強大的通路系統(tǒng)。

這種設(shè)計不僅優(yōu)化了數(shù)據(jù)傳輸效率，還極大地擴展了處理器的功能和性能。而這些通路的結(jié)合，就是通過 EMIB 來相互連接，EMIB 技術(shù)可以實現(xiàn)非常高密度的模塊之間的橋接，能夠讓模塊和模塊之間達到 1TB / s 的速度，這樣可以使跨模塊連接做到帶寬無損通信。

接下來，具體來看計算模塊的內(nèi)部結(jié)構(gòu)，這里包含了中間的核心部分（包括 L1 / L2 緩存）、緩存及內(nèi)存訪問相關(guān)的控制器、L3 緩存以及橫向和縱向的 Mesh Fabric，在核心兩側(cè)是 2 個 DDR5 或 MCR 內(nèi)存控制器。這樣的好處是每個模塊內(nèi)部的核心緩存以及內(nèi)存訪問都是在比較小的范圍內(nèi)，因此它的訪問延遲比較低。6900 或是 6700 的 XCC 版本多個模塊之前又形成了無縫連接，用很小的延遲，實現(xiàn)了很好的性能擴展。

日程表

接下來是 IO 模塊部分，IO 模塊與計算模塊也是通過 Fabric 以及 EMIB 相連，這里繼承了很多 IO 接口，比如 PCIe、CXL、UPI，QAT、DSA 等加速單元，以及 RDT 資源調(diào)度等功能。

這里特別說明一點，CXL 是英特爾推出的技術(shù)，在此前的第四代、第五代至強產(chǎn)品上都有相關(guān)功能，這次升級的 CXL 2.0 首次應(yīng)用在至強 6 中。CXL 2.0 為 Type 3 設(shè)備引入了增強功能，包括鏈路細(xì)分、QoS 控制等，從而為 Type 3 設(shè)備客戶特別關(guān)注的使用場景，提供了更全面的功能特性。

圖形用戶界面, 網(wǎng)站

Type 3 設(shè)備用戶可以使用的不同的模式實現(xiàn)內(nèi)存擴展。內(nèi)存擴展的第一種模式是 CXL Numa node，它允許將系統(tǒng)的標(biāo)準(zhǔn) DRAM 內(nèi)存和通過 CXL 技術(shù)擴展的內(nèi)存作為兩個獨立的 Numa 節(jié)點，并且可以在軟件層面進行控制。通過在系統(tǒng)軟件或應(yīng)用層進行內(nèi)存內(nèi)容的分層管理，可以優(yōu)化配置并屏蔽上層業(yè)務(wù)，這也是 CXL 一直采用的管理模式之一。

圖片包含文本

但是對于某些 ISV 或是無法對自身軟件進行修改優(yōu)化的企業(yè)來說，他們依然希望能夠用一個對軟件透明，并從硬件層面上提供的一個整體 CXL 以及和系統(tǒng)原生 DRAM 內(nèi)存的解決方案。針對這樣的硬件管理方案，英特爾提供了兩種模式。一種叫異構(gòu)交織（Hetero Interleaved）模式，它是把系統(tǒng)原生的 DRAM 內(nèi)存和 CXL 內(nèi)存，從地址上進行混合。從帶寬上來看，每個 CXL 內(nèi)存交織的通路和 DRAM 交織的通路是平衡的，因此 CXL 延遲略有區(qū)別，但整體對系統(tǒng)的吞吐影響并不大。通過這樣一個異構(gòu)交織功能，可以給系統(tǒng)平臺提供更大的內(nèi)存帶寬，而且應(yīng)用程序并不會直接感知或是直接管理到這個 CXL 內(nèi)存。這是在至強這個平臺提供第一種關(guān)于硬件的 CXL 管理方式。

第二種方式是通過平面存儲器模式，這種模式是讓 CXL 和原生 DRAM 做一個硬件輔助的分層，在 1：1 的情況下，會盡量把 CXL 常用的數(shù)據(jù)放在 DRAM 中，雖然一部分?jǐn)?shù)據(jù)放在 CXL 當(dāng)中，但是隨著這樣的一個硬件分層管理，就可以非常接近于完全 DRAM 的性能表現(xiàn)。

我們看到，MongoDB 數(shù)據(jù)庫表現(xiàn)在不同模式之間性能還是有所差距的。左邊是評估場景，一種情況是在系統(tǒng)中設(shè)置了 512G 的 DDR5 內(nèi)存，另一種是通過平面存儲器模式，其中 256G 是 DRAM，另外 256G 是 CXL 內(nèi)存。當(dāng)數(shù)據(jù)容量為 125G 的時候，這兩者之間只有 1% 的性能差距，而當(dāng)數(shù)據(jù)容量為 256G，即與總?cè)萘繋缀跻粯訒r，采用硬件分層的引擎只有 2% 的性能差距，若是數(shù)據(jù)量進一步增加，也只有 5% 的性能差距。

由此可見，采用平面存儲器模式可以讓用戶使用譬如 DDR4 這樣低成本的 CXL 擴展方式，在擴展系統(tǒng)內(nèi)存容量的同時，將對其業(yè)務(wù)性能的影響降到最小。

接下來，再來看下至強 6 的性能亮點。至強 6700 系列產(chǎn)品采用能效核以實現(xiàn)更高的密度和并發(fā)度，且擁有優(yōu)秀的能效比。與第五代至強處理器相比，至強 6 能效核整數(shù)吞吐性能提升了 25%，另外在媒體編解碼、網(wǎng)絡(luò)防火墻等業(yè)務(wù)上均有 20%、30% 甚至高達 40% 的提升。

而相較于性能方面的提升，其能效提升更加顯著，可以看到絕大多數(shù)業(yè)務(wù)均有 30%、40% 甚至更高的能效提升，這便是采用能效核處理器為整個平臺帶來的收益。

圖表, 條形圖

對于數(shù)據(jù)中心客戶而而言，配備英特爾至強 6 能效核產(chǎn)品后，算力的提升能替換更多過時算力，以此騰出更多的空間部署更多算力，進一步幫助數(shù)據(jù)中心客戶做到了很好的成本控制。

從五年產(chǎn)品更新的角度來看，至強 6 能效核與第二代至強處理器相比有 3 倍以上的性能提升，同時其能效方面也有超 2 倍的提升，且每個處理器的熱設(shè)計功耗也均在上升。

至強 6 處理器可實現(xiàn)與第二代至強 3:1 的替換比，即原來需要三個機架才能完成的任務(wù)，現(xiàn)在僅需要一個至強 6 機架即可完成。以整數(shù)吞吐和媒體解碼為例，可以看到整體機架級別的性能提升了 2.7-3.2 倍，每瓦性能提升 2.6-2.7 倍，這帶來的計算集群功耗節(jié)省以及碳排放節(jié)約是非常顯著的。

作為首批上市的至強 6 產(chǎn)品，至強 6 能效核首批 SKU 共 7 款，覆蓋 64-144 核，其他能效核與性能核版本，也將會在今年 3 季度和 2025 年 1 季度陸續(xù)推出。

電腦螢?zāi)? class=

總體來看，這次至強 6 的進化無疑是巨大的，性能大幅提升，能耗也得到了很好的控制，模塊化的設(shè)計也具有出色的擴展性。

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

最高 288 核！英特爾至強 6 處理器詳解：新老型號性能 1 換 3，能效比大增

相關(guān)文章