INTEL英特爾發(fā)布第六代至強(qiáng)SP處理器：將小芯片設(shè)計(jì)進(jìn)行到底英特爾發(fā)布第六代至強(qiáng)SP處理器：將小芯片設(shè)計(jì)進(jìn)行到底

來源：INTEL英特爾| 發(fā)布日期：2023-09-26 14:21

從過去幾周英特爾在各類活動中的表述來看，特別是參考Hot Chips 2023和英特爾Innovation 2023大會上發(fā)布的消息，芯片巨頭的制程工藝路線圖及其服務(wù)器處理器設(shè)計(jì)思路將保持統(tǒng)一，共同為明年發(fā)布的至強(qiáng)SP系列CPU提供競爭力支撐。

當(dāng)然，英特爾與AMD Epyc芯片、Ampere Computing旗下各Arm產(chǎn)品，包括其他超大運(yùn)作模式基礎(chǔ)設(shè)施運(yùn)營商和云服務(wù)商的原研Arm服務(wù)器CPU之間仍有一定差距。但憑借著雄厚的渠道資源支持，英特爾仍有望以無所不達(dá)的銷售網(wǎng)絡(luò)和對舊有制程工藝的極限壓榨取得商業(yè)上的成功。至少在特定應(yīng)用負(fù)載之上，英特爾家的CPU仍保持著技術(shù)與經(jīng)濟(jì)的雙重優(yōu)勢。

但如今英特爾的地位已然動搖，所以必須設(shè)計(jì)好多戰(zhàn)線的競爭格局，憑借明年發(fā)布的高性能P核和高能效E核設(shè)計(jì)帶來更令人眼前一亮的成果。

當(dāng)然，這已經(jīng)不是英特爾第一次在服務(wù)器市場上參與多線作戰(zhàn)了，甚至AMD也不是。英特爾和AMD在之前的架構(gòu)中都曾經(jīng)歷過性能核與能效核并存的階段，只是這次情況更加特殊。英特爾當(dāng)初面向客戶端設(shè)備的凌動系列芯片擁有出色的512位AVX矢量引擎、ECC內(nèi)存清理機(jī)制、服務(wù)器級虛擬化等功能，并成為2015年針對高性能計(jì)算工作負(fù)載的“Knights”多核處理器產(chǎn)品線的基礎(chǔ)。而在AMD這邊，2016年1月推出的“Seattle”O(jiān)pteron A1100處理器希望挽回Opteron家族的頹勢，其上搭載的正是低功耗Arm Cortex-A57核心。此舉希望能將Opteron品牌打造成更強(qiáng)大、更高端的Arm服務(wù)器CPU產(chǎn)品線，甚至在設(shè)計(jì)上支持用EDA全局替換將Arm轉(zhuǎn)為X86核心。（雖然最終沒能用上。）

對于英特爾和AMD來說，這次的情況明顯有所不同。因?yàn)榇笮头?wù)器買家（即超大規(guī)模基礎(chǔ)設(shè)施運(yùn)營商和云服務(wù)商）及原始設(shè)備制造商（戴爾、HPE、聯(lián)想、浪潮、華為及思科等）都已向雙方提出明確要求：請?jiān)趩我环?wù)器平臺內(nèi)創(chuàng)新，不要搞跨服務(wù)器平臺創(chuàng)新。客戶們的需求很簡單，插槽之內(nèi)任你怎么折騰，但千萬別跨架構(gòu)。

正因如此，AMD才決定在今年推出第四代Epyc處理器。正常來講其代號應(yīng)該為“Genoa”，但此次卻多出了“Bergamo”和“Siena”等子代號，分別配備Zen 4性能核和Zen 4c能效核（二者最大的區(qū)別是核心的L3緩存容量）。英特爾這邊則計(jì)劃推出第五代至強(qiáng)SP，各版本同時支持能效E核和性能P核，且無需對插槽或平臺做任何調(diào)整。英特爾的策略就是維持兩種不同取向的核心，之后在構(gòu)建SKU棧時靈活組合以覆蓋更多負(fù)載需求。AMD和英特爾似乎都不想在單一插槽之內(nèi)混合搭配不同核心，這也可以理解。畢竟至少對現(xiàn)代數(shù)據(jù)中心的運(yùn)行需求來說，在機(jī)架層級做性能/能效混合已經(jīng)足夠，進(jìn)一步細(xì)分純屬勞民傷財(cái)。

在Hot Chips大會上，英特爾服務(wù)器芯片架構(gòu)師Chris Gianos（之前曾參與過安騰芯片和Digital Equipment公司多代處理器產(chǎn)品的研發(fā)）談到了下一代至強(qiáng)SP的整體架構(gòu)，并介紹了“Granite Rapids”性能核至強(qiáng)SP的某些功能特性。曾在惠普研發(fā)HP 9000和安騰處理器的現(xiàn)任英特爾芯片設(shè)計(jì)師Don Soltis則介紹了搭載能效E核的“Sierra Forest”至強(qiáng)SP處理器。

Gianos表示，這些設(shè)計(jì)中去掉了用于南橋I/O的外部獨(dú)立PCH芯片組。但我們也可以合理推測，PCH功能實(shí)際上是被加上PCI-Express、以太網(wǎng)和UltraPath互連（UPI），再配合各種控制器和加速器共同塞進(jìn)了兩個小芯片當(dāng)中。值得注意的是，英特爾第六代至強(qiáng)SP架構(gòu)的內(nèi)存控制器并非位于I/O芯片之上，而是位于核心加緩存復(fù)合體之上。

Gianos解釋道，“我們認(rèn)為把這些要素結(jié)合起來非常重要，因?yàn)檫@是個理想的優(yōu)化方向，在性能和計(jì)算密度方面都有積極意義。”

很明顯，為了進(jìn)一步充實(shí)第六代至強(qiáng)SP的SKU棧，英特爾可以向其中添加不同數(shù)量的I/O芯片和計(jì)算芯片，并根據(jù)相應(yīng)的價(jià)格設(shè)定和功率水平分別激活對應(yīng)配置。而且本周Innovation 2023大會也傳出消息，隨著288核Sierra Forest能效核版本的發(fā)布，英特爾能夠進(jìn)一步提升第六代至強(qiáng)SP的規(guī)格，將其“Advanced Platform”（AP版）產(chǎn)品的核心數(shù)量再增加一倍。整個思路跟2019年4月發(fā)布的“Cascade Lake”Advanced Platform至強(qiáng)處理器完全相同，當(dāng)時這款產(chǎn)品就是為了縮小與AMD在每插槽核心數(shù)量上的差距。目前我們還沒有看到Granite Rapids性能核版本的Advanced Platform雙倍核心版本，但只要英特爾愿意，相信完全可以做到。

Gianos還特意強(qiáng)調(diào)，英特爾打造的是一套模塊化服務(wù)器芯片架構(gòu)，能夠在插槽內(nèi)靈活調(diào)整不同要素的比例，借此滿足更廣泛的用例和客戶場景。

英特爾正使用其2.5D嵌入式多芯片互連橋（EMIB）這項(xiàng)多芯片封裝技術(shù)將小芯片粘合起來。EMIB是英特爾針對臺積電晶圓基板上芯片（CoWoS）2.5D封裝技術(shù)的回應(yīng)之舉，后者已經(jīng)被廣泛應(yīng)用于GPU及各類加速器芯片。展望未來，英特爾可以使用其Foveros 3D芯片封裝為至強(qiáng)SP設(shè)計(jì)添加垂直L3緩存擴(kuò)展，思路與AMD在其Milan-X和Genoa-X處理器上使用的3D-Vache非常相似。

上圖所示，為英特爾在第六代至強(qiáng)SP芯片中可能提供的不同選項(xiàng)，但我們猜測Granite Rapids和Sierra Forest各自只能使用其中部分選項(xiàng)，因?yàn)槠銼KU棧也是分別針對不同產(chǎn)品線設(shè)計(jì)而成。Gianos表示，總體來講，英特爾可以使用最右下設(shè)計(jì)提供低至個位數(shù)核心加極高I/O容量的至強(qiáng)SP芯片，也可以根據(jù)客戶需求在居左的小芯片設(shè)計(jì)中將核心數(shù)量增加至三位數(shù)。

能效核系統(tǒng)將支持單/雙插槽，就是說I/O芯片中的某些UPI鏈路將被禁用；而性能核系統(tǒng)將提供單、雙、四、八插槽，且激活的UPI鏈路數(shù)量也相應(yīng)增加。每個核心小芯片將擁有4個內(nèi)存控制器，可支持DDR 5或MCR內(nèi)存（后文將詳細(xì)介紹），因此最高規(guī)格的第六代至強(qiáng)SP將擁有12個內(nèi)存控制器為芯片提供服務(wù)，每通道可對應(yīng)單/雙DIMM，具體取決于客戶對容量和帶寬的需求。這兩個I/O芯片可提供144條UPI互連通道（共6個端口，即每I/O芯片3個端口）和136條PCI-Express 5.0互連通道（即每I/O芯片68條通道）。我們推測，這些PCI-Express通道中將有半數(shù)能夠支持CXL 2.0內(nèi)存協(xié)議。但英特爾最終也有可能選擇全部兼容CXL 2.0，這就屬于意外驚喜了。

根據(jù)Gianos的解釋，英特爾還打算在第六代至強(qiáng)SP上打造所謂“虛擬單體芯片”，將至強(qiáng)E5/E7和至強(qiáng)SP處理器已經(jīng)使用十余年的片上網(wǎng)格互連擴(kuò)展至可跨EMIB互連。Gianos表示，任意小芯片中的任意元件都可以與該擴(kuò)展網(wǎng)格上的任意其他元件進(jìn)行通信，類似于經(jīng)典單體芯片設(shè)計(jì)。此外，連接芯片組的EMIB邊界將提供超1 TB/秒帶寬，以確保整個網(wǎng)格體系能夠快速、順暢互連互通。

Gianos補(bǔ)充稱，在Granite Rapids設(shè)計(jì)中，高端SKU將有“超0.5 GB”的末極緩存。英特爾也證實(shí)，他們會在小芯片級別上建立sub-NUMA集群，通過這一默認(rèn)模式跨小芯片分配工作負(fù)載并提供內(nèi)存/計(jì)算局部性。

下圖所示，為第六代至強(qiáng)SP的計(jì)算芯片架構(gòu)，這里以Granite Rapids性能核版本為例：

我們知道，采用三顆小芯片的全尺寸能效核Sierra Forest在單一封裝中最多可提供144個核心。每個核心塊配備3 MB的LLC緩存。根據(jù)Soltis的介紹，每個核心塊中容納4個能效核，相當(dāng)于每個小芯片對應(yīng)48個核心、折合12個核心塊。此外，每個小芯片擁有36 MB共享L3緩存，因此144核三芯片網(wǎng)格共有108 MB共享L3緩存。包含4個能效核的單一核心塊擁有4 MB L2緩存，每個小芯片都有12個核心塊，因此每個小芯片擁有48 MB L2緩存，每個Sierra Forest整體封裝擁有144 MB L2緩存（不到AP版的2倍）。但從速度測試來看達(dá)不到這個水平，所以此處推測可能有誤。

在性能核這邊，計(jì)算方式則略有不同。每個核心擁有4 MB L3緩存和專用的2 MB L2緩存。所以Granite Rapids的實(shí)質(zhì)，就相當(dāng)于把Sierra Forest中的4顆能效核及其緩存取出，再換上相應(yīng)的性能核及其緩存。憑借超過512 MB的L3緩存，理論上Granite Rapids的非AP版本在每個插槽上可提供超128個核心。性能核的2個線程都支持HyperThreading超線程功能、擁有1個AVX-512矢量單元和1個AMX矩陣單元。從配置上來看，Granite Rapids版的發(fā)熱量無疑會高于Sierra Forest。

順帶一提，128核這個數(shù)字跟Soltis在演講中的表述有所出入：“從概念上講，我們就是直接把性能核替換成了能效核。除此之外，其他所有設(shè)計(jì)都是完全相同的，后續(xù)我們還會推出其他基本相同設(shè)計(jì)的芯片。”

如果真是如此，那么Granite Rapids最多也只能容納36個核心，這個數(shù)量肯定不夠用。所以推測Granite Rapids的最高配能容納3個核心塊，而Sierra Forest最多只能容納2個核心塊。

如果以上判斷正確，那么每個能效核小芯片可能承載80個核心——也許是在4個核心上采用10 x 2的網(wǎng)格設(shè)計(jì)。但考慮到該芯片的實(shí)際利用率只有90%，那么活動核心就是72個，對應(yīng)的是18個活動能效核心塊、54 MB共享L3緩存和72 MB L2緩存。這樣2個小芯片就能容納36個能效核心塊，對應(yīng)144個核心、108 MB共享L3緩存和144 MB L2緩存。

現(xiàn)在我們?nèi)?個這種小芯片，把能效核換成搭載4 MB共享L3緩存和2 MB L2緩存的性能核。這樣考慮單一核心塊上完整搭載20個核心的情況，也就是60個核心。我們假設(shè)英特爾用盡了所有針腳、打造出一款全部核心都能正常工作的版本，那其核心數(shù)量也仍然有限。除非英特爾能想辦法把這個數(shù)字再翻倍至120核，否則我們實(shí)在想象不出來哪里還有設(shè)計(jì)AP版的空間。

憑著直覺，我們認(rèn)為普版Granite Rapids對應(yīng)的可能是72核心加288 MB L3緩存，就是說Granite Rapids的AP版將倍增至144核心加576 MB L3緩存——而且這一切只能分布在3個小芯片上。這倒是符合Gianos在演講中提到的“超過512 GB的LLC”。按這個結(jié)果來倒推，就是說英特爾會設(shè)計(jì)一款能效核小芯片，它的網(wǎng)格中可能容納84個核心；再結(jié)合英特爾關(guān)于Sierra Forest的介紹，在85%的良品率下，其實(shí)際可用核心為72個。如果說Sierra Forest確實(shí)只能容納2個計(jì)算小芯片，那……

不說了，這里有太多的假設(shè)和猜測，咱們至此為止。

Soltis提到，Sierra Forest也將提供多種變體，比如只激活一半的核心。所以有些版本雖然出廠時有72個核心，但卻只能提供72個線程，不過也許其時鐘速率會更高一點(diǎn)、高每個線程都稍強(qiáng)勁些。

在被問及性能核跟能效核該如何比較時，GIanos表示其實(shí)二者之間的差異并沒有固定的比例。但基本可以確定，能效核心的時鐘速率應(yīng)該更低，而且性能核的單線程性能應(yīng)該在能效核的2倍以上。但具體再高出多少就很難說，估計(jì)可能在20%到25%的水平；再考慮到性能核上搭載的AVX-512和AMX單元，其發(fā)熱量應(yīng)該也相應(yīng)高出20%到25%。但據(jù)我們所知，通過剝離掉這些額外單元、并在能效核中使用兩個更小的128位AVX矢量單元，英特爾沒準(zhǔn)可以在相同的發(fā)熱量之下讓能效核獲得高于性能核的時鐘速率。

但實(shí)際情況究竟如何，恐怕只有時間能給出答案。

下面來看性能P核的介紹圖表：

再看能效E核的介紹圖表：

Sierra Forest和Granite Rapids都將采用Intel 3制程工藝，有人說其基本對應(yīng)臺積電的5納米工藝，也有人認(rèn)為其已經(jīng)更接近3納米工藝。但最重要的是，Intel 3肯定不是7納米或者10納米工藝，其制程精度已經(jīng)相當(dāng)領(lǐng)先，足夠讓英特爾的架構(gòu)優(yōu)勢發(fā)揮出實(shí)際效果。

性能核和能效核都采用64 KB L1指令緩存，這對保持核心的高負(fù)荷運(yùn)轉(zhuǎn)非常重要。我們認(rèn)為L1指令緩存越大，就能更好地掩蓋其小芯片、而非單體芯片設(shè)計(jì)所帶來的延遲。緩存為王，此言非虛……

Soltis還深入介紹了能效核架構(gòu)。這是一種不同的架構(gòu)，在英特爾內(nèi)部的代號為“Sierra Glen”。（這一代性能核的代號為「Redwood Cove」，是對已經(jīng)上市的第四代「Sapphire Rapids」至強(qiáng)SP處理器中使用的「Golden Cove」性能核的升級產(chǎn)物。）其正面布局如下所示：