網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

Intel Panther Lake深度揭秘：P+E+LPE混合架構日臻完美！功耗低得驚人

2025-10-10 11:53:47　來源: 快科技

河南舉報

分享至

十一長假前夕，Intel在美國亞利桑那州鳳凰城舉辦了一場Tech Tour US技術之旅活動。

這也是繼以色列(晶圓廠)、馬來西亞(封裝廠)、中國臺北(電腦展)之后，第四次此類活動。

活動期間，我們參觀了位于鳳凰城的Fab 42/52晶圓廠，還提前了解了下一代酷睿Ultra處理器Panther Lake、下一代至強6+處理器Clearwater Forest的架構與技術細節(jié)，現(xiàn)在和大家分享！

首先強調(diào)一點，Panther Lake、Clearwater Forest此次解密的僅限架構設計、技術特性，而產(chǎn)品型號、規(guī)格參數(shù)、性能表現(xiàn)將在后續(xù)正式發(fā)布的時候公開。

【Intel 18A工藝與先進封裝：四季度量產(chǎn)】

Panther Lake、Clearwater Forest是首個采用Intel 18A工藝的量產(chǎn)產(chǎn)品，這也是在美國本土最先進的制程工藝。

Intel 18A的技術特性之前已經(jīng)講了多次，如今量產(chǎn)在即，再做一次簡單的回顧總結。

Intel 18A標志著半導體制程工藝的一次重大突破，尤其是它首次加入了兩大全新革命性技術：RibbonFET全環(huán)繞晶體管、PowerVia背部供電。

二者結合，徹底顛覆了多年來的晶體管與晶圓結構，奠定了Intel稱之為"埃米時代"的基礎，在密度、性能、能效等各方面都帶來了顯著變化。

RibbonFET其實是GAA全環(huán)繞晶體管結構的一種實現(xiàn)方式，臺積電、三星也都有類似的技術，但具體設計各有各的特色。

RibbonFET采用4條垂直堆疊的納米帶(Nano Ribbons)結構，使得柵極能夠完全包圍溝道，再加上溝道結構和柵極控制的優(yōu)化，相比傳統(tǒng)FinFET立體晶體管結構，驅動電流可增強20％，晶體管開關速度可提升15％。

同時，它還能有效減少漏電現(xiàn)象，支持八個不同的邏輯閾值電壓，芯片設計也可以更加靈活。

另外，RibbonFET還融入了Intel的諸多工藝創(chuàng)新，包括全新的柵極光刻工藝、功函數(shù)工程優(yōu)化、短溝道效應控制等等。

PowerVia背部供電就比較好理解了，就是將傳統(tǒng)上位于晶圓正面的供電電路，轉移到背面，這可是Intel獨有的，也是第一家投入量產(chǎn)的，臺積電和三星都不具備。

多年來，晶圓設計都是將信號線(Signal)、供電線(Power)混合分布在晶體管之上，也就是晶圓的正面，但隨著晶體管尺寸不斷縮小，信號線、供電線布線越來越擁擠，功耗能效、信號干擾等問題越來越凸顯。

PowerVia將供電層移至晶體管或者說晶圓的背面，并在每個標準單元中嵌入納米級硅通孔(nano TSV)，從而實現(xiàn)了供電線與信號線的分離，晶體管的供電路徑變得更加直接高效。

這么做可以大大提高供電效率，減少損耗，降低芯片整體功耗；

可以有效減少壓降(IR Drop)最多達30％，提升芯片運行頻率最多6％；

可以減少甚至消除信號干擾，實現(xiàn)更好的信號完整性；

可以提升標準單元利用率最多達10％，進一步提高晶體管密度。

當然，單純使用背部供電，成本會顯著增加，但是Intel PowerVia是一個完整方案，同時還有一系列配套優(yōu)化，包括減少金屬層、遮罩數(shù)量、工序步驟，以及精簡正面工藝等等，使得綜合成本顯著低于傳統(tǒng)正面供電工藝。

按照Intel給出的數(shù)據(jù)，同樣是M0-M2金屬層直接印刷EUV工藝，PowerVia加持的Intel 18A對比Intel 3，遮罩數(shù)量減少了44％，工序步驟減少了42％。

RibbonFET、PowerVia兩大變革結合，使得Intel 18A對比Intel 3綜合能效提升最多15％、同等性能下功耗降低最多25％、芯片密度提升30％。

當然，這些指標只是工藝層面的，落實到處理器產(chǎn)品層面還要結合架構、規(guī)格的變化。

對于大家非常關心的18A量產(chǎn)進度，Intel也給出了明確的時間表。

目前，18A早在2024年第三季度就已經(jīng)投入試產(chǎn)，目前正在美國亞利桑那州、俄勒岡州兩地的工廠積極推進，缺陷密度不斷降低，計劃量產(chǎn)時間是今年第四季度，正好和Panther Lake的發(fā)布計劃相符合。

Intel還強調(diào)，18A的良品率和Intel過往15年的工藝水平基本相當，甚至更好一些。

除了先進工藝，Intel還有著豐富的先進封裝技術，可以分為EMIB、Foveros兩大家族，各自又衍生出了不同的版本，滿足不同的封裝需求。

Panther Lake就使用了2019年便已量產(chǎn)、久經(jīng)考驗的Foveros-S 2.5D封裝技術，結合EMIB，將不同模塊(Die)堆疊封裝在一個被動無源基礎模塊之上，實現(xiàn)高效互聯(lián)互通，方便靈活放大或縮小規(guī)模，而且成本可控。

【Panther Lake整體布局設計：三大版本】

接下來，我們就看看Panther Lake的整體架構設計，通過這一節(jié)你可以了解到它的概況，想深入研究每個模塊單元細節(jié)的可以繼續(xù)往后翻。

注意，Panther Lake是一款專門定位移動市場的處理器，包括筆記本、二合一本、迷你機、掌機等，但沒有桌面版，Intel桌面的下次更新要等到后年的Nova Lake。

按照Intel的說法，Panther Lake的設計目標有三：

一是提高架構靈活性，滿足更廣闊的市場需求，進一步推廣和普及AI PC；

二是性能的伸縮性，可滿足計算、圖形、AI等各種消費級負載的需求；

三是領先的能效，帶來出色的每瓦特性能和續(xù)航時間。

Panther Lake在很大程度上可以視為Lunar Lake、Arrow Lake的結合體，融合了二者的眾多設計和優(yōu)點，尤其同時擁有前者的超高能效、后者的靈活性能。

最終，Panther Lake帶來了超過50％的CPU、GPU性能提升，而且依然擁有極高的能效，做到了魚與熊掌也可兼得，這在歷史上是相當罕見的。

從這個意義上講，Lunar Lake雖然沒有直接的后繼者，但是除了整合封裝內(nèi)存，其實很多設計都延續(xù)了下來，后邊你會在Panther Lake上不斷看到Lunar Lake的影子。

Lunar Lake架構的卓越無需多言，它第一次實打實地證明，x86架構也可以有極高的能效，能讓筆記本擁有20小時以上的超長續(xù)航，足以媲美蘋果。

Arrow Lake架構其實也很出色，性能不俗的同時能效非常好，尤其是在移動端，但是Intel最大甚至可以說唯一的失誤，就是幾乎原封不動把它也用在了桌面上，導致絕對性能遠不如競品，嚴重影響了產(chǎn)品和品牌的形象。

Panther Lake延續(xù)了Chiplets芯粒設計，但布局又發(fā)生了變化。

Meteor Lake、Arrow Lake都是計算、圖形、SoC、IO四大模塊組成，Lunar Lake簡化為計算、平臺控制器兩部分。

Panther Lake則改成了計算、圖形、平臺控制器三個模塊，統(tǒng)一封裝在基礎模塊之上，還有一兩個填料模塊用于保持整體形狀、壓力的平衡。

計算模塊自然就是各種計算引擎，主要就是CPU核心與緩存，同時還有內(nèi)存控制器、NPU 5 AI引擎、Xe媒體與顯示引擎、IPU 7.5圖形處理引擎(也就是DSP)。

其中，CPU核心包括最多4個P核、8個E核、4個LPE核。

P核每個有自己的二級緩存，E核還是每四個一組共享二級緩存(4MB)，P核+E核組成"性能簇"，集體共享三級緩存。

LPE核單獨組成"能效簇"，一如既往它和E核都是每四個一組共享二級緩存(4MB)、沒有三級緩存，但是頻率相對更低或者說能效更高，并擁有獨立的電源管理和內(nèi)存連接，放置在了一個單獨的供電島上。

Panther Lake還設計了一個單獨的Home Agent(HA)，同時在性能簇、能效簇分別設計了一個Coherency Agent(CA)，從而加強不同核心的互通，保持整個系統(tǒng)所有核心、緩存的一致性。這倆也都是來自Lunar Lake。

除了二三級緩存，計算模塊內(nèi)還單獨設置了內(nèi)存?zhèn)染彺?MSC)。

這是從Lunar Lake上借鑒而來的，主要服務LPE核和I/O引擎，容量還是8MB，可以減少對系統(tǒng)內(nèi)存的依賴，提升延遲與帶寬，降低功耗。

MSC放置在計算模塊里，所有的IP都可以高效地訪問它，包括CPU、NPU、IPU、媒體與顯示引擎、甚至是I/O，從而降低功耗、提升性能，有點像SLC系統(tǒng)緩存。

內(nèi)存控制器放置在計算模塊的邊緣，支持兩種內(nèi)存，一是LPDDR5X，最高頻率9600MT/s，最大容量96GB。

二是DDR5，最高頻率7200MT/s，最大容量128GB。

另外，它也支持LPCAMM2內(nèi)存形態(tài)，更加靈活，不像LPDDR內(nèi)存那樣是焊接在主板上的，可以拆卸、更換、升級。

NPU已經(jīng)進化到第五代，但并沒有盲目追求更高的算力，而是提高性能面積比、能效比，其中能效面積比提升了超過40％，并新增支持FP8精度。

INT8精度下，NPU 5的算力為50 TOPS，對比Arrow Lake-H上第三代的13 TOPS可謂翻天覆地，但對比Lunar Lake上第四代的48 TOPS幾乎沒變。

對比競品，它和AMD Strix Point系列完全相同，遠不及高通驍龍X2 Elite系列的80 TOPS。

因為在Intel看來，GPU始終都是AI運算的主要引擎，NPU只適合持續(xù)運行、追求極致能效的特定負載，不需要過高的算力。

IPU也就是DSP單元緊挨著LPE核能效簇，非常小，但變化很大，支持3個并發(fā)攝像頭，基于AI的降噪、局部色調(diào)映射，基于硬件的交錯式HDR，可拍攝1600萬像素照片、120FPS慢動作視頻，功耗也降低了1.5W。

Xe媒體與顯示引擎沒有和Xe GPU放在一起，而是安排在了計算模塊內(nèi)，同樣挨著LPE能效簇，新增支持AVC(H.264)/AV1 10-bit編解碼、索尼XAVC-H/HS/S編解碼。

GPU核顯做成了單獨的一個模塊，升級到最新Xe3架構，這也是該架構的首秀，領先于獨立顯卡。

核心數(shù)量也增加到最多12個，搭配12個光追引擎、16MB二級緩存，算力可高達120 TOPS。

相比之下，Lunar Lake、Arrow Lake GPU算力最高分別為67 TOPS、77 TOPS。

圖形模塊、計算模塊之間，采用了第二代Fabric連接通道，兩邊各設置了一個D2D直連接口，確保彼此的高速低延遲連接，以及全系統(tǒng)的一致性。

這部分，同樣繼承自Lunar Lake。

Panther Lake設計了三種不同芯片，CPU、GPU、內(nèi)存、PCIe各不相同，各個模塊的外觀尺寸也不一樣，但它們共享同樣的封裝與接口。

工藝方面，計算模塊全都是Intel 18A，平臺控制器模塊都是臺積電N6，圖形模塊則是Intel 3、臺積電N3E兩種混用，都放置在Intel自家制造的基礎模塊上。

Intel表示，每個模塊采用何種工藝，是基于性能、能效、成本、量產(chǎn)進度、團隊安排等多方面的綜合考慮，會根據(jù)產(chǎn)品需求，靈活選擇合適的代工服務和具體制程。

第一種，CPU 8核心，包括4P+4LPE，類似Lunar Lake，GPU 4核心，內(nèi)存支持LPDDR5X-6800、DDR5-6400，PCIe擴展支持8條4.0、4條5.0。

注意它只有一個填充模塊，因為圖形模塊和計算模塊正好等寬，平臺控制器模塊和計算模塊則正好等長。

第二種，CPU是滿血的16核心，包括4P+8E＋4LPE，也就是多了8個E核，GPU還是4核心，內(nèi)存支持提高到LPDDR5X-8533、DDR5-7200，PCIe擴展增強為8條4.0、12條5.0。

它有兩個填充模塊，因為計算模塊加長了很多，平臺控制器模塊也加長了但還是沒趕上計算模塊，只能再加一條填充模塊。

相比其他兩個版本，它支持更多PCIe 5.0通道，適合搭配獨立顯卡和更多的SSD。

第三種，CPU還是16核心，GPU也是滿血的12核心，內(nèi)存支持一方面繼續(xù)提高到LPDDR5X-9600，一方面丟棄了DDR5，PCIe擴展支持又回到了8條4.0、4條5.0。

它也是兩個填充模塊，GPU旁邊的因為圖形模塊的驟然增大而隨之變大了很多，而計算模塊旁邊的因為平臺控制器模塊的縮小而變大了不少。

可以看出，二、三種的計算模塊相同，一、二種的圖形模塊相同，一、三種的平臺控制器模塊相同。

這就是Chiplets設計的好處之一，可以靈活搭配不同模塊，組成不同的產(chǎn)品。

三種不同芯片里，NPU、IPU、Xe媒體與顯示引擎、無線連接性都是完全一樣的，沒有區(qū)別。

至于為何內(nèi)存頻率乃至類型都不一樣，PCIe擴展也不盡相同，這是Intel結合市場定位與目標用戶而設計的。

另外，個人感覺Intel不應該把最強的12核心核顯僅限于搭配16核心CPU，中低端也可以有一些。

當然，它們都是芯片層面的設計，SKU型號的區(qū)別又不一樣，不同OEM也可能會單獨定制，比如更高的內(nèi)存頻率等等。

【P/E核架構解析：小核、超小核的雄起】

12代酷睿以來，Intel處理器一直堅持P+E核的異構混合架構設計，俗稱大小核。

很多用戶對此頗有微詞，坦白來說，大小核在誕生初期確實也存在不少問題，其中之一就是E核性能偏弱。

但是多次迭代升級之后，E核早已不再是弱雞，可以更靈活地承擔更多的計算任務，貢獻甚至超過了之前的虛擬超線程，這也是超線程取消的原因之一，等于讓E核承擔超線程的責任。

另外，LPE核也在最近幾代成為標配，從開始的毫無存在感，到如今已經(jīng)成為主力，完全可以獨立應付日常多任務負載。

當然，線程調(diào)度管理也日益成熟起來，多種核心的調(diào)度分配越來越得心應手，尤其這一代又發(fā)生了很大變化，堪稱一次飛躍！

可以說，經(jīng)過多年發(fā)展，Intel的大小核戰(zhàn)略終于初見成效，P核提升單線程性能和吞吐量，E核提升多線程性能和多任務并行能力，LPE核提升能效，彼此靈活搭配，用在筆記本上可以秒殺AMD，只是說實話，它并不太適合桌面領域，Intel不太應該強硬全面推廣。

P、E、LPE核進化史，特別注意Lunar Lake。

當時官方稱Lunar Lake由P核、E核組成，但現(xiàn)在修訂為P核、LPE核的組合，從而讓LPE核一直都在，E核則出現(xiàn)了一次缺席。

如何卻分E核、LPE核？除了相對頻率高低，更關鍵的是看三級緩存，E核和P核共享一組三級緩存，LPE則沒有三級緩存。

另外，最早的Meteor Lake、最新的Panther Lake都是E核、LPE核采用相同架構，Arrow Lake則是唯一一次E核、LPE架構不同。

Panther Lake再次同時升級了P核、E核架構，代號分別為Cougar Cove、Darkmont，繼續(xù)在保持高能效的同時提升性能，尤其是優(yōu)化提升IPC。

同時，新架構都針對18A工藝做了針對性的設計和優(yōu)化。

雖然說Intel如今的架構基本都和工藝實現(xiàn)了完全解耦，但仍然需要相應的優(yōu)化才能將二者更好地結合在一起，對于提高性能、能效和良品率都有莫大好處，尤其是18A變化太大，首次引入了RibbonFET、PowerVia。

Cougar Cove P核的架構設計細節(jié)沒有過多展開，只介紹了一些大概，包括優(yōu)化PPA(性能功耗與面積)、增強分支預測、更寬調(diào)度(橫跨分配/重命名/退休單元)、18個執(zhí)行端口、升級TLB容量達50％、VEC/INT分離亂序執(zhí)行引擎、AI電源管理、16.67MHz精細頻率調(diào)節(jié)、內(nèi)存消歧等等。

每個核心具備192KB一級指令緩存、48KB一級數(shù)據(jù)緩存、最多3MB二級緩存。

分支預測這個大家應該都不陌生了，是影響現(xiàn)代處理器性能的兩大關鍵因素之一(另一個是緩存)，是任何一次架構升級都要重點改進的地方，簡單講就是判斷程序分支的進行方向。

顯然，它的精度和準確率越高，整體的執(zhí)行效率就越高，性能和能效自然也就越高。

Panther Lake的分支預測單元(BPU)很大程度上還是借鑒了Lunar Lake上的高效設計，并繼續(xù)深入優(yōu)化，精度、容量、效率、延遲全面增強。

所謂內(nèi)存消歧，指的是訪存指令數(shù)據(jù)依賴性是基于內(nèi)存地址的，在重命名階段無法確定，只有計算出地址之后才可以確定依賴關系，分為推測性、非推測性，這種機制可以讓性能更加可靠。

值得一提的是，16.67MHz頻率精度，這個來自于Arrow Lake。

另外，PPT上提到最大18MB共享三級緩存，應該指的是P核、E核集體共享的容量，畢竟二者不分家，也就是這代三級緩存最大就是18MB。

Arrow Lake-H上雖然有24MB，但是有6個P核，所以平均下來這代還是多了一點。

Darkmont E核因為也用在新一代至強Clearwater Forest的上邊，所以介紹得很詳細，正好也非常有必要讓大家多了解了解E/LPE核，它們絕非累贅。

總的來說，這次E核的主要變化包括增強分支預測(尋找指令更迅速)、增強深度隊列(并行更好)、增大二級緩存帶寬(每時鐘周期128字節(jié))、動態(tài)預取器控制(不同負載的響應能力更好)、微代碼性能提升(支持更多指令)、內(nèi)存消歧、26個分派端口、AI吞吐量提升，等等。

在前端，Darkmont的主要變化有：更大的64KB一級指令緩存、更寬更深更精準的分支預測、提升50％的指令帶寬(3×32-bit)、9寬度的亂序解碼器(3×3)。

亂序執(zhí)行引擎模塊，具備8個寬度的分配與16個寬度的退休單元(增加33％)、416個入口的亂序窗口(增加62.5％)，以及多達26個執(zhí)行端口(增加53％)。

執(zhí)行引擎部分，標量引擎具備8個整數(shù)ALU計算單元(增加100％)、3個載入與4個存儲AGU端口、3個跳轉端口、2個整數(shù)存儲數(shù)據(jù)端口。

矢量引擎具備4個矢量與浮點ALU單元(增加100％)、2個矢量與浮點存儲數(shù)據(jù)端口、4個矢量與浮點堆棧。

緩存子系統(tǒng)，二級緩存的緩存帶寬從每時鐘周期64B翻番為128B，具備3個載入與2個存儲單元，而更深的存儲與載入緩沖允許128個二級緩存未命中，還有更高級的預取器。

對比Meteor Lake/Arrow Lake里使用的Crestmont，這一代小核的變化可謂全方位的，從前到后整個架構都進行了全面增強。

當然，這里沒有對比Lunar Lake里的Skymont，但同樣有著全方位的進步。

另外，從這張圖上可以清晰地看出，Lunar Lake、Arrow Lake與Panther Lake之間的CPU核心進化關系，這也是前邊說Panther Lake是二者合體的原因之一。

基于全新的P核、E核架構，Panther Lake的單線程性能對比Lunar Lake、Arrow Lake有了最多10％的提升，但類似性能下的功耗驟然降低了最多40％，能效之高可見一斑。

多線程方面，Panther Lake對比Lunar Lake，類似功耗下的性能高了最多50％。

Panther Lake對比Arrow Lake，類似性能下的功耗又低了最多30％。

Intel還特別聲稱，這一代Darkmont E核的性能，相當于13代酷睿Raptor Cove P核在低功耗下的水準，可以用更低的功耗達成同樣的性能，因此無論性能還是能效都強得可怕。

所以在下一節(jié)你將會看到，LPE都將承擔起更多的責任，直接搞定日常多任務負載，更別提E核了。

【線程調(diào)度器飛躍：LPE核不再打醬油而是主力】

12代酷睿引入P+E異構混合架構的同時，Intel就在硬件層面設計了線程調(diào)度器機制(Intel Thread Director/ITD)，配合操作系統(tǒng)，調(diào)度不同核心執(zhí)行不同負載。

簡單來說，ITD會自動識別不同的進程和負載，并對它們進行歸類，包括誰更適合運行在哪種核心上、誰的優(yōu)先級更高等等，基于此制作成一份反饋表，交給操作系統(tǒng)調(diào)度器，由其調(diào)用不同核心執(zhí)行不同操作。

顯然，這套機制的關鍵在于識別與分類的精準，保證不同核心分配到最適合自己執(zhí)行的負載，而且一切都得在電光火石之間完成。

處理器硬件與核心架構不斷進化的同時，ITD也在持續(xù)改進升級，讓調(diào)度精度與效率越來越高。

Panther Lake上又完成了一次飛躍，針對更廣泛的應用場景，進一步優(yōu)化和增強了智能線程調(diào)度，包括優(yōu)化分類模型、改進電源管理輸入、擴展繁忙場景覆蓋范圍、同步跨P/E/LPE核執(zhí)行等，另外還設置了一個操作系統(tǒng)隔離區(qū)，將需要能效、計算、混合等不同負載分區(qū)域處理。

IDT對于不同類型核心的調(diào)度使用也在不斷優(yōu)化。

Raptor Lake 13/14代酷睿還是單芯片，只有P/E核，負載與核心調(diào)度相對簡單粗暴，就是高負載給P核，低負載給E核，并在二者之間周期性轉移線程。

Meteor Lake增加了LPE核，位于單獨的SoC模塊內(nèi)，負載調(diào)度首先考慮它，不夠了再轉移到計算模塊的E核、P核，但是首次出現(xiàn)的LPE核參與執(zhí)行的機會并不是很多，而且涉及到跨模塊調(diào)度，延遲容易偏高。

Lunar Lake只有LPE、P兩種核心，跨度有點大，但好處是放在了一個模塊內(nèi)。

Arrow Lake雖然有LPE、E、P三種核心，而且位于同一模塊內(nèi)，但是LPE核只有兩個，難堪大任。

Panther Lake可以說是集前代之長，三種核心置于同一模塊，而且有四個LPE核，足夠承擔日常多任務負載，一般辦公、娛樂用它就足夠了，不夠用了再一次調(diào)度E核、P核，而如果遇到高強度負載，比如生產(chǎn)力創(chuàng)作、基準測試，則可以直接上P核。

比如視頻會議、上網(wǎng)、Office辦公、視頻直播、簡單創(chuàng)作等日常輕度負載，包括多任務并行，可以全權交給4個LPE核搞定，E核、P核幾乎完全休眠，只是偶爾可能會被短暫喚醒。

這是因為如今的LPE核經(jīng)過架構升級，性能已經(jīng)足夠強大，可以說相當于低功耗模式的P核，四個LPE核對付多個低負載是綽綽有余的。

這種情況下，Panther Lake的整機功耗甚至可以比Lunar Lake還要低！

Procyon Office生產(chǎn)力創(chuàng)作這類對于LPE核壓力稍大但不會過大的負載，依然會盡可能交給LPE核執(zhí)行，但可能會有一個LPE核持續(xù)工作。

一旦超出了LPE核全力承受的極限，就會嘗試E核，一旦E核也不足以應付，或者需要太多E核同時工作，就會直接調(diào)動一個P核，但一般也只有一個，并保持持續(xù)輸出，其他P核和全部E核、LPE核則基本轉入休息。

總之原則就是：能用小的不用大的，能用少的不用多的。

CineBench 2024多線程測試，這種需要調(diào)動每一個核心全部能力極限測試，自然就會全力開動，所有核心滿血輸出。

對于游戲來說就復雜一點了，因為不同的游戲，所需要的CPU、GPU資源可能截然不同。

比如《控制》這種，GPU顯卡很容易成為瓶頸的，如果按照一般調(diào)度原則，會讓所有核心參與其中，而且一個或多個P核會持續(xù)工作，顯然造成浪費。

經(jīng)過優(yōu)化增強后，這類負載中就直接讓最弱的LPE核全部休息，主要調(diào)動最強大的P核以保證性能，并盡量調(diào)用E核以盡可能降低功耗，甚至在特定階段可以只讓一個P核持續(xù)工作，其他P+E核盡量休息，兼顧能效。

當然，多核心的調(diào)度絕不是處理器自己的工作，不但需要操作系統(tǒng)的配合，還要考慮電源管理機制、OEM定制工作模式、平臺軟件等多重因素。

比如OEM伙伴可以選擇將能效比發(fā)揮到極致，也可以選擇能效曲線上最合適的點，從而滿足特定的產(chǎn)品，就像輕薄本、創(chuàng)作本、游戲本的需要顯然是截然不同。

好消息是，Panther Lake并不是必須搭配最新版Windows 11，因為IDT的工作是在層面，操作系統(tǒng)只需要配合就行了。

另外很關鍵的一點就是Windows系統(tǒng)的電源計劃，這個對于異構混合架構的發(fā)揮也至關重要。

傳統(tǒng)的Windows電源計劃只有簡單粗暴的高性能、平衡、節(jié)能幾個檔位，都是固定的、靜態(tài)的，而且需要手動選擇切換。

現(xiàn)在，Intel帶來了"智能體驗優(yōu)化器"(Intelligent Experience Optimizer)。

它可以由系統(tǒng)軟件開啟，在平衡模式下進行智能自動切換，按照系統(tǒng)運行需要或者偏性發(fā)揮更高性能，或者偏向發(fā)揮更高能效、更低功耗，期間完全不需要手動干預。

【GPU核顯：Xe3架構首秀迎來多幀生成】

Intel Xe一直堅持獨顯、核顯兩條腿走路，而且核顯還走到了獨顯的前頭，比如Lunar Lake率先集成了第二代Battlemage Xe2架構，銳炫B580/B570之后才跟上。

Panther Lake則率先集成了新一代Celestial Xe3架構，不過命名上卻劃歸銳炫B系列。

至于新架構獨顯，還不知道什么時候發(fā)布的下一代銳炫C系列才會跟上，但從路線圖上看獨顯版Xe3架構將會叫做Xe3P，應該是代表性能更強。

核顯版Xe3主要是增強了架構靈活性，并在性能上進行了深度優(yōu)化，包括第三代Xe核心、增強光追單元、提升XVE矢量引擎利用率、增強圖形固定功能，等等。

Xe核心的基本內(nèi)部結構完全沒變，還是包含8個512-bit XVE矢量引擎、8個2048-bit XMX AI加速引擎，不過兩種引擎都做了增強，共享一級緩存容量也增大了1/3，來到342KB。

XVE矢量引擎的線程增加了最多25％，新增支持可變寄存器分配、FP8量化，同時繼續(xù)支持SIMD16原生ALU邏輯計算、3路并發(fā)、拓展數(shù)學與FP4。

XMX引擎繼續(xù)提升性能，每時鐘周期操作數(shù)分別提高到TF32 1024、FP16/BF16 2048、INT8 4096、INT4/INT2 8192，整體算力提高到了最多120TOPS，但不支持FP4。

光追單元變化不是很大，支持異步光追的動態(tài)光線管理。

圖形固定功能方面，支持URB管理器，AF各向異性過濾行提升2倍，模板測試速率提升2倍。

同樣頻率下，Xe3的諸多微架構理論指標都有了長足的進步，比如色彩混合+10％、GEMM +50％、FP32/INT32 +50％、光線與三角形交互+1倍、16x AF sRGB +1倍、網(wǎng)格渲染+1.4倍、離散讀取+1.7倍、高寄存器壓力著色器+2.1倍、深度寫入+6.4倍。

當然，這些都是純理論性能指標，不代表實際渲染性能，但也可以看出Xe3作為一次小改，仍有著顯著的提升。

反映到實際性能上，Intel官方宣稱Panther Lake Xe3對比Lunar Lake Xe2的性能可提升超過50％，當然功耗也高得多。

對比Arrow Lake Xe則將能效提升了超過40％，只需要少得多的功耗，就能達成后者的峰值性能。

Xe3的基本組成單元還是渲染切片(Render Slice)，不過增大了規(guī)模，每一組從4個Xe核心、4個光追單元加強為6個Xe核心、6個光追單元。

Panther Lake的核顯有兩種版本，一種是4個Xe核心，搭配8/16核心CPU，但不清楚是6核心精簡下來的，還是原生4核心，如果后者和Xe2架構的就一樣了。

它有32個XMX引擎(大致相當于傳統(tǒng)32個傳統(tǒng)流處理器)、32個XVE引擎、4個光追單元、1條幾何流水線、4個采樣器、2個像素后端、4MB三級緩存。

另一種是12個Xe核心，搭配16核心CPU，但規(guī)格上不是4核心版本簡單乘4，而是重新配置過的，包括96個XMX引擎、96個XVE引擎、12個光追單元、2條幾何流水線、12個采樣器、4個像素后端、16MB二級緩存。

大緩存可以顯著降低GPU與CPU之間的互連擁堵問題，實際游戲中最多可節(jié)省達36％。

此外，Xe3架構還帶來了一項重磅技術，XeSS3 MFG多幀生成，甚至AMD都還沒有做到這一點！

它和NVIDIA DLSS 4的多幀生成類似，也是提取已有幀畫面中的運動矢量、深度信息，利用XMX引擎的AI處理能力，結合光流、運動矢量信息進行混合重建，生成新的幀畫面。

它也是一幀可生成最多四幀，能將幀率提升4倍左右，并且可以在驅動中選擇強制2x、3x、4x幀生成，或者由游戲控制。

結合XeSS SR超分技術，它同樣能讓畫面中15/16的像素都是AI生成的，而非原生渲染的。

凡是已經(jīng)支持XeSS2 FG幀生成的游戲，都可以直接支持XeSS3 MFG多幀生成，無需單獨適配。

至于多幀生成能否適配老顯卡，暫未可知。

當然，幀生成、多幀生成都必須配合XeSS LL低延遲技術，要么同時打開，要么同時關閉，從而降低幀生成后的高延遲。

XeSS LL低延遲也有兩種實現(xiàn)方式，一是游戲內(nèi)置原生支持，效果最好，二是通過驅動強制打開，不算完美但總比沒有強。

有趣的是，Intel還開發(fā)了一個小軟件，可以分別顯示原生渲染幀率、多幀生成幀率，可以看到確實做到了4倍提升。

【NPU 5：不盲目追求高算力更在意高效率】

NPU的歷史不算長，但在各家的AI戰(zhàn)略中，它都是非常關鍵的一環(huán)，和CPU、GPU共同組成AI計算矩陣，各有各的長處。

無論是Intel、AMD，還是高通、聯(lián)發(fā)科乃至蘋果，都是這么做的。

Intel一直堅持XPU策略，CPU、GPU、NPU都要利用起來，各司其職。

NPU的優(yōu)勢是超高能效，適合持續(xù)運行特定負載，尤其是后臺負載，比如視頻會議效果、游戲助手、AI助手等。

CPU的優(yōu)勢是快速響應，適合對響應速度要求很高、但負載不是很重的負載，比如語音轉文字。

GPU的優(yōu)勢是算力強、帶寬高，適合對性能需求極高的繁重負載，包括游戲、內(nèi)容創(chuàng)作等。

根據(jù)Intel的觀察，目前的AI負載中，主要跑GPU能占到超過60％，NPU利用率正在快速提升已經(jīng)超過20％，CPU則有10％以上。

當然，CPU、GPU、NPU三者也不是彼此隔離的，同樣一個AI應用，可以將不同負載分配給不同引擎，達到盡可能高的性能和效率。

Lunar Lake上搭載的NPU是第四代(Arrow Lake第三代)，具備6個神經(jīng)計算引擎、12個增強SHAVE DSP、優(yōu)化的MAC陣列，最大算力48 TOPS。

Panther Lake NPU升級到了第五代，架構方面沒有太大變化，最大變化就是將每一組MAC陣列的規(guī)模直接擴大一倍，同時減少了前后端的諸多單元，使之更加高效。

可以理解為將原來的兩組MAC合并，共享前后端單元。

這樣一來，NPU 5 NCE(神經(jīng)計算引擎)的數(shù)量從6個變成3個，SHAVE DSP、推理流水線、數(shù)據(jù)轉換單元、激活函數(shù)單元、載入存儲單元等等隨之全部減半，但是MAC陣列大大增強到了12K。

另外還有256KB二級緩存、4.5MB便簽內(nèi)存(SPM)用于存儲占用部分地址空間的數(shù)據(jù)或指令。

Panther Lake NPU的算力最高為50 TOPS，相比Lunar Lake上的48 TOPS幾乎沒有增長，持平AMD，遠低于驍龍X2 Elite系列的80 TOPS。

不過可以看到，Panther Lake NPU的面積比Lunar Lake上縮小了很多，單位面積的算力能是猛增了超過40％。

正是Intel NPU的發(fā)展思路，不盲目追求高算力，因為GPU才是最適合跑高算力負載的，NPU的優(yōu)勢就是高能效，在盡可能小的面積、盡可能低的功耗下發(fā)揮適合的算力，才是最適合NPU的做法。

硬件變化的同時，NPU 5也針對最新AI負載做了優(yōu)化適配，比如新增加了原生FP8數(shù)據(jù)格式，包括E4M3和E5M2兩種格式。

FP8相比于FP16雖然犧牲了一些精度，但是可以大大減少內(nèi)存/顯存占用，吞吐量、能效也都高了一倍。

INT8/FP8都支持16×16×16矩陣計算，每時鐘周期均為4096 MAC，F(xiàn)P16則是16×16×8計算和2048 MAC。

格式轉換單元增強后，針對原生FP32后期處理流水線做了架構上的重構，廣泛支持FP32、FP16、BF16、FP8、INT8、INT4。

至于NVIDIA力推的FP4，Intel表示會保持觀察，視需要而定，畢竟它還遠不是行業(yè)標準，各有各的實現(xiàn)方式(NVIDIA的就直接叫做NVFP4)。

事實上，F(xiàn)P8也還沒有成為IEEE754組織行業(yè)標準，但是Intel強調(diào)對它的支持與行業(yè)主流基本對比，對比NVIDIA支持的FP8差別很細微，并且推理前可以直接轉換，對實際應用和性能表現(xiàn)基本沒有影響。

Panther Lake三大AI引擎的總算力最高為180 TOPS，其中GPU最強達120 TOPS，NPU次之為50 TOPS，CPU最弱為10 TOPS。

這種算力分布，是非常符合它們各自的負載應用需求的。

【IPU 7.5：攝像頭的好搭檔】

IPU，即"圖像處理器"，很多人可能會感到陌生，但說起ISP(圖像信號處理器)，應該就都很熟悉了。

IPU其實就是Intel單獨給ISP取得一個名字，使之也屬于某種XPU。

IPU或者說ISP最核心的作用之一就是處理來自攝像頭、麥克風的圖像信息，包括曝光、白平衡、對焦等，用在筆記本上最主要的應用場景就是視頻會議。

作為一種集成式ISP，IPU不需要本地獨立緩存、微控制器，可以不受限制地進行更高級時域的處理，直接訪問CPU、GPU、NPU這些計算引擎，而且可編程。

雖然國人在視頻會議中不太喜歡開攝像頭，但歐美截然相反，尤其是疫情后，居家遠程辦公的比例一直很高，視頻會議就成了剛需場景。

數(shù)據(jù)顯示，22％的美國人居家遠程辦公，75％的美國公司經(jīng)常開視頻會議，每人每年花在視頻會議上的時間可能長達50天。

同時，視覺處理也是智能邊緣時代的關鍵任務，包括無人智能化場景、安全監(jiān)控、工業(yè)化、汽車駕駛等。

Intel IPU一直都很低調(diào)，但是已經(jīng)有十多年歷史，Panther Lake上已經(jīng)是7.5代，主要變化有三點：

一是支持交錯式HDR(sHDR)。

基于硬件加速，結合長短雙曝光，可獲得更清晰、更真實、色彩更逼真的視頻畫面，最高支持4K分辨率，還能節(jié)省最多1.5W的功耗。

二是支持基于AI的降噪。

可改進暗光環(huán)境下的圖像與視頻質(zhì)量，與CPU/NPU聯(lián)合，提升幀率和銳度，讓畫面更干凈，最高支持500萬像素攝像頭。

三是支持基于AI的本地色調(diào)映射。

還是改進暗光畫質(zhì)，包括更好的對比度、消除光暈效果、消除色彩鬼影等等。

另外，IPU 7.5還支持三攝像頭并發(fā)，支持1600萬像素拍照與ZSL(零快門延遲)。

如果你的筆記本攝像頭不是很好，IPU 7.5還是挺有幫助的。

【連接：Wi-Fi 7 R2與藍牙6.0】

從改變時代的迅馳筆記本開始，Intel就一直非常重視無線連接，并且始終處于遙遙領先的地位。

Panther Lake率先支持最新的Wi-Fi 7 R2標準規(guī)范，相比初版Wi-Fi 7重點提升了網(wǎng)絡性能、可靠性和能效，包括多連接重配置、受限TWT(目標喚醒時間)、單鏈接eMLSR(增強多連接單射頻)、P2P通道協(xié)調(diào)、MIMO增強、混合自動重復請求(HARQ)、低延遲操作等。

可惜，Wi-Fi 7 R2中的很多新特性，都需要用到6GHz通道，與國內(nèi)無緣。

Panther Lake還支持全新的藍牙6.0，已經(jīng)發(fā)布一年多了，支持藍牙信道探測、基于決策的廣播過濾、監(jiān)視廣播設備、ISOAL(等時適配層)增強、LL擴展功能組、幀間隔更新等新特性，還有更好的藍牙LE音頻，比如Auracast廣播能力。

軟件層面，Intel還帶來了高級藍牙監(jiān)視、雙向QoS管理、AI感知QoS等。

最后，一圖看懂Panther Lake的新變化和提升！

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.