夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Intel Panther Lake深度揭秘:P+E+LPE混合架構日臻完美!功耗低得驚人

0
分享至

十一長假前夕,Intel在美國亞利桑那州鳳凰城舉辦了一場Tech Tour US技術之旅活動。

這也是繼以色列(晶圓廠)、馬來西亞(封裝廠)、中國臺北(電腦展)之后,第四次此類活動。

活動期間,我們參觀了位于鳳凰城的Fab 42/52晶圓廠,還提前了解了下一代酷睿Ultra處理器Panther Lake、下一代至強6+處理器Clearwater Forest的架構與技術細節(jié),現(xiàn)在和大家分享!

首先強調(diào)一點,Panther Lake、Clearwater Forest此次解密的僅限架構設計、技術特性,而產(chǎn)品型號、規(guī)格參數(shù)、性能表現(xiàn)將在后續(xù)正式發(fā)布的時候公開。



【Intel 18A工藝與先進封裝:四季度量產(chǎn)】

Panther Lake、Clearwater Forest是首個采用Intel 18A工藝的量產(chǎn)產(chǎn)品,這也是在美國本土最先進的制程工藝。

Intel 18A的技術特性之前已經(jīng)講了多次,如今量產(chǎn)在即,再做一次簡單的回顧總結。


Intel 18A標志著半導體制程工藝的一次重大突破,尤其是它首次加入了兩大全新革命性技術:RibbonFET全環(huán)繞晶體管、PowerVia背部供電。

二者結合,徹底顛覆了多年來的晶體管與晶圓結構,奠定了Intel稱之為"埃米時代"的基礎,在密度、性能、能效等各方面都帶來了顯著變化。


RibbonFET其實是GAA全環(huán)繞晶體管結構的一種實現(xiàn)方式,臺積電、三星也都有類似的技術,但具體設計各有各的特色。

RibbonFET采用4條垂直堆疊的納米帶(Nano Ribbons)結構,使得柵極能夠完全包圍溝道,再加上溝道結構和柵極控制的優(yōu)化,相比傳統(tǒng)FinFET立體晶體管結構,驅動電流可增強20%,晶體管開關速度可提升15%。

同時,它還能有效減少漏電現(xiàn)象,支持八個不同的邏輯閾值電壓,芯片設計也可以更加靈活。

另外,RibbonFET還融入了Intel的諸多工藝創(chuàng)新,包括全新的柵極光刻工藝、功函數(shù)工程優(yōu)化、短溝道效應控制等等。


PowerVia背部供電就比較好理解了,就是將傳統(tǒng)上位于晶圓正面的供電電路,轉移到背面,這可是Intel獨有的,也是第一家投入量產(chǎn)的,臺積電和三星都不具備。

多年來,晶圓設計都是將信號線(Signal)、供電線(Power)混合分布在晶體管之上,也就是晶圓的正面,但隨著晶體管尺寸不斷縮小,信號線、供電線布線越來越擁擠,功耗能效、信號干擾等問題越來越凸顯。

PowerVia將供電層移至晶體管或者說晶圓的背面,并在每個標準單元中嵌入納米級硅通孔(nano TSV),從而實現(xiàn)了供電線與信號線的分離,晶體管的供電路徑變得更加直接高效。

這么做可以大大提高供電效率,減少損耗,降低芯片整體功耗;

可以有效減少壓降(IR Drop)最多達30%,提升芯片運行頻率最多6%;

可以減少甚至消除信號干擾,實現(xiàn)更好的信號完整性;

可以提升標準單元利用率最多達10%,進一步提高晶體管密度。


當然,單純使用背部供電,成本會顯著增加,但是Intel PowerVia是一個完整方案,同時還有一系列配套優(yōu)化,包括減少金屬層、遮罩數(shù)量、工序步驟,以及精簡正面工藝等等,使得綜合成本顯著低于傳統(tǒng)正面供電工藝。

按照Intel給出的數(shù)據(jù),同樣是M0-M2金屬層直接印刷EUV工藝,PowerVia加持的Intel 18A對比Intel 3,遮罩數(shù)量減少了44%,工序步驟減少了42%。


RibbonFET、PowerVia兩大變革結合,使得Intel 18A對比Intel 3綜合能效提升最多15%、同等性能下功耗降低最多25%、芯片密度提升30%。

當然,這些指標只是工藝層面的,落實到處理器產(chǎn)品層面還要結合架構、規(guī)格的變化。


對于大家非常關心的18A量產(chǎn)進度,Intel也給出了明確的時間表。

目前,18A早在2024年第三季度就已經(jīng)投入試產(chǎn),目前正在美國亞利桑那州、俄勒岡州兩地的工廠積極推進,缺陷密度不斷降低,計劃量產(chǎn)時間是今年第四季度,正好和Panther Lake的發(fā)布計劃相符合。

Intel還強調(diào),18A的良品率和Intel過往15年的工藝水平基本相當,甚至更好一些。



除了先進工藝,Intel還有著豐富的先進封裝技術,可以分為EMIB、Foveros兩大家族,各自又衍生出了不同的版本,滿足不同的封裝需求。

Panther Lake就使用了2019年便已量產(chǎn)、久經(jīng)考驗的Foveros-S 2.5D封裝技術,結合EMIB,將不同模塊(Die)堆疊封裝在一個被動無源基礎模塊之上,實現(xiàn)高效互聯(lián)互通,方便靈活放大或縮小規(guī)模,而且成本可控。


【Panther Lake整體布局設計:三大版本】

接下來,我們就看看Panther Lake的整體架構設計,通過這一節(jié)你可以了解到它的概況,想深入研究每個模塊單元細節(jié)的可以繼續(xù)往后翻。

注意,Panther Lake是一款專門定位移動市場的處理器,包括筆記本、二合一本、迷你機、掌機等,但沒有桌面版,Intel桌面的下次更新要等到后年的Nova Lake。



按照Intel的說法,Panther Lake的設計目標有三:

一是提高架構靈活性,滿足更廣闊的市場需求,進一步推廣和普及AI PC;

二是性能的伸縮性,可滿足計算、圖形、AI等各種消費級負載的需求;

三是領先的能效,帶來出色的每瓦特性能和續(xù)航時間。

Panther Lake在很大程度上可以視為Lunar Lake、Arrow Lake的結合體,融合了二者的眾多設計和優(yōu)點,尤其同時擁有前者的超高能效、后者的靈活性能。

最終,Panther Lake帶來了超過50%的CPU、GPU性能提升,而且依然擁有極高的能效,做到了魚與熊掌也可兼得,這在歷史上是相當罕見的。

從這個意義上講,Lunar Lake雖然沒有直接的后繼者,但是除了整合封裝內(nèi)存,其實很多設計都延續(xù)了下來,后邊你會在Panther Lake上不斷看到Lunar Lake的影子。

Lunar Lake架構的卓越無需多言,它第一次實打實地證明,x86架構也可以有極高的能效,能讓筆記本擁有20小時以上的超長續(xù)航,足以媲美蘋果。

Arrow Lake架構其實也很出色,性能不俗的同時能效非常好,尤其是在移動端,但是Intel最大甚至可以說唯一的失誤,就是幾乎原封不動把它也用在了桌面上,導致絕對性能遠不如競品,嚴重影響了產(chǎn)品和品牌的形象。


Panther Lake延續(xù)了Chiplets芯粒設計,但布局又發(fā)生了變化。

Meteor Lake、Arrow Lake都是計算、圖形、SoC、IO四大模塊組成,Lunar Lake簡化為計算、平臺控制器兩部分。

Panther Lake則改成了計算、圖形、平臺控制器三個模塊,統(tǒng)一封裝在基礎模塊之上,還有一兩個填料模塊用于保持整體形狀、壓力的平衡。



計算模塊自然就是各種計算引擎,主要就是CPU核心與緩存,同時還有內(nèi)存控制器、NPU 5 AI引擎、Xe媒體與顯示引擎、IPU 7.5圖形處理引擎(也就是DSP)。

其中,CPU核心包括最多4個P核、8個E核、4個LPE核。

P核每個有自己的二級緩存,E核還是每四個一組共享二級緩存(4MB),P核+E核組成"性能簇",集體共享三級緩存。

LPE核單獨組成"能效簇",一如既往它和E核都是每四個一組共享二級緩存(4MB)、沒有三級緩存,但是頻率相對更低或者說能效更高,并擁有獨立的電源管理和內(nèi)存連接,放置在了一個單獨的供電島上。

Panther Lake還設計了一個單獨的Home Agent(HA),同時在性能簇、能效簇分別設計了一個Coherency Agent(CA),從而加強不同核心的互通,保持整個系統(tǒng)所有核心、緩存的一致性。這倆也都是來自Lunar Lake。


除了二三級緩存,計算模塊內(nèi)還單獨設置了內(nèi)存?zhèn)染彺?MSC)。

這是從Lunar Lake上借鑒而來的,主要服務LPE核和I/O引擎,容量還是8MB,可以減少對系統(tǒng)內(nèi)存的依賴,提升延遲與帶寬,降低功耗。

MSC放置在計算模塊里,所有的IP都可以高效地訪問它,包括CPU、NPU、IPU、媒體與顯示引擎、甚至是I/O,從而降低功耗、提升性能,有點像SLC系統(tǒng)緩存。


內(nèi)存控制器放置在計算模塊的邊緣,支持兩種內(nèi)存,一是LPDDR5X,最高頻率9600MT/s,最大容量96GB。

二是DDR5,最高頻率7200MT/s,最大容量128GB。

另外,它也支持LPCAMM2內(nèi)存形態(tài),更加靈活,不像LPDDR內(nèi)存那樣是焊接在主板上的,可以拆卸、更換、升級。


NPU已經(jīng)進化到第五代,但并沒有盲目追求更高的算力,而是提高性能面積比、能效比,其中能效面積比提升了超過40%,并新增支持FP8精度。

INT8精度下,NPU 5的算力為50 TOPS,對比Arrow Lake-H上第三代的13 TOPS可謂翻天覆地,但對比Lunar Lake上第四代的48 TOPS幾乎沒變。

對比競品,它和AMD Strix Point系列完全相同,遠不及高通驍龍X2 Elite系列的80 TOPS。

因為在Intel看來,GPU始終都是AI運算的主要引擎,NPU只適合持續(xù)運行、追求極致能效的特定負載,不需要過高的算力。


IPU也就是DSP單元緊挨著LPE核能效簇,非常小,但變化很大,支持3個并發(fā)攝像頭,基于AI的降噪、局部色調(diào)映射,基于硬件的交錯式HDR,可拍攝1600萬像素照片、120FPS慢動作視頻,功耗也降低了1.5W。


Xe媒體與顯示引擎沒有和Xe GPU放在一起,而是安排在了計算模塊內(nèi),同樣挨著LPE能效簇,新增支持AVC(H.264)/AV1 10-bit編解碼、索尼XAVC-H/HS/S編解碼。


GPU核顯做成了單獨的一個模塊,升級到最新Xe3架構,這也是該架構的首秀,領先于獨立顯卡。

核心數(shù)量也增加到最多12個,搭配12個光追引擎、16MB二級緩存,算力可高達120 TOPS。

相比之下,Lunar Lake、Arrow Lake GPU算力最高分別為67 TOPS、77 TOPS。



圖形模塊、計算模塊之間,采用了第二代Fabric連接通道,兩邊各設置了一個D2D直連接口,確保彼此的高速低延遲連接,以及全系統(tǒng)的一致性。

這部分,同樣繼承自Lunar Lake。


Panther Lake設計了三種不同芯片,CPU、GPU、內(nèi)存、PCIe各不相同,各個模塊的外觀尺寸也不一樣,但它們共享同樣的封裝與接口。

工藝方面,計算模塊全都是Intel 18A,平臺控制器模塊都是臺積電N6,圖形模塊則是Intel 3、臺積電N3E兩種混用,都放置在Intel自家制造的基礎模塊上。

Intel表示,每個模塊采用何種工藝,是基于性能、能效、成本、量產(chǎn)進度、團隊安排等多方面的綜合考慮,會根據(jù)產(chǎn)品需求,靈活選擇合適的代工服務和具體制程。


第一種,CPU 8核心,包括4P+4LPE,類似Lunar Lake,GPU 4核心,內(nèi)存支持LPDDR5X-6800、DDR5-6400,PCIe擴展支持8條4.0、4條5.0。

注意它只有一個填充模塊,因為圖形模塊和計算模塊正好等寬,平臺控制器模塊和計算模塊則正好等長。


第二種,CPU是滿血的16核心,包括4P+8E+4LPE,也就是多了8個E核,GPU還是4核心,內(nèi)存支持提高到LPDDR5X-8533、DDR5-7200,PCIe擴展增強為8條4.0、12條5.0。

它有兩個填充模塊,因為計算模塊加長了很多,平臺控制器模塊也加長了但還是沒趕上計算模塊,只能再加一條填充模塊。

相比其他兩個版本,它支持更多PCIe 5.0通道,適合搭配獨立顯卡和更多的SSD。


第三種,CPU還是16核心,GPU也是滿血的12核心,內(nèi)存支持一方面繼續(xù)提高到LPDDR5X-9600,一方面丟棄了DDR5,PCIe擴展支持又回到了8條4.0、4條5.0。

它也是兩個填充模塊,GPU旁邊的因為圖形模塊的驟然增大而隨之變大了很多,而計算模塊旁邊的因為平臺控制器模塊的縮小而變大了不少。

可以看出,二、三種的計算模塊相同,一、二種的圖形模塊相同,一、三種的平臺控制器模塊相同。

這就是Chiplets設計的好處之一,可以靈活搭配不同模塊,組成不同的產(chǎn)品。


三種不同芯片里,NPU、IPU、Xe媒體與顯示引擎、無線連接性都是完全一樣的,沒有區(qū)別。

至于為何內(nèi)存頻率乃至類型都不一樣,PCIe擴展也不盡相同,這是Intel結合市場定位與目標用戶而設計的。

另外,個人感覺Intel不應該把最強的12核心核顯僅限于搭配16核心CPU,中低端也可以有一些。

當然,它們都是芯片層面的設計,SKU型號的區(qū)別又不一樣,不同OEM也可能會單獨定制,比如更高的內(nèi)存頻率等等。

【P/E核架構解析:小核、超小核的雄起】


12代酷睿以來,Intel處理器一直堅持P+E核的異構混合架構設計,俗稱大小核。

很多用戶對此頗有微詞,坦白來說,大小核在誕生初期確實也存在不少問題,其中之一就是E核性能偏弱。

但是多次迭代升級之后,E核早已不再是弱雞,可以更靈活地承擔更多的計算任務,貢獻甚至超過了之前的虛擬超線程,這也是超線程取消的原因之一,等于讓E核承擔超線程的責任。

另外,LPE核也在最近幾代成為標配,從開始的毫無存在感,到如今已經(jīng)成為主力,完全可以獨立應付日常多任務負載。

當然,線程調(diào)度管理也日益成熟起來,多種核心的調(diào)度分配越來越得心應手,尤其這一代又發(fā)生了很大變化,堪稱一次飛躍!

可以說,經(jīng)過多年發(fā)展,Intel的大小核戰(zhàn)略終于初見成效,P核提升單線程性能和吞吐量,E核提升多線程性能和多任務并行能力,LPE核提升能效,彼此靈活搭配,用在筆記本上可以秒殺AMD,只是說實話,它并不太適合桌面領域,Intel不太應該強硬全面推廣。


P、E、LPE核進化史,特別注意Lunar Lake。

當時官方稱Lunar Lake由P核、E核組成,但現(xiàn)在修訂為P核、LPE核的組合,從而讓LPE核一直都在,E核則出現(xiàn)了一次缺席。

如何卻分E核、LPE核?除了相對頻率高低,更關鍵的是看三級緩存,E核和P核共享一組三級緩存,LPE則沒有三級緩存。

另外,最早的Meteor Lake、最新的Panther Lake都是E核、LPE核采用相同架構,Arrow Lake則是唯一一次E核、LPE架構不同。


Panther Lake再次同時升級了P核、E核架構,代號分別為Cougar Cove、Darkmont,繼續(xù)在保持高能效的同時提升性能,尤其是優(yōu)化提升IPC。

同時,新架構都針對18A工藝做了針對性的設計和優(yōu)化。

雖然說Intel如今的架構基本都和工藝實現(xiàn)了完全解耦,但仍然需要相應的優(yōu)化才能將二者更好地結合在一起,對于提高性能、能效和良品率都有莫大好處,尤其是18A變化太大,首次引入了RibbonFET、PowerVia。



Cougar Cove P核的架構設計細節(jié)沒有過多展開,只介紹了一些大概,包括優(yōu)化PPA(性能功耗與面積)、增強分支預測、更寬調(diào)度(橫跨分配/重命名/退休單元)、18個執(zhí)行端口、升級TLB容量達50%、VEC/INT分離亂序執(zhí)行引擎、AI電源管理、16.67MHz精細頻率調(diào)節(jié)、內(nèi)存消歧等等。

每個核心具備192KB一級指令緩存、48KB一級數(shù)據(jù)緩存、最多3MB二級緩存。

分支預測這個大家應該都不陌生了,是影響現(xiàn)代處理器性能的兩大關鍵因素之一(另一個是緩存),是任何一次架構升級都要重點改進的地方,簡單講就是判斷程序分支的進行方向。

顯然,它的精度和準確率越高,整體的執(zhí)行效率就越高,性能和能效自然也就越高。

Panther Lake的分支預測單元(BPU)很大程度上還是借鑒了Lunar Lake上的高效設計,并繼續(xù)深入優(yōu)化,精度、容量、效率、延遲全面增強。

所謂內(nèi)存消歧,指的是訪存指令數(shù)據(jù)依賴性是基于內(nèi)存地址的,在重命名階段無法確定,只有計算出地址之后才可以確定依賴關系,分為推測性、非推測性,這種機制可以讓性能更加可靠。

值得一提的是,16.67MHz頻率精度,這個來自于Arrow Lake。

另外,PPT上提到最大18MB共享三級緩存,應該指的是P核、E核集體共享的容量,畢竟二者不分家,也就是這代三級緩存最大就是18MB。

Arrow Lake-H上雖然有24MB,但是有6個P核,所以平均下來這代還是多了一點。



Darkmont E核因為也用在新一代至強Clearwater Forest的上邊,所以介紹得很詳細,正好也非常有必要讓大家多了解了解E/LPE核,它們絕非累贅。

總的來說,這次E核的主要變化包括增強分支預測(尋找指令更迅速)、增強深度隊列(并行更好)、增大二級緩存帶寬(每時鐘周期128字節(jié))、動態(tài)預取器控制(不同負載的響應能力更好)、微代碼性能提升(支持更多指令)、內(nèi)存消歧、26個分派端口、AI吞吐量提升,等等。


在前端,Darkmont的主要變化有:更大的64KB一級指令緩存、更寬更深更精準的分支預測、提升50%的指令帶寬(3×32-bit)、9寬度的亂序解碼器(3×3)。


亂序執(zhí)行引擎模塊,具備8個寬度的分配與16個寬度的退休單元(增加33%)、416個入口的亂序窗口(增加62.5%),以及多達26個執(zhí)行端口(增加53%)。


執(zhí)行引擎部分,標量引擎具備8個整數(shù)ALU計算單元(增加100%)、3個載入與4個存儲AGU端口、3個跳轉端口、2個整數(shù)存儲數(shù)據(jù)端口。

矢量引擎具備4個矢量與浮點ALU單元(增加100%)、2個矢量與浮點存儲數(shù)據(jù)端口、4個矢量與浮點堆棧。


緩存子系統(tǒng),二級緩存的緩存帶寬從每時鐘周期64B翻番為128B,具備3個載入與2個存儲單元,而更深的存儲與載入緩沖允許128個二級緩存未命中,還有更高級的預取器。


對比Meteor Lake/Arrow Lake里使用的Crestmont,這一代小核的變化可謂全方位的,從前到后整個架構都進行了全面增強。

當然,這里沒有對比Lunar Lake里的Skymont,但同樣有著全方位的進步。


另外,從這張圖上可以清晰地看出,Lunar Lake、Arrow Lake與Panther Lake之間的CPU核心進化關系,這也是前邊說Panther Lake是二者合體的原因之一。



基于全新的P核、E核架構,Panther Lake的單線程性能對比Lunar Lake、Arrow Lake有了最多10%的提升,但類似性能下的功耗驟然降低了最多40%,能效之高可見一斑。



多線程方面,Panther Lake對比Lunar Lake,類似功耗下的性能高了最多50%。

Panther Lake對比Arrow Lake,類似性能下的功耗又低了最多30%。


Intel還特別聲稱,這一代Darkmont E核的性能,相當于13代酷睿Raptor Cove P核在低功耗下的水準,可以用更低的功耗達成同樣的性能,因此無論性能還是能效都強得可怕。

所以在下一節(jié)你將會看到,LPE都將承擔起更多的責任,直接搞定日常多任務負載,更別提E核了。

【線程調(diào)度器飛躍:LPE核不再打醬油而是主力】

12代酷睿引入P+E異構混合架構的同時,Intel就在硬件層面設計了線程調(diào)度器機制(Intel Thread Director/ITD),配合操作系統(tǒng),調(diào)度不同核心執(zhí)行不同負載。


簡單來說,ITD會自動識別不同的進程和負載,并對它們進行歸類,包括誰更適合運行在哪種核心上、誰的優(yōu)先級更高等等,基于此制作成一份反饋表,交給操作系統(tǒng)調(diào)度器,由其調(diào)用不同核心執(zhí)行不同操作。

顯然,這套機制的關鍵在于識別與分類的精準,保證不同核心分配到最適合自己執(zhí)行的負載,而且一切都得在電光火石之間完成。


處理器硬件與核心架構不斷進化的同時,ITD也在持續(xù)改進升級,讓調(diào)度精度與效率越來越高。

Panther Lake上又完成了一次飛躍,針對更廣泛的應用場景,進一步優(yōu)化和增強了智能線程調(diào)度,包括優(yōu)化分類模型、改進電源管理輸入、擴展繁忙場景覆蓋范圍、同步跨P/E/LPE核執(zhí)行等,另外還設置了一個操作系統(tǒng)隔離區(qū),將需要能效、計算、混合等不同負載分區(qū)域處理。


IDT對于不同類型核心的調(diào)度使用也在不斷優(yōu)化。

Raptor Lake 13/14代酷睿還是單芯片,只有P/E核,負載與核心調(diào)度相對簡單粗暴,就是高負載給P核,低負載給E核,并在二者之間周期性轉移線程。

Meteor Lake增加了LPE核,位于單獨的SoC模塊內(nèi),負載調(diào)度首先考慮它,不夠了再轉移到計算模塊的E核、P核,但是首次出現(xiàn)的LPE核參與執(zhí)行的機會并不是很多,而且涉及到跨模塊調(diào)度,延遲容易偏高。

Lunar Lake只有LPE、P兩種核心,跨度有點大,但好處是放在了一個模塊內(nèi)。

Arrow Lake雖然有LPE、E、P三種核心,而且位于同一模塊內(nèi),但是LPE核只有兩個,難堪大任。

Panther Lake可以說是集前代之長,三種核心置于同一模塊,而且有四個LPE核,足夠承擔日常多任務負載,一般辦公、娛樂用它就足夠了,不夠用了再一次調(diào)度E核、P核,而如果遇到高強度負載,比如生產(chǎn)力創(chuàng)作、基準測試,則可以直接上P核。


比如視頻會議、上網(wǎng)、Office辦公、視頻直播、簡單創(chuàng)作等日常輕度負載,包括多任務并行,可以全權交給4個LPE核搞定,E核、P核幾乎完全休眠,只是偶爾可能會被短暫喚醒。

這是因為如今的LPE核經(jīng)過架構升級,性能已經(jīng)足夠強大,可以說相當于低功耗模式的P核,四個LPE核對付多個低負載是綽綽有余的。

這種情況下,Panther Lake的整機功耗甚至可以比Lunar Lake還要低!


Procyon Office生產(chǎn)力創(chuàng)作這類對于LPE核壓力稍大但不會過大的負載,依然會盡可能交給LPE核執(zhí)行,但可能會有一個LPE核持續(xù)工作。

一旦超出了LPE核全力承受的極限,就會嘗試E核,一旦E核也不足以應付,或者需要太多E核同時工作,就會直接調(diào)動一個P核,但一般也只有一個,并保持持續(xù)輸出,其他P核和全部E核、LPE核則基本轉入休息。

總之原則就是:能用小的不用大的,能用少的不用多的。


CineBench 2024多線程測試,這種需要調(diào)動每一個核心全部能力極限測試,自然就會全力開動,所有核心滿血輸出。



對于游戲來說就復雜一點了,因為不同的游戲,所需要的CPU、GPU資源可能截然不同。

比如《控制》這種,GPU顯卡很容易成為瓶頸的,如果按照一般調(diào)度原則,會讓所有核心參與其中,而且一個或多個P核會持續(xù)工作,顯然造成浪費。

經(jīng)過優(yōu)化增強后,這類負載中就直接讓最弱的LPE核全部休息,主要調(diào)動最強大的P核以保證性能,并盡量調(diào)用E核以盡可能降低功耗,甚至在特定階段可以只讓一個P核持續(xù)工作,其他P+E核盡量休息,兼顧能效。


當然,多核心的調(diào)度絕不是處理器自己的工作,不但需要操作系統(tǒng)的配合,還要考慮電源管理機制、OEM定制工作模式、平臺軟件等多重因素。

比如OEM伙伴可以選擇將能效比發(fā)揮到極致,也可以選擇能效曲線上最合適的點,從而滿足特定的產(chǎn)品,就像輕薄本、創(chuàng)作本、游戲本的需要顯然是截然不同。

好消息是,Panther Lake并不是必須搭配最新版Windows 11,因為IDT的工作是在層面,操作系統(tǒng)只需要配合就行了。


另外很關鍵的一點就是Windows系統(tǒng)的電源計劃,這個對于異構混合架構的發(fā)揮也至關重要。

傳統(tǒng)的Windows電源計劃只有簡單粗暴的高性能、平衡、節(jié)能幾個檔位,都是固定的、靜態(tài)的,而且需要手動選擇切換。

現(xiàn)在,Intel帶來了"智能體驗優(yōu)化器"(Intelligent Experience Optimizer)。

它可以由系統(tǒng)軟件開啟,在平衡模式下進行智能自動切換,按照系統(tǒng)運行需要或者偏性發(fā)揮更高性能,或者偏向發(fā)揮更高能效、更低功耗,期間完全不需要手動干預。

【GPU核顯:Xe3架構首秀 迎來多幀生成】


Intel Xe一直堅持獨顯、核顯兩條腿走路,而且核顯還走到了獨顯的前頭,比如Lunar Lake率先集成了第二代Battlemage Xe2架構,銳炫B580/B570之后才跟上。

Panther Lake則率先集成了新一代Celestial Xe3架構,不過命名上卻劃歸銳炫B系列。

至于新架構獨顯,還不知道什么時候發(fā)布的下一代銳炫C系列才會跟上,但從路線圖上看獨顯版Xe3架構將會叫做Xe3P,應該是代表性能更強。



核顯版Xe3主要是增強了架構靈活性,并在性能上進行了深度優(yōu)化,包括第三代Xe核心、增強光追單元、提升XVE矢量引擎利用率、增強圖形固定功能,等等。

Xe核心的基本內(nèi)部結構完全沒變,還是包含8個512-bit XVE矢量引擎、8個2048-bit XMX AI加速引擎,不過兩種引擎都做了增強,共享一級緩存容量也增大了1/3,來到342KB。

XVE矢量引擎的線程增加了最多25%,新增支持可變寄存器分配、FP8量化,同時繼續(xù)支持SIMD16原生ALU邏輯計算、3路并發(fā)、拓展數(shù)學與FP4。

XMX引擎繼續(xù)提升性能,每時鐘周期操作數(shù)分別提高到TF32 1024、FP16/BF16 2048、INT8 4096、INT4/INT2 8192,整體算力提高到了最多120TOPS,但不支持FP4。

光追單元變化不是很大,支持異步光追的動態(tài)光線管理。

圖形固定功能方面,支持URB管理器,AF各向異性過濾行提升2倍,模板測試速率提升2倍。


同樣頻率下,Xe3的諸多微架構理論指標都有了長足的進步,比如色彩混合+10%、GEMM +50%、FP32/INT32 +50%、光線與三角形交互+1倍、16x AF sRGB +1倍、網(wǎng)格渲染+1.4倍、離散讀取+1.7倍、高寄存器壓力著色器+2.1倍、深度寫入+6.4倍。

當然,這些都是純理論性能指標,不代表實際渲染性能,但也可以看出Xe3作為一次小改,仍有著顯著的提升。


反映到實際性能上,Intel官方宣稱Panther Lake Xe3對比Lunar Lake Xe2的性能可提升超過50%,當然功耗也高得多。

對比Arrow Lake Xe則將能效提升了超過40%,只需要少得多的功耗,就能達成后者的峰值性能。



Xe3的基本組成單元還是渲染切片(Render Slice),不過增大了規(guī)模,每一組從4個Xe核心、4個光追單元加強為6個Xe核心、6個光追單元。



Panther Lake的核顯有兩種版本,一種是4個Xe核心,搭配8/16核心CPU,但不清楚是6核心精簡下來的,還是原生4核心,如果后者和Xe2架構的就一樣了。

它有32個XMX引擎(大致相當于傳統(tǒng)32個傳統(tǒng)流處理器)、32個XVE引擎、4個光追單元、1條幾何流水線、4個采樣器、2個像素后端、4MB三級緩存。

另一種是12個Xe核心,搭配16核心CPU,但規(guī)格上不是4核心版本簡單乘4,而是重新配置過的,包括96個XMX引擎、96個XVE引擎、12個光追單元、2條幾何流水線、12個采樣器、4個像素后端、16MB二級緩存。

大緩存可以顯著降低GPU與CPU之間的互連擁堵問題,實際游戲中最多可節(jié)省達36%。



此外,Xe3架構還帶來了一項重磅技術,XeSS3 MFG多幀生成,甚至AMD都還沒有做到這一點!

它和NVIDIA DLSS 4的多幀生成類似,也是提取已有幀畫面中的運動矢量、深度信息,利用XMX引擎的AI處理能力,結合光流、運動矢量信息進行混合重建,生成新的幀畫面。

它也是一幀可生成最多四幀,能將幀率提升4倍左右,并且可以在驅動中選擇強制2x、3x、4x幀生成,或者由游戲控制。

結合XeSS SR超分技術,它同樣能讓畫面中15/16的像素都是AI生成的,而非原生渲染的。

凡是已經(jīng)支持XeSS2 FG幀生成的游戲,都可以直接支持XeSS3 MFG多幀生成,無需單獨適配。

至于多幀生成能否適配老顯卡,暫未可知。

當然,幀生成、多幀生成都必須配合XeSS LL低延遲技術,要么同時打開,要么同時關閉,從而降低幀生成后的高延遲。

XeSS LL低延遲也有兩種實現(xiàn)方式,一是游戲內(nèi)置原生支持,效果最好,二是通過驅動強制打開,不算完美但總比沒有強。


有趣的是,Intel還開發(fā)了一個小軟件,可以分別顯示原生渲染幀率、多幀生成幀率,可以看到確實做到了4倍提升。


【NPU 5:不盲目追求高算力 更在意高效率】

NPU的歷史不算長,但在各家的AI戰(zhàn)略中,它都是非常關鍵的一環(huán),和CPU、GPU共同組成AI計算矩陣,各有各的長處。

無論是Intel、AMD,還是高通、聯(lián)發(fā)科乃至蘋果,都是這么做的。

Intel一直堅持XPU策略,CPU、GPU、NPU都要利用起來,各司其職。


NPU的優(yōu)勢是超高能效,適合持續(xù)運行特定負載,尤其是后臺負載,比如視頻會議效果、游戲助手、AI助手等。

CPU的優(yōu)勢是快速響應,適合對響應速度要求很高、但負載不是很重的負載,比如語音轉文字。

GPU的優(yōu)勢是算力強、帶寬高,適合對性能需求極高的繁重負載,包括游戲、內(nèi)容創(chuàng)作等。

根據(jù)Intel的觀察,目前的AI負載中,主要跑GPU能占到超過60%,NPU利用率正在快速提升已經(jīng)超過20%,CPU則有10%以上。

當然,CPU、GPU、NPU三者也不是彼此隔離的,同樣一個AI應用,可以將不同負載分配給不同引擎,達到盡可能高的性能和效率。



Lunar Lake上搭載的NPU是第四代(Arrow Lake第三代),具備6個神經(jīng)計算引擎、12個增強SHAVE DSP、優(yōu)化的MAC陣列,最大算力48 TOPS。

Panther Lake NPU升級到了第五代,架構方面沒有太大變化,最大變化就是將每一組MAC陣列的規(guī)模直接擴大一倍,同時減少了前后端的諸多單元,使之更加高效。

可以理解為將原來的兩組MAC合并,共享前后端單元。

這樣一來,NPU 5 NCE(神經(jīng)計算引擎)的數(shù)量從6個變成3個,SHAVE DSP、推理流水線、數(shù)據(jù)轉換單元、激活函數(shù)單元、載入存儲單元等等隨之全部減半,但是MAC陣列大大增強到了12K。

另外還有256KB二級緩存、4.5MB便簽內(nèi)存(SPM)用于存儲占用部分地址空間的數(shù)據(jù)或指令。


Panther Lake NPU的算力最高為50 TOPS,相比Lunar Lake上的48 TOPS幾乎沒有增長,持平AMD,遠低于驍龍X2 Elite系列的80 TOPS。

不過可以看到,Panther Lake NPU的面積比Lunar Lake上縮小了很多,單位面積的算力能是猛增了超過40%。

正是Intel NPU的發(fā)展思路,不盲目追求高算力,因為GPU才是最適合跑高算力負載的,NPU的優(yōu)勢就是高能效,在盡可能小的面積、盡可能低的功耗下發(fā)揮適合的算力,才是最適合NPU的做法。


硬件變化的同時,NPU 5也針對最新AI負載做了優(yōu)化適配,比如新增加了原生FP8數(shù)據(jù)格式,包括E4M3和E5M2兩種格式。

FP8相比于FP16雖然犧牲了一些精度,但是可以大大減少內(nèi)存/顯存占用,吞吐量、能效也都高了一倍。

INT8/FP8都支持16×16×16矩陣計算,每時鐘周期均為4096 MAC,F(xiàn)P16則是16×16×8計算和2048 MAC。

格式轉換單元增強后,針對原生FP32后期處理流水線做了架構上的重構,廣泛支持FP32、FP16、BF16、FP8、INT8、INT4。

至于NVIDIA力推的FP4,Intel表示會保持觀察,視需要而定,畢竟它還遠不是行業(yè)標準,各有各的實現(xiàn)方式(NVIDIA的就直接叫做NVFP4)。

事實上,F(xiàn)P8也還沒有成為IEEE754組織行業(yè)標準,但是Intel強調(diào)對它的支持與行業(yè)主流基本對比,對比NVIDIA支持的FP8差別很細微,并且推理前可以直接轉換,對實際應用和性能表現(xiàn)基本沒有影響。


Panther Lake三大AI引擎的總算力最高為180 TOPS,其中GPU最強達120 TOPS,NPU次之為50 TOPS,CPU最弱為10 TOPS。

這種算力分布,是非常符合它們各自的負載應用需求的。


【IPU 7.5:攝像頭的好搭檔】

IPU,即"圖像處理器",很多人可能會感到陌生,但說起ISP(圖像信號處理器),應該就都很熟悉了。

IPU其實就是Intel單獨給ISP取得一個名字,使之也屬于某種XPU。

IPU或者說ISP最核心的作用之一就是處理來自攝像頭、麥克風的圖像信息,包括曝光、白平衡、對焦等,用在筆記本上最主要的應用場景就是視頻會議。

作為一種集成式ISP,IPU不需要本地獨立緩存、微控制器,可以不受限制地進行更高級時域的處理,直接訪問CPU、GPU、NPU這些計算引擎,而且可編程。


雖然國人在視頻會議中不太喜歡開攝像頭,但歐美截然相反,尤其是疫情后,居家遠程辦公的比例一直很高,視頻會議就成了剛需場景。

數(shù)據(jù)顯示,22%的美國人居家遠程辦公,75%的美國公司經(jīng)常開視頻會議,每人每年花在視頻會議上的時間可能長達50天。

同時,視覺處理也是智能邊緣時代的關鍵任務,包括無人智能化場景、安全監(jiān)控、工業(yè)化、汽車駕駛等。



Intel IPU一直都很低調(diào),但是已經(jīng)有十多年歷史,Panther Lake上已經(jīng)是7.5代,主要變化有三點:

一是支持交錯式HDR(sHDR)。

基于硬件加速,結合長短雙曝光,可獲得更清晰、更真實、色彩更逼真的視頻畫面,最高支持4K分辨率,還能節(jié)省最多1.5W的功耗。

二是支持基于AI的降噪。

可改進暗光環(huán)境下的圖像與視頻質(zhì)量,與CPU/NPU聯(lián)合,提升幀率和銳度,讓畫面更干凈,最高支持500萬像素攝像頭。

三是支持基于AI的本地色調(diào)映射。

還是改進暗光畫質(zhì),包括更好的對比度、消除光暈效果、消除色彩鬼影等等。

另外,IPU 7.5還支持三攝像頭并發(fā),支持1600萬像素拍照與ZSL(零快門延遲)。

如果你的筆記本攝像頭不是很好,IPU 7.5還是挺有幫助的。


【連接:Wi-Fi 7 R2與藍牙6.0】


從改變時代的迅馳筆記本開始,Intel就一直非常重視無線連接,并且始終處于遙遙領先的地位。

Panther Lake率先支持最新的Wi-Fi 7 R2標準規(guī)范,相比初版Wi-Fi 7重點提升了網(wǎng)絡性能、可靠性和能效,包括多連接重配置、受限TWT(目標喚醒時間)、單鏈接eMLSR(增強多連接單射頻)、P2P通道協(xié)調(diào)、MIMO增強、混合自動重復請求(HARQ)、低延遲操作等。

可惜,Wi-Fi 7 R2中的很多新特性,都需要用到6GHz通道,與國內(nèi)無緣。

Panther Lake還支持全新的藍牙6.0,已經(jīng)發(fā)布一年多了,支持藍牙信道探測、基于決策的廣播過濾、監(jiān)視廣播設備、ISOAL(等時適配層)增強、LL擴展功能組、幀間隔更新等新特性,還有更好的藍牙LE音頻,比如Auracast廣播能力。

軟件層面,Intel還帶來了高級藍牙監(jiān)視、雙向QoS管理、AI感知QoS等。



最后,一圖看懂Panther Lake的新變化和提升!

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
全智賢新劇創(chuàng)迪士尼最低收視率

全智賢新劇創(chuàng)迪士尼最低收視率

仙味少女心
2025-10-10 20:03:05
向災區(qū)捐贈物資被收1180元過路費是否合理?胡雷婉拒當?shù)馗刹繙愬X報銷,百色高速:如符合規(guī)定,可補辦手續(xù)退費

向災區(qū)捐贈物資被收1180元過路費是否合理?胡雷婉拒當?shù)馗刹繙愬X報銷,百色高速:如符合規(guī)定,可補辦手續(xù)退費

極目新聞
2025-10-10 12:40:20
沒想到吧?NBA現(xiàn)役球員勝率排名:倫納德72.6%第一

沒想到吧?NBA現(xiàn)役球員勝率排名:倫納德72.6%第一

雷速體育
2025-10-10 10:15:11
賺1.2億!中超巨星瞧不起中國球員:自以為是球星,根本不會踢球

賺1.2億!中超巨星瞧不起中國球員:自以為是球星,根本不會踢球

念洲
2025-10-10 13:34:26
糖尿病不怕甜食、白米,更不怕油膩,真正“怕”的是這5樣東西

糖尿病不怕甜食、白米,更不怕油膩,真正“怕”的是這5樣東西

曉徙娛樂
2025-10-10 14:21:52
我國大閱兵對美國沖擊到底有多大呢?

我國大閱兵對美國沖擊到底有多大呢?

揭秘歷史的真相
2025-10-09 21:23:11
正式官宣,CBA20支球隊主教練名單出爐,僅剩3位洋帥

正式官宣,CBA20支球隊主教練名單出爐,僅剩3位洋帥

男足的小球童
2025-10-10 17:52:06
9元買下最后賣了1150萬!收藏界五大撿漏“神話”

9元買下最后賣了1150萬!收藏界五大撿漏“神話”

收藏大視界
2025-10-09 20:34:05
蔚來年度銷量目標僅完成46% 智能駕駛核心人事震蕩劍指世界模型2.0

蔚來年度銷量目標僅完成46% 智能駕駛核心人事震蕩劍指世界模型2.0

中國能源網(wǎng)
2025-10-10 16:08:04
馬來西亞行李箱棄尸案告破,華裔青年遭謀殺身亡,死者財物未尋獲

馬來西亞行李箱棄尸案告破,華裔青年遭謀殺身亡,死者財物未尋獲

瀟湘晨報
2025-10-10 14:58:26
國安6人合同到期,王剛續(xù)約無望 張源+王子銘不缺下家 2外援該換

國安6人合同到期,王剛續(xù)約無望 張源+王子銘不缺下家 2外援該換

替補席看球
2025-10-10 14:55:33
以媒公布以軍撤離加沙地帶畫面:卡車頻繁運出重型裝備

以媒公布以軍撤離加沙地帶畫面:卡車頻繁運出重型裝備

鳳凰衛(wèi)視
2025-10-10 15:46:02
比亞迪車主,如果再次換車還會選擇比亞迪嗎?網(wǎng)友的回復太真實了

比亞迪車主,如果再次換車還會選擇比亞迪嗎?網(wǎng)友的回復太真實了

華庭講美食
2025-10-08 15:02:39
毛主席書法,11個字認出來的絕非普通人!

毛主席書法,11個字認出來的絕非普通人!

書畫相約
2025-10-10 07:50:04
企業(yè)25%企業(yè)所得稅、20%分紅個稅,核定征收,統(tǒng)統(tǒng)按照0.3%征收!

企業(yè)25%企業(yè)所得稅、20%分紅個稅,核定征收,統(tǒng)統(tǒng)按照0.3%征收!

七橘姐姐
2025-10-09 16:30:15
7歲女孩中秋節(jié)到同學家玩,爸爸一直沒來接她,兩天后發(fā)現(xiàn)其父已在家中離世

7歲女孩中秋節(jié)到同學家玩,爸爸一直沒來接她,兩天后發(fā)現(xiàn)其父已在家中離世

紅星新聞
2025-10-09 12:54:17
日本時薪再次上調(diào),全國平均1121日元!

日本時薪再次上調(diào),全國平均1121日元!

日本留學教授庫
2025-10-09 15:43:32
舒馬赫去世消息尚無可靠來源報道,車王去世謠言曾多次出現(xiàn)

舒馬赫去世消息尚無可靠來源報道,車王去世謠言曾多次出現(xiàn)

揚子晚報
2025-10-10 12:17:23
臺海觀瀾 | 賴清德發(fā)誓絕不投降,此番表態(tài)暗藏玄機

臺海觀瀾 | 賴清德發(fā)誓絕不投降,此番表態(tài)暗藏玄機

經(jīng)濟觀察報
2025-09-22 13:27:15
絕殺!1分險勝!楊瀚森首秀被肘翻在地

絕殺!1分險勝!楊瀚森首秀被肘翻在地

山河入畫屏
2025-10-10 08:37:36
2025-10-10 21:04:49
快科技 incentive-icons
快科技
一起關注每日科技熱點
100350文章數(shù) 259780關注度
往期回顧 全部

數(shù)碼要聞

市占率第一!聯(lián)想銷量領跑全球,AI PC賣爆了

頭條要聞

諾貝爾和平獎揭曉 得主不是特朗普

頭條要聞

諾貝爾和平獎揭曉 得主不是特朗普

體育要聞

世青賽8強全部誕生:亞洲4隊集體回家

娛樂要聞

《宴遇永安》下飯

財經(jīng)要聞

宗馥莉"心腹"嚴學峰被解除立案審查

科技要聞

馬斯克“躺著”也能拿走數(shù)百億美元

汽車要聞

小車·大情緒:雷諾Twingo E-Tech的法式新美學

態(tài)度原創(chuàng)

數(shù)碼
時尚
健康
親子
房產(chǎn)

數(shù)碼要聞

芯盛智能攜手中國移動發(fā)布全國產(chǎn) DDR4 內(nèi)存產(chǎn)品,1X nm 工藝

這件外套好火,迫不及待想穿上了!

內(nèi)分泌科專家破解身高八大謠言

親子要聞

人類幼崽對電話手表有多好奇,寶寶:我又不識字,網(wǎng)友:這孩子怎么又顯老又顯小的

房產(chǎn)要聞

猛! 9月海南樓市榜單出爐!三亞TOP10住宅狂賣82億!

無障礙瀏覽 進入關懷版 国产午夜福利片无码视频| 挺进邻居丰满少妇的身体| 亚洲尺码成人二区| 欧美自拍另类欧美综合图片区 | 日本欧美一区二区三区在线播放| 成人性爱综合网| 欧美亚洲tv| 美女扒开内裤无遮挡网站| 亚洲国产精品久久精品| 人妻1234| 97超碰免费| 奇米7777狠狠狠琪琪视频| 黑人强伦姧人妻日韩那庞大的| 女班长裸体扒开两腿让我桶| 日韩欧美呦呦| www婷婷色| 久久久久久久久久久久AV| 久热这里只有精品99国产6| 久久精品人妻中文视频| 蜜芽MV色欲区一区二区三| www国产精品内射熟女| av资源在线天堂| 婷婷六月亚洲中文字幕| 亚洲精品无码你懂的| 永久免费av网址| www.国产无套精品. com| 国产精品不卡一二三区| 色欲av一区二区三区蜜臀| 国产精品lululu在线观看| 免费看裸裸体美女啪啪无遮挡| 久久精品青草社区| 国产又爽 又黄 免费智库苹果区| 久久丫精品国产| 未满十八18禁止免费无码网站| 久久天堂av综合合色蜜桃网| 精品国产一区二区三区无码蜜桃| 国产精品无码一区二区桃花视频| av最新网址在线观看| 永久久久免费人妻精品| 亚洲伊人成人网99999| 日日碰狠狠添天天爽超碰97|