回顧酷睿Ultra的成長史,會發(fā)現(xiàn)產(chǎn)品誕生到發(fā)布之間,英特爾都承擔著來自各方的多重壓力。而在壓力之下,破釜沉舟的技術革新讓也人印象深刻。從Meteor Lake在架構設計上大改開始,到Lunar Lake的效能、GPU和AI性能大幅更新,兩代酷睿Ultra著實拿出了不少令人驚艷的產(chǎn)品。但無奈成本和市場壓力,讓英特爾以更快的速度進行產(chǎn)品迭代,被反復提及的Panther Lake終于正式擺上了臺面。
Panther Lake從誕生之初就自帶很多光環(huán),它即能擁有Lunar Lake長續(xù)航與AI性能,也具備比Arrow Lake更好的多線程表現(xiàn),更重要的是,它是英特爾18A制程的第一款產(chǎn)品,并且用上了NPU 5和Xe3 GPU,將AI性能提升到了180 TOPS,足足提升50%。
距離Lunar Lake發(fā)布僅一年時間,就能看到產(chǎn)品力再度大幅提升的Panther Lake,光憑這一點,就讓人覺得很不“英特爾”,一點都不擠牙膏。
那么這次擠爆牙膏的性能究竟從何而來?在前段時間,筆者有幸參觀了英特爾位于亞利桑那州的Fab 52晶圓廠,獲取了關于Panther Lake更多細節(jié)。這款即將奠定未來筆記本電腦基調(diào)的處理器,會發(fā)生什么樣的變化,趁著解禁,慣例奉上一年一度的技術淺析。
為了方便閱讀,筆者將Panther Lake的大致變化和特點放在第一章節(jié),如果時間有限,看完第一章節(jié)概覽即可。而如果你對Panther Lake有更多興趣,其余的章節(jié)會向你分享Darkmont E-Core、Cougar Cove P-Core,以及NPU 5、Xe3 GPU的更多細節(jié)。
概覽:來自18A的戰(zhàn)斗力
Panther Lake延續(xù)了Meteor Lake以來多個模塊(Tile)和多種制程拼接的設計理念,盡可能小的模塊能夠更好的良率,并通過英特爾自家的Foveros-S 2.5D實現(xiàn)連接,實現(xiàn)效能、成本的最大化利用。這也給Panther Lake架構設計奠定了一個主要基調(diào),即:通過架構創(chuàng)新實現(xiàn)更廣泛的市場適配、全負載性能擴展與每瓦性能提升。
圍繞這個基調(diào),Panther Lake實現(xiàn)了三個方向的升級:
提升架構靈活性:以滿足更廣泛的市場需求,例如對應游戲本、輕薄本或者邊緣計算場景,可以在Panther Lake同一架構下提供不同的產(chǎn)品;
全負載性能擴展:覆蓋CPU、GPU、NPU三大關鍵升級,全維度性能提升;
能效優(yōu)先:持續(xù)追求每瓦性能表現(xiàn),注重性能與功耗平衡。
借助架構上的可擴展支持,Panther Lake技能夠?qū)崿F(xiàn)Lunar Lake上超強的x86能效表現(xiàn),也可以實現(xiàn)Arrow Lake上諸如多線程的性能擴展能力。更確切的說,英特爾將每一個模塊的IP進行獨立設計,通過成熟且成本可控的Foveros-S 2.5D完成封裝,從而實現(xiàn)第二代可擴展架構(Scalable Fabric Gen 2),滿足不同的細分市場。
這里讓我們先說結論。Panther Lake架構根據(jù)產(chǎn)品細分目前做成了三個版本,坊間聽到的數(shù)個版本多個數(shù)量的CPU與GPU以及I/O搭配,均是基于這三個版本而來,它們分別是:
8 Core + 4 Xe3
計算模塊(Compute Tile)由Intel 18A打造,包含4個P-Core,4個LP E-Core,共計8核。計算模塊內(nèi)還包含用于攝像頭增強的IPU 7.5,50 AI TOPS算力的NPU 5,8MB內(nèi)存?zhèn)染彺妫瑑?nèi)存最高支持LPDDR5x-6800,DDR5-6400。
GPU模塊(GPU Tile)為4個Xe3核心,包含4個光線追蹤單元。平臺控制模塊(PCD Tile)提供8條PCIe 4.0和4條PCIe 5.0,共計12條PCIe通道,同時最高支持4個Thunderbolt 4,2個USB 3.2,8個USB 2.0,Wi-Fi 7(R2),藍牙6.0。
可以看到,這個版本是唯一不帶E-Core的版本,定位于超低電壓版本。在線程管理上與現(xiàn)在的Lunar Lake類似。
16 Core + 4 Xe3
計算模塊(Compute Tile)由Intel 18A打造,包含4個P-Core,8個E-Core,4個LP E-Core,共計16個核心。同時也包含IPU 7.5,50 AI TOPS算力的NPU 5,8MB內(nèi)存?zhèn)染彺?,?nèi)存最高支持LPDDR5x-8533,DDR5-7200。
GPU模塊(GPU Tile)為4個Xe3核心,包含4個光線追蹤單元。平臺控制模塊(PCD Tile)提供8條PCIe 4.0和12條PCIe 5.0,共計20條PCIe通道,同時最高支持4個Thunderbolt 4,2個USB 3.2,8個USB 2.0,Wi-Fi 7(R2),藍牙6.0。
這個版本擁有更多的PCIe通道,以及提供了對DDR5內(nèi)存的多樣化支持,明顯是為了匹配獨立顯卡版本的游戲筆記本、移動工作站所準備的。
16 Core + 12 Xe3
計算模塊(Compute Tile)由Intel 18A打造,包含4個P-Core,8個E-Core,4個LP E-Core,共計16個核心。同時也包含IPU 7.5,50 AI TOPS算力的NPU 5,8MB內(nèi)存?zhèn)染彺?,?nèi)存最高支持LPDDR5x-9600。由于更多的連接通道留給了12核Xe3,因此不再額外支持DDR5內(nèi)存。
GPU模塊(GPU Tile)高達12個Xe3核心,包含12個光線追蹤單元,僅憑GPU模塊就能提供120 AI TOPS算力,配合CPU的10 AI TOPS和NPU 5的50 AI TOPS,在XPU的調(diào)度協(xié)同下,整個處理器可以獲得180 AI TOPS算力,相對上一代Lunar Lake提升了50%。順帶一提,AMD因為缺乏XPU協(xié)同調(diào)度能力,不同CPU、GPU、NPU之間的算力是比較難實現(xiàn)協(xié)同調(diào)度的,因此AMD在宣傳AI性能的時候,會有意規(guī)避這一點。
平臺控制模塊(PCD Tile)提供8條PCIe 4.0和4條PCIe 5.0,共計12條PCIe通道,同時最高支持4個Thunderbolt 4,2個USB 3.2,8個USB 2.0,Wi-Fi 7(R2),藍牙6.0。
在筆者看來,這也是英特爾工程師們對于Panther Lake定義的完全體,也是旗艦級便攜筆記本、Windows游戲掌機的最終展現(xiàn)形態(tài)。
這樣的架構優(yōu)勢在于,通過Foveros-S 2.5D,在封裝下就可以滿足應付所有場景的設計,GPU模塊屬于獨立IP,不僅可以交給臺積電制造,還可以根據(jù)產(chǎn)品安排提供諸如4核Xe3或者12核Xe3版本,所有的I/O IP都集中在了平臺控制模塊(Platform Controller Tile,PCD Tile)中,主要的計算單元、媒體引擎則聚集在計算模塊(Compute Tile)中。
值得注意的是,Panther Lake中采用英特爾18A制程工藝主要是指計算模塊(Compute Tile),GPU模塊(GPU Tile)和平臺控制模塊(PCD Tile)則根據(jù)不同的版本使用不同的工藝制程,比如4核Xe3來自于Intel 3制程工藝,12核Xe3則來自于臺積電。
三款型號的整體對比圖如下。英特爾在正式推出酷睿Ultra 300系列產(chǎn)品的時候,會根據(jù)產(chǎn)品定位對這三個型號進行一定核心刪減,從而細分出不同定位的產(chǎn)品。而文章中提到的IPU 7.5,NPU 5,Xe3核顯以及連接性等細節(jié),文章的后半部分都會提供詳細的解釋。
所有核心和電源管理通過升級后的Intel Thread Director線程調(diào)度器完成,在調(diào)度邏輯上,按照LP E-Core,E-Core,再到P-Core進行分配。升級后的線程調(diào)度器擴展了實際繁忙的應用范圍,支持跨核心類型的并發(fā)執(zhí)行反饋,因此也可以更好的避免效能核心搶性能核心工作的尷尬。
即插即用(PnP)決策從軟件層遷移到了SoC硬件層,以實現(xiàn)更精確的功耗控制,保證在AC/DC電源連接模式、效能/續(xù)航模式、Windows/Chrome/Linux跨平臺系統(tǒng)下電源控制的一致性。
另外,Panther Lake也宣布正式支持LPCAMM2內(nèi)存模組,在英特爾DEMO區(qū)筆者看到了來自美光英睿達LPCAMM2 8533 MT/s產(chǎn)品展示。
無論對比酷睿Ultra 200系列的Lunar Lake還是Arrow Lake,Panther Lake的提升都是驚人的。
在CPU方面,Panther Lake相比Lunar Lake單線程性能提升高于10%,相同功耗下,Panther Lake相比Lunar Lake、Arrow Lake在多線程性能表現(xiàn)上50%的提升。其中Panther Lake相比Arrow Lake,在相同的多線程性能下,功耗還可以降低30%。
GPU部分提升則更為明顯,12核Xe3可以直觀的帶來50%的性能提升。
NPU 5部分則是AI TOPS/面積利用率提升了40%,換而言之,NPU 5雖然僅從Lunar Lake NPU 4的48 TOPS提升到了現(xiàn)在的50 TOPS,但占用面積小將近一半。
從整體來看,Panther Lake相對Lunar Lake降低了10%的功耗,相對Arrow Lake降低了40%的功耗。另外由于IPU 7.5的性能加強,Panther Lake相對Lunar Lake在相同的硬件HDR場景下,功耗可以降低1.5W。
基本上來說,Panther Lake通過更細的模塊化架構、18A制程工藝、組件升級實現(xiàn)了靈活擴展、性能提升、效能提升的核心目標,因此也不限于CPU、GPU、NPU的加量,還在于線程調(diào)度器、電源管理、跨場景應用體驗一致性的提升。在概覽結束后,接下來讓我們進入正題。
Darkmont E-Core:多線程與節(jié)能的主角
現(xiàn)在我們知道,Panther Lake的計算模塊(Compute Tile)帶來了兩個全新的IP,分別是Cougar Cove P-Core和Darkmont E-Core,兩款核心都針對18A制程工藝進行優(yōu)化,無論P-Core還是E-Core都提升了IPC性能,并且在較低的功耗下?lián)碛懈玫谋憩F(xiàn),確保筆記本在離電狀態(tài)下?lián)碛邢嗤男阅?,以及擁有更長的續(xù)航。
Panther Lake多線程提升的優(yōu)勢在于使用了最多12個Darkmont作為E-Core提供多線程支持,進而讓Panther Lake多線程能力和節(jié)能上有顯著提升。
值得注意,Darkmont不僅用在E-Core中,也用在LP E-Core中,同時也是至強6+(Xeon 6+)處理器Clearwater Forest的計算核心,幫助至強6+一舉拿下288核壯舉,后續(xù)我們會有專門的文章進行詳細說明。
與Meteor Lake和Lunar Lake的E-Core相似,每4個E-Core為1個計算集群,無論哪個型號,E-Core和LP E-Core數(shù)量都將是4的倍數(shù)。每1個計算集群E-Core會共享4MB L2緩存。
E-Core和LP E-Core雖然在架構上相同,但是緩存的訪問策略是不一樣的。LP E-Core不直接與L3緩存(即LLC末級緩存)直接連接,而是通過一致性代理(Coherency Agent,CA)實現(xiàn)跨集群的數(shù)據(jù)同步與仲裁。
E-Core則是由L3緩存(即LLC末級緩存)上的一致性代理(Coherency Agent,CA)進行統(tǒng)一調(diào)度。
這里有一個小彩蛋。Lunar Lake的E-Core實際上也是不與LLC末級緩存環(huán)(L3緩存環(huán))連接,如果按照Panther Lake的定義,Lunar Lake的E-Core應該屬于LP E-Core,這樣也正好與Panther Lake的8 Core版本類似。實際上由于一致性代理(Coherency Agent,CA)的存在,兩者在溝通的邏輯層不存在任何阻礙,主要還是根據(jù)能耗策略對核心進行命名,方便了解。而事實上,在最新的Roadmap中,英特爾也是這么定義的。
現(xiàn)在我們把關注點放到核心微架構上。這次E-Core架構代號為Darkmont,不僅應用在Panther Lake上,至強6+處理器同樣使用Darkmont E-Core作為核心,進而構建出288核的強力產(chǎn)品。
Darkmont可以看成上一代酷睿Ultra 200系列中E-Core的Skymont的進階,例如在執(zhí)行引擎(Execution Engine)中增加多項式乘法單元(CLMUL)硬件單元,同時亂序引擎的退役(Retirement)也提升至16寬,比Crestmont的8寬和Skymont的12寬都要高。
這里英特爾使用的是上一代至強E-Core Crestmont與Darkmont進行對比,主要圍繞前端、亂序引擎、執(zhí)行引擎、內(nèi)存子系統(tǒng)、性能與能效提升的維度展開。
先是前端(Front-End)設計提升了指令處理效率。Darkmont擁有64KB指令緩存,結合增強型分支預測期,能夠減少指令獲取延遲。指令帶寬支持3x 32bit并行,對比Crestmont提升50%,并采用3個3寬亂序解碼器(3-wide out-of-order decoders),解碼能力對比Crestmont從6寬提升至9寬,以此獲得更好的指令解碼并行度。
Darkmont與Skymont一樣,微操作隊列(μOP)容量從Crestmont的64項擴展至96項,減少指令在隊列中的阻塞。
亂序引擎(Out-of-Order Engine)用于增強并行處理能力。Darkmont支持8寬分配(Allocation/Rename),相比Crestmont的6寬分配有所提升。由于處理器流水線中,指令的執(zhí)行是一個多階段的過程,當一條指令完成了其所需的所有操作后,它就會從亂序引擎中退役(Retirement),以便為下一條指令騰出空間。這里英特爾將Crestmont的8寬退役(Retirement)增加到16寬,也相對于Skymont的12寬退役有所提升。
另外Darkmont亂序執(zhí)行窗口容量達到416項目,遠超Crestmont的256項,能更充分地發(fā)現(xiàn)程序中的數(shù)據(jù)并行性,減少指令依賴導致的等待。調(diào)度端口從Crestmont的17個增加至26個,可同時調(diào)度更多操作至執(zhí)行單元。
接下來是執(zhí)行引擎(Execution Engine)針對計算與向量處理進行優(yōu)化,在執(zhí)行引擎中分為標量引擎(Scalar engine)和向量引擎(Vector engine)。標量引擎包括8個整數(shù)ALU(Scalar ALU)、3個跳轉(zhuǎn)端口(JMP),向量引擎包括4個128b向量FMA(浮點乘加)單元、4個向量/浮點ALU、2個向量/浮點存儲數(shù)據(jù)端口,地址生成包括4個AGU(地址生成單元)、2個整數(shù)存儲數(shù)據(jù)端口。
值得注意的是,多項式乘法(Carry-Less Multiplication, CLMUL)是此次在執(zhí)行引擎中新增的單元,Skymont中是沒有的。
接下來是核心內(nèi)存子系統(tǒng)(Core Memory Subsystem),主要聚焦低延遲、高帶寬與高容錯。包括32KB支持ECC的L1數(shù)據(jù)緩存,4MB L2共享緩存。L2緩存帶寬從Crestmont的64B/cycle提升至128B/cycle,數(shù)據(jù)吞吐量翻倍,相對于Skymont持平。
在內(nèi)存訪問優(yōu)化方面,提供3路加載(Load)、2路存儲(Store),配備深度加載/存儲緩沖,支持128個未完成的L2缺失(Outstanding L2 Misses),減少內(nèi)存等待導致的性能損耗?,F(xiàn)在全緩存層級集成高級預取器,能識別多種數(shù)據(jù)流模式,提前加載數(shù)據(jù)。在容錯方面,支持數(shù)據(jù)污染防護(Data Poisoning)、可恢復機器檢查(Recoverable Machine Check)、核心鎖步(Core Lockstep),并兼容52位物理地址。
這里放出Crestmont與Darkmont的對比:
從能效表現(xiàn)上,Darkmont相對Crestmont有著明顯優(yōu)勢,得益于前端帶寬、亂序窗口和執(zhí)行端口擴容,IPC(每時鐘周期指令數(shù))顯著提升。同時Darkmont也幫助英特爾至強6+性能相比至強6780E提升1.9倍性能,全負載范圍內(nèi)能效提升23%,服務器整合比達到8:1,這對歐美供電不平均地區(qū)而言很有吸引力??梢赃@么說,Darkmont無論在至強還是Panther Lake上,都發(fā)揮了很重要的作用。
Cougar Cove P-Core:18A的高光時刻
Panther Lake的18A制程工藝可以總結為4個關鍵技術點,即:
庫與陣列啟用(Library and array enabling):確保核心IP在18A工藝下穩(wěn)定運行
密度優(yōu)化(Density):提升芯片單位面積的晶體管密度
供電設計(Power delivery):適配先進工藝的低功耗供電需求
信號完整性(Signal integrity):減少高頻信號干擾,保障核心穩(wěn)定運行
在18A的條件下,Cougar Cove P-Core主打單線程性能與高吞吐,并且在架構上有所優(yōu)化。包括配備18個執(zhí)行端口(Execution ports),深度指令窗口(Deep Instruction Window)為576條,支持8寬解碼(Decode)、8寬分配(Allocation/Rename)。同時TLB(Translation Lookaside Buffer)容量提升1.5倍,內(nèi)存消歧(Memory disambiguation)減少內(nèi)存訪問沖突,也使得流水線更為穩(wěn)定靈活。
Cougar Cove在架構上繼承自Lion Cove,因此多層緩存設計中包含了1個具備4周期延遲的48KB L0D緩存,1個9周期延遲的192KB L1D緩存,以及1個17周期的3MB L2緩存。這意味著在9個時鐘周期內(nèi),可以獲得L0D+L1D的240KB緩存。同時數(shù)據(jù)轉(zhuǎn)換后備緩沖區(qū)(DTLB)為128項,以提升命中率。
Cougar Cove還會通過3個地址生成單元(Address Generation Unit,AGU)以進一步提升存儲性能。負載單元和存儲單元管道數(shù)量均達到3個,在英特爾早年的架構設計中,負載單元通常多于存儲單元。可以看到,CPU中投入更多緩存設計,以應對CPU系統(tǒng)愈發(fā)復雜的問題已經(jīng)變成未來趨勢。
此外,Cougar Cove還具備AI電源管理,AI能夠以自適應方式動態(tài)響應實際的實時操作條件,以實現(xiàn)更高的持續(xù)性能。以往的固定檔位調(diào)節(jié)只能以100MHz進行調(diào)整,現(xiàn)在更細的時鐘粒度可以做到16.67MHz為一個間隔,從而獲得更好的功耗管理。
此外,Cougar Cove還包括6個整數(shù)ALU單元(Arithmetic Logic Unit),3個跳轉(zhuǎn)單元(Jump Units),3個移位單元(Shift Units),3個64乘法單元。Cougar Cove與Lion Cove一樣,注重構建大規(guī)模分區(qū)(Partition)以減少物理邊界,一次提升硅片面積利用率,降低設計成本和復雜度。
另外分支預測(BPU)也是Cougar Cove的關鍵模塊,主要集中提升效率,提升容量減少BPU延遲,同時結合I-TLB和I-CACHE協(xié)同工作,確保分支預測后指令快速獲取,提升整體執(zhí)行效率。
緩存和線程調(diào)度
在進入GPU模塊章節(jié)之前,這里有必要額外開個小章節(jié)來說明緩存系統(tǒng)和線程調(diào)度。主要圍繞內(nèi)存?zhèn)染彺妫∕emory-Side Cache)和新版的線程調(diào)度器(Intel Thread Director)展開。
內(nèi)存?zhèn)染彺妫∕emory-Side Cache)是Panther Lake處理器中用于優(yōu)化內(nèi)存訪問效率的關鍵組件,核心作用是幫助處理器改善延遲、提升帶寬、降低功耗。無論任何版本的Panther Lake,都增加了單獨的8MB內(nèi)存?zhèn)染彺妫∕emory-Side Cache)。
內(nèi)存?zhèn)染彺婵勺鲎鳛镈RAM內(nèi)存與計算模塊、I/O模塊之間的中間緩存,可將高頻訪問的數(shù)據(jù)暫存于本地,以減少核心直接訪問DRAM內(nèi)存的次數(shù),從而顯著降低數(shù)據(jù)讀取延遲,同時提升單位時間內(nèi)的數(shù)據(jù)傳輸帶寬,保障多任務、高負載下的性能穩(wěn)定。
同時內(nèi)存?zhèn)染彺孢€可以答復減少計算模塊與DRAM內(nèi)存的數(shù)據(jù)交互量,降低DRAM Traffic。由于DRAM功耗與數(shù)據(jù)交互頻率直接相關,內(nèi)存?zhèn)染彺娴某霈F(xiàn)能夠進一步幫助Panther Lake降低功耗,提升每瓦性能。
除此之外,內(nèi)存?zhèn)染彺孢€可以給I/O、GPU、IPU和媒體引擎體統(tǒng)緩存支持,優(yōu)化不同組件之間內(nèi)存交互效率,避免諸如視頻編解碼、圖形渲染時密集I/O任務導致的內(nèi)存訪問瓶頸。
內(nèi)存?zhèn)染彺媸嵌嗄K組合之下必然且創(chuàng)新型的產(chǎn)物,能夠很好的提升全平臺協(xié)同性能。
這時候 Panther Lake的緩存一致性與系統(tǒng)協(xié)同也成為內(nèi)存?zhèn)染彺婧凸蚕砭彺娑夹枰鉀Q的問題。針對這一情況,Panther Lake在緩存系統(tǒng)中設置了一致性代理(Coherency Agent,CA)和歸屬代理(Home Agent,HA)作為協(xié)同。
其中一致性代理(Coherency Agent,CA)存在于L3共享緩存和LP E-Core的L2共享緩存中,主要作用是實現(xiàn)集群內(nèi)及跨集群的數(shù)據(jù)同步與仲裁,并且作為末級緩存(LLC),即L3共享緩存、P-Core、E-Core與第二代可擴展架構(Scalable Fabric Gen 2)的接口。主要用于監(jiān)測集群內(nèi)核心對緩存數(shù)據(jù)的訪問請求(如讀、寫、修改),避免多個核心同時操作同一數(shù)據(jù)導致的不一致問題。
不同集群之間的一致性代理(Coherency Agent,CA)還通過第二代可擴展架構(Scalable Fabric Gen 2)實現(xiàn)跨集群的緩存數(shù)據(jù)同步,確保全處理器范圍內(nèi)的數(shù)據(jù)準確性。并從而簡化核心、緩存、GPU模塊、平臺控制模塊(PCD Tile)之間數(shù)據(jù)交互流程,減少延遲,進而提升數(shù)據(jù)訪問效率。
內(nèi)存測緩存(Memory-Side Cache)則采用的是歸屬代理(Home Agent,HA),需要承擔內(nèi)存訪問管理與系統(tǒng)級一致性保障,協(xié)調(diào)全處理器的DRAM內(nèi)存操作。包括對所有DRAM訪問請求的排序,確保內(nèi)存操作按邏輯順序執(zhí)行,避免因并發(fā)訪問導致的內(nèi)存數(shù)據(jù)混亂。管理內(nèi)存地址映射,定位數(shù)據(jù)在內(nèi)存或緩存中的存儲位置,優(yōu)化數(shù)據(jù)讀取路徑。
歸屬代理(Home Agent,HA)還會與一致性代理(Coherency Agent,CA)協(xié)同工作,當緩存中無目標數(shù)據(jù)時,歸屬代理(Home Agent,HA)負責發(fā)起內(nèi)存訪問請求,并將獲取的數(shù)據(jù)分發(fā)至對應的核心或緩存,同時更新系統(tǒng)一致性狀態(tài),保障數(shù)據(jù)在緩存與內(nèi)存間的同步。
從整體上來看。一致性代理(Coherency Agent,CA)注重集群內(nèi)部、跨集群之間的緩存數(shù)據(jù)一致性維護,歸屬代理(Home Agent,HA)注重DRAM全系統(tǒng)訪問排序與管理,從而實現(xiàn)多核心、多模塊架構下的高效協(xié)同能力。
在Darkmont E-Core章節(jié)中,我們解釋了Lunar Lake E-Core不接入L3緩存環(huán),在物理上更像Panther Lake的LP E-Core。因此在Panther Lake配置中,每個P-Core擁有3MB L2緩存,每4個E-Core共享L2緩存,LP E-Core的L2緩存對比Meteor Lake和Arrow Lake在容量上是翻倍的。
線程調(diào)度器(Intel Thread Director)一直是處理器中調(diào)度不同核心工作的重要模塊,特別是從Meteor Lake混合核心開始,調(diào)度功能變得愈發(fā)重要。
在調(diào)度理念上,Panther Lake線程調(diào)度器(Intel Thread Director)遵循LP E-Core、E-Core、P-Core的順序,并進行了關鍵性增強。比如針對P-Core和E-Core優(yōu)化分類模型,擴展繁忙的場景應用。
同時PC軟件和游戲已經(jīng)呈現(xiàn)出集中化的趨勢,大部分軟件和游戲已經(jīng)能夠被輕松識別,因此線程調(diào)度器(Intel Thread Director)能夠更好的對正在運行的應用進行識別,增強跨場景線程表現(xiàn),自動適配辦公軟件、游戲、渲染等應用的不同負載。另外線程調(diào)度器也會協(xié)同軟件系統(tǒng)OS實現(xiàn)效能、混合、無分區(qū)多種模式調(diào)度,針對性的匹配Team、Cinebench、DirectX 12游戲線程調(diào)度優(yōu)化。
伴隨著線程調(diào)度器(Intel Thread Director)升級,Panther Lake也打通了IP到OS垂直整合的鏈路,從Cougar Cove和Darkmont IP的架構優(yōu)化,到線程調(diào)度,再到軟件層的電源管理策略,都可以更好實現(xiàn)。
例如OEM自定模式中可以提供更精密的性能、功耗調(diào)整,動態(tài)的提供電源分配,提供能效比。在現(xiàn)場,英特爾展示了Panther Lake在CINEBENCH 2024單線程場景和UL Procyon Office中,基準性能提升19%。
另外,用戶也可以通過Intel Intelligent Experience Optimizer自動優(yōu)化Windows電源管理模式,自動獲得續(xù)航與性能上的動態(tài)調(diào)節(jié)。原本筆記本模式調(diào)整可能只有2-3檔模式調(diào)整,比如省電-平衡-性能,現(xiàn)在通過Intel Intelligent Experience Optimizer,筆記本自己就可以擁有數(shù)百檔的動態(tài)自能調(diào)節(jié),這個過程無需用戶手動。
Xe3 GPU與XeSS-MFG多幀生成
即便是獲得了NVIDIA的投資,英特爾Xe3 GPU從目前來看仍有著自己的野心。如果不出意外,正式發(fā)布的時候,搭配12核Xe3 GPU的產(chǎn)品很可能會是市面上的最強核顯,游戲掌機和輕薄筆記本處理能力再向上提升一個層級,這也是筆者最為期待的。
在現(xiàn)場,英特爾還大方展示了更強悍的Xe3P GPU的存在,至于用在什么地方,英特爾表示以后再告訴我們,但可以確定的是,Battlemage獨顯已經(jīng)箭在弦上。
Xe3 GPU會根據(jù)不同配置給與4核到12核的配置,制程工藝包括Intel 3和臺積電N3E,這也從側面展示了Panther Lake極強的擴展能力。
Xe3作為英特爾新一代圖形加速核心,展現(xiàn)了極強的紙面性能,相對上一代Lunar Lake GPU可以獲得50%的圖形性能提升,50%的AI TOPS提升,相較于Arrow Lake H GPU有40%的能效比提升。
在底層架構上,Xe3依然沿用了渲染切片(Render Slice)設計,包括4Xe和12Xe兩種變體。每一個Xe3 Core內(nèi)都包含8個512-bit向量引擎(XVE),8個2048-bit矩陣加速引擎(XMX)。每個Xe3內(nèi)海擁有1個光線追蹤單元(RTU),以及用于光線追蹤的BVH緩存,支持動態(tài)光線管理與異步光線追蹤。
在緩存系統(tǒng)上,Xe3擁有16MB L2緩存,12個采樣器(samplers)和12個像素后端(pixel backends)。
每個Xe3 Core還會匹配1個XMX引擎,單個XMX引擎現(xiàn)在可以在每個時鐘周期內(nèi)處理1024次TF32運算、2048次FP16/BF16運算、4096次INT8運算、8192次INT4/INT2運算,相比Xe2提升33%。整體GPU AI算力達120TOPS,進而讓XeSS2和XeSS-MFG多幀生成提供AI砝碼,同時也能更好的滿足AI創(chuàng)作的任務。
在功能上,Xe3與微軟合作,支持DirectX Cooperative Vectors,將矩陣乘法加速引入著色器,提供2倍各向異性過濾速率、2倍模板測試速率,同時命令前端(Command Front End)提升25%現(xiàn)成,支持可變寄存器分配與FP8反量化。
Xe3架構相比Xe2有明顯優(yōu)勢,例如在無SIMD32溢出+可變寄存器的場景中,性能可以達到Xe2的7.4倍,計算著色器可達2.7倍,計算與像素著色器、異步計算調(diào)用場景中,Xe3性能也普遍在Xe2的1.5倍到3.1倍之間。
Panther Lake在單幀延遲上也有明顯提升。同樣場景下,12核Xe3單幀延遲可以從45.44ms降低至22.84ms。
AI的增強讓XeSS也進階到超分辨率(XeSS-SR)搭配XeSS-MFG多幀生成(Multi-Frame Generation)的形式。在邏輯上與DLSS-MFG多幀生成類似,無需借助硬件光流加速器,通過深度、運動向量(Motion Vectors),讓1幀原始畫面獲得最高4幀的畫面輸出,配合超分XeSS-SR,效果可以獲得成倍的提升。
在現(xiàn)場,英特爾通過DEMO演示了第一人稱射擊游戲,雖然看不到實際幀率,實際效果已經(jīng)與獨顯旗鼓相當了。
AI增強游戲畫質(zhì)并非沒有缺點。為了避免生成畫面導致的畫質(zhì)劣化,英特爾會通過Presentmon增強工具監(jiān)控原生畫面與生成畫面的動畫誤差,確保流暢度穩(wěn)定性。同時生成幀會結合光流投影、運動向量、深度差值等多個維度,確保生成畫面與原生畫面風格轉(zhuǎn)一致,進而減少偽影和卡頓。另外與NVIDIA DLSS 4一樣,在游戲中也會提供2X到4X幀生成,允許用戶自行調(diào)節(jié)。
降低系統(tǒng)延遲和加載時間也是Panther Lake的關注點。英特爾提出了云端預編譯著色器概念。即在云端收集游戲著色器后,通過預編譯優(yōu)化和圖形分發(fā)服務推送到終端,在游戲安裝的同時就會直接加載優(yōu)化后的著色器,以降低首次啟動游戲的等待時間。
另外Panther Lake還引入了Intelligent Bias Control v2防止游戲幀率驟降,通過固件啟發(fā)式算法(Firmware Heuristics),提供 GPU 時鐘頻率提示(Hinting)與平衡(Balancing),優(yōu)先保障GPU游戲性能,自動為Xe Core配置更多功耗預算,避免因功耗不足導致的性能瓶頸。
在英特爾的展示中,12核Xe3在17W TDP、1080p中等畫質(zhì)下,表現(xiàn)遠超Xe2的Intel Arc 140V GPU,包括《黑神話:悟空》《戰(zhàn)神:諸神黃昏》《賽博朋克 2077》平均FPS提升10%,99% Low FPS提升25%,卡頓大幅減少。
需要注意的是,Xe媒體引擎獨立于GPU模塊,內(nèi)置在計算模塊中,提供了AVC、H.265(HEVC)、VP9、XAVC-H/S/HS支持,新增10-bit AVC編解碼,這也使得Panther Lake更為專業(yè)。
NPU 5:原生支持FP8
Panther Lake中的NPU 5相比Lunar Lake NPU 4進行了大幅更新,首次原生支持FP8,在面積更小的情況下獲得更高的性能。同時NPU 5也很克制的將AI算力控制在了50 TOPS,如果按照NPU 4的面積,NPU 5是有機會做到性能成倍提升的。
NPU 5同樣使用了模塊化設計,包含3個神經(jīng)計算引擎(NCE),多個數(shù)字信號處理器(SHAVE DSP)。其中每個神經(jīng)計算引擎(NCE)包含MAC陣列(矩陣乘法與卷積陣列),支持INT8、FP8和FP16,單周期可處理4096次INT8/FP8運算、2048次FP16運算。
NPU 5內(nèi)還包含4.5MB Scratchpad RAM作為臨時存儲,256KB L2緩存,是NPU 4的兩倍。
由于NPU 5原生支持FP8,使得在處理BF8/E4M3、HF8/E5M2等FP8數(shù)據(jù)類型時,內(nèi)存占用可以減少50%,吞吐量提升2倍,在Stable Diffusion任務中,能耗上會有更好的表現(xiàn)。同時NPU 5還支持ReLU、PReLU、GELU、Tanh等非線性激活函數(shù),重構數(shù)據(jù)轉(zhuǎn)換流水線,原生支持FP32/FP16/BF16/FP8/INT8/INT4精度轉(zhuǎn)換。
NPU 5帶來的50 TOPS算力主要用于AI PC場景中本地LLM推理、AI助手、實時圖像增強等工作。CPU的10 TOPS則用來完成VNNI和AVX輕量AI任務,GPU的120 TOPS則是用來支持游戲和內(nèi)容創(chuàng)作AI重載任務。
在XPU的統(tǒng)一調(diào)度下,Panther Lake總計可以做到180 TOPS的AI算力,相對于Lunar Lake提升50%。
在DEMO現(xiàn)場,英特爾展示了諸多基于Panther Lake平臺實現(xiàn)的AI應用,以證明產(chǎn)品對現(xiàn)有AI應用已經(jīng)提供了很好的兼容性。
IPU 7.5:AI之外的圖像增強
不是所有的場景處理都需要AI硬件進行增強的,例如攝像頭和屏幕HDR增強,實際上都可以通過IPU完成。Panther Lake IPU 7.5作為最新版本的IPU,主要圍繞視頻會議、智能邊緣視覺場景展開,這也是Panther Lake可以應用于邊緣計算的關鍵核心之一,在工控領域,自動駕駛系統(tǒng)、醫(yī)療患者監(jiān)測、安全防護監(jiān)測、工業(yè)質(zhì)量控制,都可以依賴于IPU 7.5來完成。
這也是英特爾在整合部門之后,Panther Lake還將承擔起PC領域之外的業(yè)務擴展工作。
IPU 7.5作為圖像信號處理器(ISP)的核心,被用于解決場景、光學元件和傳感器帶來的成像問題,處理流程涉及場景、光學元件、傳感器,并最終輸出包運動、光照、色彩、深度等圖像信息。具有處理速度快,節(jié)能,專職專用的特點。自從英特爾在2014年推出IPU 2開始,十年期間IPU升級沒有間斷過。
Panther Lake IPU 7.5最高支持3個攝像頭并發(fā),核心處理模塊包含傳感器與光學引擎(鏡頭與色彩補償、高畫質(zhì)去馬賽克等)、噪聲與紋理引擎(空間降噪、AI 降噪等)、色彩處理引擎(自適應色彩還原、裁剪縮放等),還具備相機 3A 統(tǒng)計(自動曝光、自動白平衡、自動對焦)與防抖功能。
得益于8MB內(nèi)存?zhèn)染彺嬷袣w屬代理(Home Agent,HA)可以對所有模塊的換從調(diào)動,IPU 7.5還可以與CPU、GPU、NPU產(chǎn)生聯(lián)動,進而實現(xiàn)AI增強圖像處理,突破本地SRAM對時間域處理(Temporal Processing)的限制。
IPU 7.5可實現(xiàn)最高500萬像素攝像頭在弱光環(huán)境下的圖像清晰度,提升幀率與銳度,優(yōu)化色調(diào)映射。另外還可以獲得AI色調(diào)映射可增強對比度,避免光暈、色彩失真,保證時間域行為穩(wěn)定。
在播放4K HDR視頻時,IPU 7.5通過協(xié)同多個傳感器,通過雙曝光與自適應曝光控制,保留高光與陰影細節(jié),同等畫質(zhì)下,幫助筆記本節(jié)省1.5W功率。
另外IPU 7.5還支持最高1600萬像素靜態(tài)圖像,實現(xiàn)零快門延遲。可拍攝1080P 120幀慢動作視頻。
Wi-Fi 7 R2與藍牙Core 6.0
最后是無線性能。Panther Lake提供了Intel Wi-Fi 7 BE211 CRF模塊,對應Intel Killer 1775,支持Wi-Fi 7 R2標準,CNVio 3接口支持11Gbps速率,相比CNVio 2的5Gbps提升了120%。另外藍牙模塊支持藍牙Core 6.0和LE Audio。
Wi-Fi 7 R2主要集中在效率與穩(wěn)定性上,增強動態(tài)管理活躍鏈路的資源分配、IoT設備優(yōu)先級分配,單射頻客戶端實現(xiàn)MLO,避免P2P流量干擾設備。為特定設備分配固定時間片,實現(xiàn)可預測的延遲與可靠性,適配AI推理、實時協(xié)作等場景。
藍牙Core 6.0則注重音頻體驗和功能升級,包括LE Audio低功耗音頻,Auracast廣播,提升助聽器兼容性,支持多組音頻流同步,實現(xiàn)不同設備之間無縫切換等等。
寫在最后:新希望
無論性能還是能耗,英特爾Panther Lake給人的第一印象都非常深刻。按照計劃,Panther Lake的實際搭載產(chǎn)品將會在CES2026正式展出,英特爾還有幾個月的時間調(diào)試18A性能,以確保最終表現(xiàn)。
如果一切順利,Panther Lake綜合性能無疑會有大幅度提升,輕薄本在成本可控的前提下向長續(xù)航和高性能進發(fā),高性能本的多線程和游戲性表現(xiàn)也會更為突出。英特爾18A制程工藝已經(jīng)給我們留足懸念,接下來只需要給點耐心,把舞臺交給下一代酷睿Ultra。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.