夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

量子強化學習:近期進展與未來方向

0
分享至

Quantum Reinforcement Learning: Recent Advances and Future Directions

量子強化學習:近期進展與未來方向

https://arxiv.org/pdf/2510.14595


摘要

隨著量子機器學習持續(xù)發(fā)展,強化學習作為一個尤為前景廣闊但尚未充分探索的前沿方向脫穎而出。在本綜述中,我們系統(tǒng)考察了量子強化學習(Quantum Reinforcement Learning, QRL)的最新進展,以評估其在各類應用中的潛力。盡管相較于其他量子機器學習方法,QRL總體上受到的關注較少,但近期研究表明:它在量子與經(jīng)典領域均展現(xiàn)出獨特優(yōu)勢,并具備廣泛的跨領域適用性。我們對QRL框架進行了全面分析,涵蓋其算法、架構、支持的軟件開發(fā)工具包(SDKs),以及其在多個領域的實際應用。此外,我們還探討了QRL所面臨的挑戰(zhàn)與機遇,重點指出了若干前景廣闊的應用案例——這些案例有望推動量子啟發(fā)式強化學習的創(chuàng)新發(fā)展,并加速其在各類跨學科場景中的落地應用。

索引詞——量子計算,強化學習,量子機器學習,變分量子線路,量子優(yōu)化

I. 引言

當前一代含噪聲的中等規(guī)模量子(Noisy Intermediate-Scale Quantum, NISQ)設備,通常由數(shù)百個量子比特構成,有望實現(xiàn)超越當今經(jīng)典超級計算機能力的運算任務[1]。為開發(fā)此類NISQ設備,研究者正探索多種技術路徑,包括超導系統(tǒng)[2]、囚禁離子系統(tǒng)[3]、量子點[4]、冷原子陣列[5]以及光子計算平臺[6]。這些設備有望在特定應用中實現(xiàn)“量子優(yōu)越性”(quantum supremacy),即解決經(jīng)典計算機無法勝任的計算問題,從而為科學研究與工業(yè)應用開辟新的機遇[7]–[12]。然而,重大挑戰(zhàn)依然存在,主要源于量子門操作中固有的噪聲與退相干效應,這嚴重限制了量子計算的魯棒性與保真度,使其尚難以執(zhí)行比當前最先進經(jīng)典系統(tǒng)更復雜的算法[13]。

變分量子線路(Variational Quantum Circuits, VQCs)被廣泛用于在NISQ時代展現(xiàn)近期量子優(yōu)勢。這類參數(shù)化量子線路因其對含噪聲硬件的良好適應性,以及對混合量子—經(jīng)典計算流程的支持,而特別契合當前量子技術的發(fā)展水平[14]。值得注意的是,VQC中的噪聲在優(yōu)化過程中可促進探索行為(exploration),這一特性對量子強化學習(Quantum Reinforcement Learning, QRL)而言是一項關鍵優(yōu)勢[15],[16]。通過建設性地利用噪聲,基于VQC的QRL能在經(jīng)典強化學習難以應對的復雜環(huán)境中實現(xiàn)高效學習[17],[18]。

近期進展表明,即使在含噪聲的NISQ條件下,基于VQC的QRL亦具備實現(xiàn)量子優(yōu)勢的潛力。憑借參數(shù)高效的量子策略、量子并行性以及魯棒的優(yōu)化能力,QRL在高維或含噪環(huán)境中展現(xiàn)出更快的收斂速度與更優(yōu)的性能表現(xiàn),因而尤其適用于資源受限與動態(tài)變化的系統(tǒng)[19]。事實上,某些類型的噪聲反而可提升算法有效性,促進智能體在龐大動作空間中的探索[20]。近期實驗結果進一步證實了學習過程中的量子加速現(xiàn)象,驗證了QRL在復雜決策任務中的可行性[21]。除決策問題外,受量子啟發(fā)的強化學習(quantum-inspired RL)技術正推動多種量子應用的進展,包括量子架構搜索[22]、量子傳感[23]與量子控制[24]等。這些發(fā)展凸顯了強化學習在增強量子技術方面的廣泛適用性。

經(jīng)典領域的強化學習已被深入研究數(shù)十年,催生了大量理論與實踐成果;相比之下,其在量子領域的對應研究則起步較晚。盡管學界對QRL的關注日益增長,但現(xiàn)有文獻中全面系統(tǒng)的綜述仍較為稀缺。表I總結了若干已有綜述,并將其與本文工作進行對比。


本綜述其余部分結構安排如下:第二節(jié)回顧若干基礎概念,為QRL建立理論基礎;第三節(jié)介紹QRL框架,詳述其與VQC的集成方式以及后者在實現(xiàn)量子優(yōu)勢中的作用;第四節(jié)描述主要的QRL架構;第五節(jié)探討QRL算法并提供簡要教程;第六節(jié)討論基準測試問題及該領域的最新進展;第七節(jié)與第八節(jié)分別呈現(xiàn)經(jīng)典強化學習在量子系統(tǒng)中的應用,以及QRL本身的各類應用;第九節(jié)指出關鍵挑戰(zhàn)并展望有前景的未來方向;最后,第十節(jié)總結全文。

II. 預備知識

A. 強化學習

強化學習(RL)是一種計算方法,其中智能體通過與環(huán)境交互來學習做出序列決策,以最大化累積獎勵,如圖1所示。該過程通常被建模為馬爾可夫決策過程(Markov Decision Process, MDP)[31],其特征如下:


  • 一組狀態(tài) S,表示環(huán)境可能存在的各種情況。
  • 一組動作 A,定義了智能體可選擇的行為。
  • 一個轉(zhuǎn)移函數(shù) P : S × A × S → [0,1],其中 P(s'|s,a) 表示智能體在狀態(tài) s 下執(zhí)行動作 a 后轉(zhuǎn)移到狀態(tài) s' 的概率。
  • 一個獎勵函數(shù) R : S × A × S → ?,用于提供關于智能體行為的反饋,以指導其行為。

在每個離散時間步 t,智能體觀察當前狀態(tài) st ∈ S,并根據(jù)策略 π 選擇一個動作 at ∈ A,該策略可以是確定性的或隨機性的。隨后,環(huán)境根據(jù)轉(zhuǎn)移函數(shù) P 轉(zhuǎn)移到新狀態(tài) st+1,智能體則獲得即時獎勵 rt = R(st, at, st+1)。此即時獎勵直接反饋了智能體在該特定時間步所采取行動的結果。然而,智能體的目標并不僅僅是最大化即時獎勵,而是學習能夠隨時間推移帶來高累積獎勵的行為。這一目標由“期望累積獎勵”(通常稱為“回報”,return)來體現(xiàn),其定義如下:


其中 γ 是一個介于 0 和 1 之間的折扣因子,用于調(diào)節(jié)未來獎勵的重要性。若 γ = 0,則期望獎勵退化為 Rt = rt,即智能體僅關注即時獎勵而忽略未來回報,這可能導致其傾向于追求短期收益,忽視能帶來更優(yōu)長期結果的策略。反之,若 γ 接近 1,則智能體會近乎同等重視未來獎勵與即時獎勵,從而鼓勵長期規(guī)劃;然而,在無限時間范圍(infinite-horizon)任務中,這可能導致學習過程不穩(wěn)定甚至發(fā)散。因此,γ 的選擇對平衡短期與長期目標至關重要,是強化學習中習得有效策略的關鍵因素。

智能體的目標是找到一個能使期望累積獎勵最大化的策略(policy)。策略在形式上被定義為一個將狀態(tài)映射到動作的函數(shù)。最簡單的情形是確定性策略(deterministic policy),其將每個狀態(tài) s 映射為一個確定動作 a = π(s);這種策略限制了智能體探索其他可能帶來更高長期回報的動作的能力。相比之下,隨機性策略(stochastic policy)將每個狀態(tài)映射為一個動作上的概率分布。


隨機性策略允許智能體通過偶爾選擇當前并非最優(yōu)、但可能帶來更好長期回報的動作來進行探索,而非始終拘泥于單一的確定性選擇。

由于智能體的目標是學習一個能最大化期望累積獎勵的策略,它必須具備評估每個狀態(tài)與動作長期價值的能力。這種能力通過價值函數(shù)(value functions)來實現(xiàn)——價值函數(shù)旨在估計在給定策略下,某一狀態(tài)或狀態(tài)–動作對所對應的期望回報。價值函數(shù)主要有兩類:

  • 狀態(tài)價值函數(shù)(State-Value Function):該函數(shù)用于衡量處于某一特定狀態(tài)的“好壞程度”,其形式化定義為:從狀態(tài) s 出發(fā)并依循策略 π 行動時所能獲得的期望回報,即


  • 動作價值函數(shù)(Action-Value Function):動作價值函數(shù)(亦稱 Q 函數(shù))用于衡量在某一特定狀態(tài)下執(zhí)行某一特定動作的“好壞程度”。其形式化定義為:從狀態(tài) s 出發(fā),執(zhí)行動作 a,此后依循策略 π 行動所獲得的期望回報,即





這些最優(yōu)價值函數(shù)的一個強大性質(zhì)是:它們滿足貝爾曼最優(yōu)性方程(Bellman optimality equations)——這是強化學習中常用于求解智能體從給定狀態(tài)出發(fā)所能獲得的最大可能未來獎勵的關鍵遞歸方程。針對最優(yōu)動作價值函數(shù)的貝爾曼最優(yōu)性方程如下:




其中 α 為學習率。最終學到的策略簡單且為確定性策略:在任意給定狀態(tài)下,智能體選擇使 Q 值表中對應值最大的動作。隨著時間推移,該迭代過程促使 Q 值逐漸收斂至最優(yōu)值。這種基于查表的(tabular)方法使得經(jīng)典 Q 學習在狀態(tài)空間與動作空間較小且離散的問題中極為高效。然而,當環(huán)境的狀態(tài)空間或動作空間規(guī)模增大,或變?yōu)檫B續(xù)空間時,維護與更新 Q 表將變得不可行。為克服這一局限,深度 Q 學習(Deep Q-learning, DQN)采用神經(jīng)網(wǎng)絡替代 Q 表,以實現(xiàn)對 Q 函數(shù)的函數(shù)逼近[32]。盡管復雜性有所提升,深度 Q 網(wǎng)絡仍遵循相同原則:選擇預測 Q 值最高的動作。

B. 變分量子線路(Variational Quantum Circuit)

在量子計算中,一系列酉算子(unitary operators)構成一條量子線路。若在這些線路中引入可訓練參數(shù),則形成變分量子線路(VQCs),使其能夠?qū)W習執(zhí)行各類任務,例如優(yōu)化與函數(shù)逼近[33]。VQCs 已被廣泛應用于多個領域,包括量子強化學習(QRL)[34]、變分量子本征求解器(VQE)[35]、量子生成模型[36]以及量子神經(jīng)網(wǎng)絡(QNNs)[37],如圖2所示。


VQCs 的一個關鍵組成部分是擬設(ansatz)——即可調(diào)參數(shù)化酉算子的具體結構。擬設的結構可依任務而異,但通常包含如下形式的參數(shù)化酉算子:








III. 量子強化學習

量子強化學習(QRL)通過融合量子計算技術擴展了經(jīng)典強化學習,使智能體能夠與量子環(huán)境交互,以最大化累積獎勵,并在學習性能與效率上超越經(jīng)典強化學習方法。文獻[20]的作者證明,一種混合量子-經(jīng)典方法——利用量子增強采樣與基于能量的模型——在大型動作空間環(huán)境中,其學習性能優(yōu)于經(jīng)典深度強化學習。類似地,文獻[21]的作者展示了通過量子通信信道實現(xiàn)的學習時間加速,顯著減少了達到最優(yōu)性能所需的訓練輪次。該框架在希爾伯特空間內(nèi)構建量子態(tài)、動作、轉(zhuǎn)移算子與獎勵算子,從而系統(tǒng)性地揭示了強化學習中的量子優(yōu)勢。

A. 分類體系

在實踐中,QRL 方法可分為三類,如圖3所示:


  1. 量子啟發(fā)式強化學習(Quantum-Inspired RL, QiRL):完全基于經(jīng)典算法,借鑒量子力學原理以增強探索或優(yōu)化能力。下文將詳細討論。
  2. 混合量子-經(jīng)典方法:強化學習循環(huán)本身仍為經(jīng)典架構,但部分組件(如策略函數(shù)或價值函數(shù))被參數(shù)化量子線路所取代。這是當前文獻中最常見的方法,本文綜述將重點詳述此類方法。
  3. 全量子強化學習:整個流程的所有組件均實現(xiàn)量子化。智能體與環(huán)境均被視為可相干相互作用的量子系統(tǒng),允許軌跡疊加態(tài)的存在,并可運用如格羅弗搜索等量子算法。這些方法目前主要停留在理論層面,通常需要容錯量子計算才能充分展現(xiàn)量子優(yōu)勢。

量子啟發(fā)式強化學習(QiRL)與標準QRL存在顯著差異。在QRL中,算法設計目標是在量子硬件上運行,利用量子線路表示策略或價值函數(shù);而QiRL雖從量子力學中汲取靈感,但開發(fā)的是完全經(jīng)典的算法,并在經(jīng)典計算機上執(zhí)行。QiRL借鑒了多種量子現(xiàn)象,無需依賴量子設備即可提升探索能力、優(yōu)化效率和決策策略。QiRL所采用的量子力學現(xiàn)象示例如下:

  • 振幅放大:格羅弗算法中使用的振幅放大技術,通過增大對應正確解的量子態(tài)振幅,從而提高測量到該解的概率。在QiRL中,受振幅啟發(fā)的方法將此理念用于提升高回報動作的選擇概率[39]。
  • 坍縮現(xiàn)象:在量子力學中,測量會導致處于疊加態(tài)的量子態(tài)坍縮至某個基態(tài),各結果出現(xiàn)的概率由其振幅的平方?jīng)Q定。在QiRL中,這一概念被用于概率性動作選擇:智能體根據(jù)學習得到的概率分布選擇動作,鼓勵探索而非始終選擇回報最高的動作[39]。
  • 量子退火:量子退火是一種利用量子力學(特別是量子隧穿效應)尋找給定成本函數(shù)全局最小值的量子優(yōu)化方法。在QiRL中,受退火啟發(fā)的調(diào)度策略被用于在大規(guī)模搜索空間中逃離局部最優(yōu)解[40]。
  • 量子行走:量子行走啟發(fā)了強化學習中的探索策略,使智能體以模擬量子疊加與干涉的方式搜索狀態(tài)空間,從而比純隨機探索更快速或更高效地覆蓋可能的狀態(tài)[41]。

全量子強化學習(Fully QRL)方法已在文獻中被提出,但目前仍主要處于理論探索階段。文獻[42]的作者提出了一個通用的全量子強化學習框架,其中智能體與環(huán)境均被建模為量子系統(tǒng)。智能體與環(huán)境各自擁有內(nèi)部量子寄存器,并通過完全正跡保持映射(或酉映射)交換信息,從而允許智能體以疊加方式對動作序列同時查詢環(huán)境,實現(xiàn)并行學習。為支持此類疊加查詢,環(huán)境必須被“神諭化”(oracularized),即其需表現(xiàn)為一個量子神諭(quantum oracle),能夠相干地編碼獎勵信息。后續(xù)多項研究進一步拓展并推廣了這些思想,探討了神諭式訪問(oracular access)的實現(xiàn)方式及可證明量子加速所需的條件[43]–[45]。

B. 定義



C. 軟件框架

軟件開發(fā)工具包(Software Development Kits, SDKs)對于推動量子強化學習(QRL)研究至關重要,它們提供了基礎性工具、庫與環(huán)境,以支持量子算法的開發(fā)、測試與部署。這些框架具備關鍵功能,例如可微編程(differentiable programming):它允許梯度在量子線路中反向傳播,從而實現(xiàn)對 QRL 模型的優(yōu)化,并促進混合量子—經(jīng)典工作流的構建[46]–[48]。此外,許多 SDKs 具備高性能仿真能力,可在受控環(huán)境中對復雜量子算法進行實驗,支持模型的迭代開發(fā)與測試,為最終在真實量子硬件上部署奠定基礎[49]。

如表 IV 所示,Qiskit、PennyLane 和 TensorFlow Quantum 等框架在 QRL 生態(tài)系統(tǒng)中尤為有價值。這些 SDKs 提供高層抽象接口,并與經(jīng)典機器學習庫無縫集成,顯著降低了 QRL 模型的構建門檻。例如,Qiskit 與 PennyLane 支持 GPU 加速,并可與主流機器學習庫(如 PyTorch、TensorFlow)協(xié)同使用;而 CUDA Quantum 與 TorchQuantum 則依托 NVIDIA GPU 提升仿真性能。


各框架獨特的功能特性——包括所支持的硬件后端、與機器學習生態(tài)的集成度,以及是否提供 QRL 專用工具——使其成為研究人員構建高效、可擴展的量子增強型強化學習模型的關鍵支撐。

IV. QRL 架構

本節(jié)概述量子強化學習中的四種先進架構:量子多智能體強化學習(QMARL)、自由能強化學習(FERL)、量子變分自編碼器強化學習(QVARL)以及量子分層強化學習(QHRL)。對于每種架構,我們將闡述其基本思想,并突出展示其發(fā)展與應用的代表性文獻。




每個智能體均優(yōu)化其策略參數(shù) Θ i,以最大化期望累積獎勵,同時通過共享的量子環(huán)境考慮與其他智能體之間的相互依賴關系。重放緩沖(replay memory)與基于損失函數(shù)的優(yōu)化相結合,有助于穩(wěn)定并提升該多智能體量子強化學習框架中各智能體的訓練過程。

QMARL 是一個新興研究領域。例如,文獻[51]提出了一種“集中訓練、分散執(zhí)行”(centralized-training, decentralized-execution)的框架,該框架采用變分量子線路,在 NISQ 條件下顯著超越了經(jīng)典多智能體強化學習(MARL)基線的獎勵表現(xiàn)。后續(xù)工作進一步將其拓展至元學習場景,提出了量子多智能體元強化學習(Quantum Multi-Agent Meta Reinforcement Learning)[50]。更近期地,文獻[52]提出了糾纏式量子多智能體強化學習(Entangled Quantum Multi-Agent Reinforcement Learning, eQMARL):eQMARL 是一種分布式量子行動者–評論家(actor–critic)框架,通過量子糾纏促進智能體間的協(xié)作。該系統(tǒng)采用一個分體式量子評論家(split quantum critic),經(jīng)由量子信道跨智能體連接,從而無需本地觀測信息共享,顯著降低了經(jīng)典通信開銷。

  1. 基于自由能的強化學習:基于自由能的強化學習(Free Energy-based Reinforcement Learning, FERL)借鑒統(tǒng)計物理學思想,利用自由能引導學習過程。在量子語境下,F(xiàn)ERL 使用量子玻爾茲曼機(Quantum Boltzmann Machines)對環(huán)境的狀態(tài)分布進行建模,并以自由能曲面(landscape)指導策略優(yōu)化。策略 U Θ 的調(diào)整目標是最小化自由能 F ,其定義如下:




該方法可增強收斂性與性能,尤其在狀態(tài)空間較大或連續(xù)的情況下效果顯著。在某些實現(xiàn)中(例如文獻[55]),生成潛在表示的自編碼器為經(jīng)典模型,而在此潛在空間上運行的策略網(wǎng)絡則為量子模型(即量子智能體)。




這種分層結構支持多層級決策:不同抽象層級上的量子策略相互協(xié)作,從而提升學習穩(wěn)定性與任務效率。近期研究[56]針對關系抽取任務提出了一種兩級QHRL框架,結果表明:分層量子策略能夠有效分解復雜目標并提升學習性能——這一思想可自然推廣至更廣泛的量子強化學習場景中。

V. QRL 算法

通過利用量子原理,量子強化學習(QRL)算法擴展了經(jīng)典強化學習框架,旨在復雜環(huán)境中實現(xiàn)潛在的加速效應或性能提升。廣義而言,這些算法可分為兩大類:

  • 基于策略的方法(Policy-Based Methods):直接學習一個最優(yōu)策略,將狀態(tài)映射為動作,無需依賴中間的價值函數(shù);例如策略梯度方法(policy gradient methods)。
  • 基于價值的方法(Value-Based Methods):側重于學習一個最優(yōu)價值函數(shù),用于估計在給定狀態(tài)下執(zhí)行特定動作所對應的期望長期回報;例如 Q 學習方法(Q-learning methods)。

在實踐中,還可將兩類方法的優(yōu)勢相結合,形成所謂的行動者–評論家方法(Actor-Critic Methods):其中,“行動者”(actor,即策略組件)直接學習策略,而“評論家”(critic,即價值組件)則估計價值函數(shù),以引導并穩(wěn)定“行動者”的策略更新過程。

本節(jié)將討論文獻中已探索的主要 QRL 算法,具體包括:量子策略梯度(quantum policy gradient)、量子 Q 學習(quantum Q-learning)以及量子行動者–評論家(quantum actor-critic)方法。針對每種算法,我們將提供簡要教程。表 III 對這些算法進行了比較總結。


A. 量子策略梯度

量子策略梯度方法通過直接計算期望累積獎勵 E [ R t ]
關于策略參數(shù) Θ Θ 的梯度,并利用策略 U Θ
進行動作選擇,從而優(yōu)化策略參數(shù)。其更新規(guī)則與公式(16)相同。文獻中已探索了多種量子策略梯度的實現(xiàn)方案[57]、[58]和[59]。

其中一種可能的實現(xiàn)由文獻[60]提出。下文我們將介紹其方法的簡要教程:該方法以參數(shù)化量子線路作為策略模型,并應用 REINFORCE 算法來優(yōu)化其參數(shù)。他們的方法引入了兩種策略變體:RAW-PQC 和 SOFTMAX-PQC。



盡管 RAW-PQC 結構簡單,并利用了量子測量固有的概率特性來選擇動作,但它缺乏一種可直接控制“探索”與“利用”程度的機制。換句話說,不存在一個可調(diào)節(jié)參數(shù),使智能體能夠靈活調(diào)整其行為的貪婪性或探索性。隨著訓練的推進,動作概率往往會在單一結果附近急劇上升,這會降低動作選擇的多樣性,從而在評估階段限制探索能力。



為訓練上述兩種策略變體的量子線路,采用的是蒙特卡洛策略梯度算法——REINFORCE。智能體通過梯度上升法更新線路參數(shù) Θ Θ,以最大化期望回報。

B. 基于變分量子算法的 Q 學習

與直接優(yōu)化策略的策略梯度方法不同,深度 Q 學習使用參數(shù)化量子線路來估計智能體的 Q 函數(shù)。正如經(jīng)典深度 Q 學習中用神經(jīng)網(wǎng)絡逼近 Q 值一樣,其量子對應方法中由參數(shù)化量子線路承擔此角色,使智能體能夠通過選擇使估計 Q 值最大的動作來推導策略。該方法建立在第二節(jié)介紹的經(jīng)典 Q 學習算法基礎之上——其中智能體依據(jù)貝爾曼最優(yōu)性方程更新 Q 表。

已有若干研究探索了使用參數(shù)化量子線路作為價值函數(shù)逼近器的可行性[34]、[61]、[62]。例如,文獻[63]提出了量子深度循環(huán) Q 學習(Quantum Deep Recurrent Q-Learning, QDRQN),將量子長短期記憶網(wǎng)絡(QLSTM)整合進深度 Q 學習框架,作為 Q 值估計器。

以下,我們針對文獻[64]中的具體實現(xiàn),提供一個量子 Q 學習的簡要教程。

在文獻[64]中,參數(shù)化量子線路被用于逼近 Q 函數(shù)。經(jīng)典深度 Q 學習中使用的神經(jīng)網(wǎng)絡被替換為一個變分量子線路,該線路將輸入狀態(tài)映射為每個可能動作所對應的 Q 值。





C. 量子行動者–評論家方法

量子行動者–評論家(Quantum Actor-Critic)方法包含兩個組成部分:



文獻中已研究了多種量子行動者–評論家的實現(xiàn)方案,例如文獻[65]和[66]。近期工作通過整合量子長短期記憶網(wǎng)絡(Quantum Long Short-Term Memory, QLSTM)進一步擴展了該框架,如文獻[67]所示;或通過將量子行動者–評論家與快速權重機制結合,如文獻[68]所展示。在某些行動者–評論家實現(xiàn)中,評論家本身無需為量子組件——通常采用經(jīng)典神經(jīng)網(wǎng)絡來逼近價值函數(shù)[52]。這種混合架構使行動者能夠利用量子表達能力,而評論家則受益于經(jīng)典函數(shù)逼近的穩(wěn)定性與高效性。

下文我們將基于文獻[69]提供一個簡要教程,說明這些組件在實踐中如何協(xié)同工作。



VI. QRL 基準測試

盡管量子強化學習(QRL)是一個快速發(fā)展的領域,但其當前正面臨嚴峻的基準測試問題。該領域尚缺乏統(tǒng)一的基準測試平臺與標準化評估指標,使得不同算法的恰當評估與比較極為困難[70]。由于 QRL 對超參數(shù)高度敏感且存在多種隨機性來源,要可靠地宣稱“算法 A 優(yōu)于算法 B”頗具挑戰(zhàn)性:學習率、線路深度或量子比特數(shù)的微小變動均可能導致結果顯著不同。此外,QRL 還面臨多重新增的隨機性來源,例如:

  • 硬件噪聲——不同設備間差異顯著;
  • 測量采樣次數(shù)(shots)引入的統(tǒng)計漲落;這些因素均嚴重阻礙了評估結果的一致性。其他如權重初始化、動作采樣策略以及環(huán)境本身的隨機性,進一步降低了可復現(xiàn)性,使算法間的公平比較變得困難。

除噪聲外,環(huán)境設計在判定量子算法是否真正優(yōu)于其經(jīng)典對應方法方面亦起著關鍵作用。理想環(huán)境需具備足夠復雜性以挑戰(zhàn)經(jīng)典算法,同時其結構又應能有效發(fā)揮量子計算的獨特優(yōu)勢(如疊加、糾纏、干涉等)。在二者間取得平衡極為困難,使得環(huán)境設計本身成為一大挑戰(zhàn)。

為應對上述問題,近期已涌現(xiàn)出若干致力于建立更嚴格、標準化 QRL 基準測試規(guī)范的努力,標志著向更可靠、可比的評估體系邁出初步步伐:

  • 文獻[71]提出了一種新型基準測試方法,利用統(tǒng)計估計量評估啟發(fā)式算法的樣本復雜度(即智能體為達到特定性能所需與環(huán)境的交互次數(shù));該工作還構建了一個復雜度可調(diào)的新基準環(huán)境。
  • 文獻[70]引入了一系列用于評估 QRL 算法的指標:性能樣本效率線路運行次數(shù)量子時鐘時間量子比特規(guī)模擴展性。這些指標超越了傳統(tǒng)強化學習僅關注性能與樣本效率的范疇,納入了量子特有的考量維度。
  • 文獻[72]提出了一種加權排序指標,綜合考量準確率、線路深度、量子門數(shù)量與計算效率,從而在量子架構搜索任務中實現(xiàn)公平的算法比較。

VII. 強化學習在量子任務中的應用

經(jīng)典強化學習亦被廣泛應用于任務本身具有量子屬性的場景,例如:量子控制、量子糾錯、量子架構搜索、量子傳感及量子密鑰分發(fā)等。本節(jié)將簡要綜述這些領域的近期進展,重點闡明:盡管運行于經(jīng)典硬件之上,純經(jīng)典的智能體與算法仍能有效優(yōu)化量子系統(tǒng)的行為。

A. 量子控制

量子計算的近期進展已從單純追求量子比特數(shù)量轉(zhuǎn)向通過糾錯提升量子比特質(zhì)量。與此同時,控制方式正從脈沖層級(pulse-level)逐步過渡至分數(shù)量子門(fractional gates),從而簡化量子操作、降低線路深度并提升整體效率[73]。這些發(fā)展凸顯了先進量子控制技術對于實現(xiàn)可靠、可擴展量子計算的關鍵作用。

量子控制旨在通過對量子系統(tǒng)施加外部場(如激光或磁場)來調(diào)控其哈密頓量(Hamiltonian),進而引導系統(tǒng)演化,以達成特定目標(如量子態(tài)轉(zhuǎn)移或量子門實現(xiàn))[74]–[78]。該哈密頓量決定了系統(tǒng)的動力學行為[79]。形式上,對于量子態(tài) ∣ ψ ( t ) ,其演化由含時哈密頓量 H ( t )
所支配,遵循薛定諤方程:


強化學習可通過將系統(tǒng)狀態(tài)視為環(huán)境、將控制操作視為智能體的動作、并將保真度(fidelity)作為獎勵,來自動優(yōu)化控制參數(shù)[80]。該獎勵函數(shù)反映了優(yōu)化目標,可表示為:






強化學習已被廣泛應用于量子控制的多種實際場景中。例如,文獻[82]的作者展示了強化學習如何跨不同系統(tǒng)相位優(yōu)化量子控制協(xié)議,揭示了控制景觀中的相變,并為復雜量子系統(tǒng)中的高保真態(tài)轉(zhuǎn)移提供了一種無需模型、可擴展的方案。類似地,文獻[83]、[84]提出了一種基于強化學習的方法來優(yōu)化量子線路映射(transpilation),實現(xiàn)了針對多種電路類型的近似最優(yōu)綜合,并在門深度與門數(shù)量上顯著減少,其效率與可擴展性均優(yōu)于傳統(tǒng)啟發(fā)式與優(yōu)化方法。此外,將量子比特路由(Qubit routing)建模為強化學習問題后,采用深度 Q 學習來優(yōu)化動態(tài)量子比特置換,以最小化 SWAP 門開銷,從而顯著改善線路深度與硬件效率[85],[86]。文獻[87]則在 FPGA 上實現(xiàn)了實時強化學習智能體,用于低延遲量子反饋,成功實現(xiàn)了超導量子比特的高保真度控制與初始化,且無需依賴顯式的系統(tǒng)模型。盡管量子控制問題已有效映射至強化學習框架,但在單量子比特、雙能級開放系統(tǒng)及多量子比特系統(tǒng)等場景下,受量子啟發(fā)的探索策略與獎勵機制相比傳統(tǒng)強化學習方法展現(xiàn)出更優(yōu)性能,體現(xiàn)出在實驗約束條件下更強的穩(wěn)定性、效率與學習能力[88]。

B. 量子糾錯

量子計算機本質(zhì)上易受噪聲與退相干影響,使得計算過程中的錯誤不可避免。因此,為實現(xiàn)可靠的大型量子計算機,必須采用量子糾錯(Quantum Error Correction, QEC)。然而,實現(xiàn) QEC 遠比經(jīng)典糾錯復雜得多——在經(jīng)典領域,可通過簡單復制比特來輕松實現(xiàn)冗余;而在量子領域,則面臨三大挑戰(zhàn)[89]:

  • 量子態(tài)不可克隆性:在經(jīng)典編碼中,數(shù)據(jù)可通過復制實現(xiàn)冗余;但根據(jù)量子不可克隆定理,無法對未知量子態(tài)制作完全相同的副本。
  • 多重錯誤類型:經(jīng)典比特僅易受“位翻轉(zhuǎn)”(bit-flip)錯誤影響,而量子比特同時易受“位翻轉(zhuǎn)”(X 錯誤)和“相位翻轉(zhuǎn)”(Z 錯誤)的影響,因此需要能同時糾正這兩類錯誤的編碼方案。
  • 測量導致的坍縮:經(jīng)典比特可在不干擾其狀態(tài)的前提下被讀取,但測量一個量子比特可能破壞其所承載的編碼信息。

因此,QEC 依賴于精心設計的編碼方案與控制策略,在不干擾存儲信息的前提下檢測并糾正錯誤。雖然傳統(tǒng) QEC 方案(如表面碼、穩(wěn)定子碼及其他成熟量子碼)功能強大,但它們通常需使用大量量子比特,并涉及更復雜的優(yōu)化過程[90]?;谶@些原理,研究者已開始探索利用強化學習方法自動優(yōu)化 QEC。

例如,深度強化學習已被用于在環(huán)面碼(toric code)上實現(xiàn)量子糾錯,以應對無關聯(lián)的比特翻轉(zhuǎn)或相位翻轉(zhuǎn)噪聲[91]。該方法訓練智能體尋找近似最優(yōu)的糾錯路徑,其解碼精度可媲美“最小權重完美匹配”(Minimum-Weight Perfect Matching)解碼器。

類似地,容錯表面碼(surface code)的解碼任務亦可重構為一個序列決策問題:學習型智能體與量子碼的“綜合征”(syndrome)數(shù)據(jù)進行交互[92]。在此框架下,解碼器扮演強化學習智能體的角色,從量子碼環(huán)境中接收觀測量(即綜合征),并選擇糾錯動作以降低邏輯錯誤率。通過采用深度 Q 學習方法,研究者訓練了經(jīng)典神經(jīng)網(wǎng)絡,在真實噪聲條件下成功習得了高性能解碼策略。

強化學習亦被用于設計自主量子糾錯(Autonomous Quantum Error Correction, AQEC)協(xié)議。例如,一個 RL 智能體在超導系統(tǒng)中為 AQEC 確定了最優(yōu)的玻色子編碼字(bosonic codewords),實現(xiàn)了對邏輯量子比特的高保真度保護[93]。

此外,RL 還被直接應用于表面碼架構中的比特翻轉(zhuǎn)與去極化噪聲抑制[90]:智能體通過分析錯誤率并監(jiān)測量子比特壽命,訓練以降低比特翻轉(zhuǎn)錯誤。

值得注意的是,通過將近端策略優(yōu)化(Proximal Policy Optimization, PPO)智能體應用于穩(wěn)定子碼(stabilizer codes),研究者已成功發(fā)現(xiàn)一類低權重量子糾錯碼,其物理量子比特開銷顯著降低[94]。

C. 量子架構搜索

量子架構搜索(Quantum Architecture Search, QAS)旨在自動設計適配特定應用與硬件約束的量子線路架構。它在可能的配置空間中進行搜索,以識別在深度、門保真度與整體性能等方面均高效優(yōu)化的架構[95],[96]。受經(jīng)典神經(jīng)架構搜索(Neural Architecture Search)啟發(fā),QAS 需應對量子計算特有的挑戰(zhàn),包括酉性約束、對噪聲的敏感性以及硬件平臺的專屬限制[97]。

變分量子線路(VQC)的效率高度依賴于所采用的架構,原因如下:

  • 表達能力(Expressivity):架構決定了 VQC 能否充分覆蓋目標解空間;
  • 可訓練性(Trainability):設計不當?shù)木€路易陷入“貧瘠高原”(barren plateaus)——梯度近乎為零,致使訓練失效;
  • 硬件兼容性(Hardware Compatibility):受限于量子比特連接拓撲與門保真度等硬件約束,必須定制適配架構以實現(xiàn)高效執(zhí)行。



為高效探索龐大的架構空間,QAS 可被建模為一個強化學習問題:其中,RL 智能體通過構建并評估量子線路,自主發(fā)現(xiàn)高性能設計方案[22]。在此 RL 框架下:



在 QAS 基礎之上,近期進展進一步凸顯了強化學習在優(yōu)化量子線路架構中的關鍵作用。例如,文獻[98]利用 RL 自動設計并優(yōu)化量子機器學習(QML)模型;其他框架如 QAS-Bench[99]與基于梯度的微分方法 QuantumDARTS[100]則展示了系統(tǒng)性評估與梯度優(yōu)化技術如何提升線路搜索效率與性能。尤其在硬件受限環(huán)境下,RL 方法展現(xiàn)出卓越效能:一個典型例子是近鄰編譯框架(Nearest-Neighbor Compilation)[101],其中 RL 被用于最小化 SWAP 門數(shù)量并降低線路深度,從而應對關鍵的實際限制。

更先進的 RL 技術進一步彰顯了其在序列門設計與參數(shù)優(yōu)化中的適應性,例如:基于循環(huán)神經(jīng)網(wǎng)絡(RNN)的策略梯度方法[102],以及用于量子近似優(yōu)化算法(QAOA)的遞歸式強化學習[103]。這些方法通過在復雜線路設計空間中動態(tài)導航,實現(xiàn)了更高的效率與更快的收斂速度。此外,RL 驅(qū)動的框架如 KANQAS[104]也印證了分層建模的強大能力——它可在高效探索架構空間的同時,兼顧任務特定約束。

通過協(xié)同優(yōu)化線路的表達能力、可訓練性與硬件兼容性,RL 不僅實現(xiàn)了 QAS 過程的自動化與增強,更推動了面向復雜量子任務的定制化架構創(chuàng)新。因此,RL 已成為提升變分量子線路(VQC)能力的核心工具,有力促進了量子算法設計與實際部署的持續(xù)進步。

D. 量子傳感

量子傳感利用量子力學原理(如疊加與糾纏),實現(xiàn)對磁場、時間、重力等物理參數(shù)的高精度測量。通過利用量子態(tài)對外部擾動的高度敏感性,量子傳感器在精度與效率上均超越經(jīng)典傳感器[23]。

量子傳感器的運行由其量子態(tài)在參數(shù)依賴哈密頓量H ( θ )
下的演化所支配,其中 θ為待估計的物理參數(shù)。量子態(tài)隨時間按如下方式演化:




近期強化學習在量子傳感領域的進展凸顯了其強大的通用性與有效性。研究表明,RL 能夠優(yōu)化量子傳感器的動力學行為,通過設計非線性控制脈沖來對抗退相干,從而實現(xiàn)超過一個數(shù)量級的靈敏度提升[23]。類似地,有研究提出了一種用于時變參數(shù)估計的深度強化學習框架,采用幾何啟發(fā)式獎勵函數(shù)與時相關控制方案,在含噪與無噪條件下均實現(xiàn)了魯棒、高效的參數(shù)估計[105]。在貝葉斯量子傳感背景下,一種基于 RL 的實驗設計框架利用粒子濾波優(yōu)化自適應傳感策略,表現(xiàn)優(yōu)于傳統(tǒng)方法[106]。進一步的進展包括將深度強化學習應用于量子多參數(shù)估計,有效應對資源限制并擺脫對精確系統(tǒng)模型的依賴[107],[108]。此外,RL 還被用于設計針對不同噪聲水平與系統(tǒng)參數(shù)定制的魯棒糾纏生成協(xié)議;而基于 RL 的反饋控制策略則在提升量子計量精度方面展現(xiàn)出卓越性能,超越了動態(tài)量子系統(tǒng)中的傳統(tǒng)方法[109],[110]。

E. 量子密鑰分發(fā)

量子密鑰分發(fā)(Quantum Key Distribution, QKD)利用量子力學原理(如不可克隆定理),使雙方能夠安全共享一個經(jīng)典密鑰。任何竊聽行為都會破壞量子態(tài),從而使通信雙方能夠檢測并丟棄被泄露的密鑰。然而,QKD 在資源分配方面仍面臨重大挑戰(zhàn):密鑰生成速率隨距離呈指數(shù)級下降,難以滿足現(xiàn)代高流量應用的需求[111]。傳統(tǒng)的資源分配方法(如最短路徑路由)將請求集中于少數(shù)鏈路上,反而加劇了擁塞問題[112]。

為克服這些局限,近期研究探索了使用經(jīng)典深度強化學習智能體動態(tài)分配波長、時隙或密鑰資源的方法。

文獻[113]的作者提出了一種利用深度強化學習解決 QKD 網(wǎng)絡中資源供給問題的方法。在該方法中,一個經(jīng)典 RL 智能體被訓練用于根據(jù)不斷變化的需求和網(wǎng)絡狀況,動態(tài)分配密鑰資源與網(wǎng)絡路徑。

由于 QKD 光路請求需頻繁更新,使得路由與資源分配(RRA)問題極具挑戰(zhàn)性。因此,已有研究提出一種深度強化學習方案,以應對 QKD 安全光網(wǎng)絡中的 RRA 問題[114]。

量子密鑰池(Quantum Key Pools, QKPs)位于相鄰 QKD 節(jié)點之間,用于管理密鑰資源;但動態(tài)流量會導致密鑰生成與消耗失衡,引發(fā)服務阻塞、密鑰溢出以及當密鑰在 QKP 中駐留過久時的安全性下降等問題。為應對這些挑戰(zhàn),文獻[115]提出了一種基于 RL 的路由與密鑰資源分配算法,其中訓練了一個深度 Q 學習智能體,使其選擇路由動作,從而將 QKP 的密鑰水平維持在安全范圍內(nèi)。

VIII. QRL 的實際應用

日益增長的 QRL 研究成果展現(xiàn)了其卓越的通用性,應用范圍涵蓋自主系統(tǒng)、優(yōu)化問題與通信等領域。本節(jié)綜述當前文獻,展示 QRL 在上述各領域的具體應用實例。

a)自主系統(tǒng)
QRL 通過賦能精準決策、高效資源利用及在動態(tài)不確定性條件下的魯棒控制,在推動自主系統(tǒng)發(fā)展中發(fā)揮著關鍵作用。憑借量子計算與強化學習的深度融合,QRL 有效應對了傳統(tǒng)方法在實時自主應用中難以克服的計算與運行挑戰(zhàn)。其通用性已在多種任務中得到驗證,包括:

  • 可重復使用火箭著陸:基于 QRL 的控制器顯著提升了火箭在強風擾動等湍流條件下的著陸穩(wěn)定性與適應性;如文獻[116]所示,該方法收斂更快、累積獎勵更高,且滿足機載系統(tǒng)的計算約束,性能優(yōu)于深度 Q 網(wǎng)絡等經(jīng)典方法。
  • 機器人導航:通過采用變分量子線路(VQC),QRL 框架可高效編碼高維狀態(tài)表征,使自主機器人以更少計算資源穿越復雜環(huán)境。該方法在靜態(tài)導航任務中尤為有效——此類任務中經(jīng)典深度強化學習往往表現(xiàn)欠佳[117]。
  • 自動駕駛汽車:在無碰撞導航任務中,如 Nav-Q 等 QRL 模型結合量子評論家與經(jīng)典降維技術,顯著提升決策效率[118]。此類混合系統(tǒng)可加速收斂、提高安全指標,極為契合現(xiàn)實世界的自動駕駛場景。
  • 多無人機協(xié)同控制:基于 QRL 的量子多智能體強化學習(QMARL)框架可在動態(tài)環(huán)境中優(yōu)化無人機群的協(xié)同與任務分配[119]。該系統(tǒng)支持高效策略學習、魯棒動作規(guī)劃及穩(wěn)定性能表現(xiàn),對監(jiān)控與物資投送等應用至關重要。
  • 行人交互建模:將 QRL 整合進類量子貝葉斯模型(Quantum-like Bayesian models),可更準確預測行人在交通場景中的非理性與不可控行為[120],從而提升自動駕駛車輛在復雜擁擠城市環(huán)境中的決策能力。
  • 量子多智能體協(xié)作:在智能工廠等場景中,多智能體 QRL 框架對自主機器人調(diào)度與資源優(yōu)化等任務尤為關鍵[119]。相比經(jīng)典多智能體強化學習,其可增強智能體間協(xié)同與決策能力,顯著降低計算開銷、提升任務執(zhí)行效率。
  • 自主衛(wèi)星協(xié)同:QRL 已被應用于星地一體化系統(tǒng),優(yōu)化任務分配與動態(tài)資源管理[119]。借助可伸縮量子神經(jīng)網(wǎng)絡(slimmable quantum neural networks),此類系統(tǒng)能無縫適應運行約束與環(huán)境變化,提升空間自主網(wǎng)絡的性能。此外,文獻[121]提出了一種 QMARL 模型用于協(xié)調(diào)多衛(wèi)星系統(tǒng),以應對大規(guī)模、高維任務所帶來的挑戰(zhàn)。
  • 迷宮路徑優(yōu)化:QRL 框架在迷宮求解等導航挑戰(zhàn)中表現(xiàn)出色[122]。通過利用量子增強的探索與決策能力,智能體能高效找到復雜環(huán)境中的最優(yōu)路徑,在計算資源需求與收斂速度方面優(yōu)于經(jīng)典強化學習。
  • 高密度環(huán)境中的避碰:除自動駕駛外,QRL 還被拓展至高密度交通場景管理,可建模復雜人類交互并實現(xiàn)實時避碰[120]。通過引入類量子貝葉斯模型,該系統(tǒng)能有效應對人類行為的不確定性,確保魯棒且安全的導航。
  • 潛在空間優(yōu)化:在混合量子–經(jīng)典強化學習框架中,QRL 已被應用于高維決策任務(如機器人導航與視覺導航)的潛在觀測空間[123]。此類框架通過將觀測壓縮為潛在表征,大幅降低計算開銷,從而實現(xiàn)高效策略學習與更好的可擴展性。

b)優(yōu)化問題:強化學習(RL)在解決復雜優(yōu)化任務方面表現(xiàn)尤為出色——它使智能體能夠通過迭代式交互學習最優(yōu)策略。而量子強化學習(QRL)通過融入量子計算,進一步強化了策略優(yōu)化能力。值得注意的是,QRL 可利用格羅弗搜索算法(Grover’s search)、狀態(tài)–動作對的并行評估等方法,顯著降低計算復雜度,并在決策任務中取得更優(yōu)結果。對比研究表明,在網(wǎng)格穿越等挑戰(zhàn)性場景中,QRL 不僅可媲美,且往往超越經(jīng)典深度強化學習與量子退火方法[124]。通過基于量子門的計算范式,QRL 即便在隨機性環(huán)境下,也能借助格羅弗搜索高效定位高回報動作,并并行評估狀態(tài)–動作對,展現(xiàn)出穩(wěn)健性能。這些優(yōu)勢使 QRL 成為解決經(jīng)典方法難以承受的計算密集型優(yōu)化問題的實用方案。以下為 QRL 已成功應用的關鍵優(yōu)化任務:

  • 組合優(yōu)化:QRL 通過將問題(如 Weighted-MaxCut、背包問題、機組承諾問題)直接編碼為源自其二次無約束二值優(yōu)化(QUBO)形式的哈密頓量,顯著提升解的質(zhì)量[125]。采用問題定制的量子擬設(ansatz)設計,可有效緩解“貧瘠高原”問題,在可訓練性與可擴展性上優(yōu)于量子近似優(yōu)化算法(QAOA),尤其在泛化至未見問題實例時更具優(yōu)勢。
  • 兩階段決策系統(tǒng):在可再生能源電網(wǎng)中,QRL 可結合量子深度 Q 網(wǎng)絡優(yōu)化熱電機組的日前調(diào)度,并利用量子軟行動者–評論家(Quantum Soft Actor-Critic)處理實時負荷調(diào)整[126]。這些量子模型能在波動性可再生能源出力下,均衡成本與運行約束,實現(xiàn)在動態(tài)環(huán)境中的穩(wěn)健任務完成。
  • 加速器束線控制:一種混合型行動者–評論家 QRL 算法——其中評論家由量子玻爾茲曼機構建——已被驗證可有效優(yōu)化歐洲核子研究中心(CERN)質(zhì)子與電子束線的軌跡控制[127]。該方法采用量子退火進行訓練,在高維連續(xù)動作空間中實現(xiàn)更快收斂與更強適應性。
  • 隨機性決策問題:QRL 可應對“冰湖”(Frozen Lake)問題——其中隨機轉(zhuǎn)移對經(jīng)典 RL 模型構成挑戰(zhàn)[128]。通過在近端策略優(yōu)化(PPO)中以變分量子線路(VQC)替代神經(jīng)網(wǎng)絡,QRL 能以更少參數(shù)實現(xiàn)對狀態(tài)–動作空間的高效表征與探索,同時保持魯棒的學習能力。
  • 基于 NFT 的智能網(wǎng)絡:QRL 可優(yōu)化面向網(wǎng)聯(lián)自動駕駛車輛的、基于非同質(zhì)化代幣(NFT)的分布式智能系統(tǒng)中的資源分配[129]。通過量子增強的策略優(yōu)化,車輛可動態(tài)決策數(shù)據(jù)獲取模式與帶寬分配,在保障數(shù)據(jù)完整性的同時最小化延遲。
  • 隨機任務中的策略優(yōu)化:在網(wǎng)格穿越問題中,對比研究凸顯了 QRL 在采樣效率與收斂速度上的優(yōu)勢[124]?;诹孔娱T的 QRL 利用格羅弗搜索高效探索高回報動作;而基于退火的 QRL 則通過量子增強的價值估計獲取近最優(yōu)策略。
  • 云平臺 QRLQuafu-RL[130]在量子云平臺上實現(xiàn),使用硬件高效型 VQC 訓練智能體。以 CartPole 任務為例,Quafu-RL 采用進化式架構搜索自動發(fā)現(xiàn)最優(yōu)線路結構,有效減少量子門數(shù)量,并在噪聲環(huán)境下提升訓練穩(wěn)定性。
  • 移動邊緣計算(MEC)中的資源分配:QRL 可增強 MEC 環(huán)境下任務卸載與資源分配的聯(lián)合優(yōu)化[131]。借助混合變分量子–經(jīng)典架構,QRL 降低了混合離散–連續(xù)動作空間問題的復雜度,實現(xiàn)更快收斂與更優(yōu)約束滿足。
  • 蛋白質(zhì)折疊:QRL 有望求解 NP 完全的蛋白質(zhì)折疊問題——通過 VQC 編碼疏水–親水格點模型(hydrophobic-polar lattice model)[132]。借助量子策略更新,QRL 可在指數(shù)級搜索空間中高效導航,識別近似最優(yōu)構象。
  • 多智能體無人機網(wǎng)絡:結合量子行動者–評論家網(wǎng)絡的 QMARL 可優(yōu)化大規(guī)模無人機協(xié)同任務(如監(jiān)控與移動接入)[133]。通過“投影價值測度”(Projection Value Measure)實現(xiàn)對數(shù)級動作空間壓縮,QMARL 在高維狀態(tài)–動作空間的多智能體系統(tǒng)中展現(xiàn)出穩(wěn)健收斂性與強可擴展性。

    c)通信領域:在通信領域,QRL 有效應對了延遲控制、資源分配與安全數(shù)據(jù)傳輸?shù)汝P鍵挑戰(zhàn)。它已在實現(xiàn)超高可靠低延遲通信(URLLC)、動態(tài)任務分配、軌跡優(yōu)化及隱私保護型分布式學習等方面展現(xiàn)出顯著價值。其應用覆蓋多個領域,包括無人機(UAV)網(wǎng)絡、6G 系統(tǒng)與能源交易等。通過高效建模大規(guī)模復雜系統(tǒng),QRL 提供了具備可擴展性與自適應能力的解決方案,在精度與計算效率上超越經(jīng)典方法,有力推動了 6G 及更前沿通信技術的邊界拓展[134]–[136]。典型應用包括:

    • 量子通信協(xié)議的再發(fā)現(xiàn)與優(yōu)化:QRL 已被證實能夠重新發(fā)現(xiàn)并增強經(jīng)典量子通信協(xié)議(如量子隱形傳態(tài)與糾纏提純),尤其在非理想、非對稱噪聲條件下表現(xiàn)突出[134]。它能高效適應噪聲與隨機環(huán)境,通過動態(tài)優(yōu)化保真度與資源使用效率,性能優(yōu)于預先設計的經(jīng)典協(xié)議。
    • 分布式網(wǎng)絡中的實時適應性:QRL 促進了經(jīng)典與量子通信系統(tǒng)的融合,在空–天–地一體化網(wǎng)絡(SAGINs)等集成網(wǎng)絡中實現(xiàn)實時決策[135]。借助量子糾纏與隱形傳態(tài),QRL 為動態(tài)資源管理及延遲敏感型應用提供了穩(wěn)健解決方案。
    • 元宇宙應用中的時空協(xié)同:QRL 通過將強化學習與穩(wěn)定化控制相結合,實現(xiàn)了元宇宙環(huán)境中的高效時空協(xié)同[136],從而保障虛擬系統(tǒng)與物理系統(tǒng)間通信的極低延遲與高服務質(zhì)量。
    • 面向安全能源交易的區(qū)塊鏈集成 QRL:在電動出行能源交易等去中心化系統(tǒng)中,QRL 可與區(qū)塊鏈結合,優(yōu)化資源分配并保障數(shù)據(jù)交換安全[137]。通過智能合約與動態(tài)定價機制,QRL 實現(xiàn)低延遲、透明化的能源調(diào)度,顯著提升系統(tǒng)可信度與運行效率。
    • 無人機通信與協(xié)同性能提升:基于 QRL 的框架通過增強采樣效率、降低計算開銷,顯著改善了無人機軌跡優(yōu)化性能[138]。借助受格羅弗啟發(fā)的經(jīng)驗回放機制與動態(tài)動作空間調(diào)整,UAV 系統(tǒng)在軌跡規(guī)劃與通信中實現(xiàn)了更優(yōu)的同步性與穩(wěn)定性。
    • 通感一體化(Integrated Sensing and Communication, ISAC):在 ISAC 系統(tǒng)中,QRL 通過優(yōu)化感知與通信之間的權衡,提升了到達方向(DoA)估計與任務卸載等任務的性能[139]。尤其是量子行動者–評論家方法,在監(jiān)控與國防等實時場景中實現(xiàn)了更低延遲與更高保真度。
    • 6G 網(wǎng)絡中數(shù)字孿生部署優(yōu)化:多智能體 QRL 框架解決了邊緣計算環(huán)境下數(shù)字孿生部署的挑戰(zhàn),在滿足計算約束的同時顯著降低延遲[140]。得益于振幅編碼(amplitude encoding),QRL 可高效擴展,確保在復雜 6G 網(wǎng)絡中實現(xiàn)動態(tài)更新。
    • 無人機軌跡與資源分配的聯(lián)合優(yōu)化:QRL 已被應用于高機動性環(huán)境中的 UAV 軌跡與資源分配聯(lián)合優(yōu)化[141]。該方法通過在網(wǎng)絡中嵌入量子層,在降低能耗的同時保障通信穩(wěn)定性,顯著提升了系統(tǒng)延遲表現(xiàn)與可擴展性。

d)金融領域:金融本身是一個高度復雜且持續(xù)演化的領域,深受市場波動性及諸多不可預測因素的影響。這一點在做市(market making)、投資組合管理與訂單執(zhí)行等場景中尤為明顯——市場條件可能在數(shù)秒內(nèi)劇變,要求系統(tǒng)具備持續(xù)的適應能力與極快的決策速度[142]。傳統(tǒng)機器學習模型往往難以應對如此快速且動態(tài)的環(huán)境。近年來,強化學習(RL)在金融領域的應用日益廣泛:它使智能體能通過與市場交互進行學習,動態(tài)適應行情變化,并隨時間推移優(yōu)化決策策略。鑒于量子計算有望在金融領域率先實現(xiàn)實際應用價值[143],研究者已開始探索量子強化學習(QRL),以期在復雜金融場景中進一步提升適應性與決策能力。近期多項研究已在不同金融子領域中探索了 QRL 的應用,例如:

  • 深度對沖(Deep Hedging):文獻[144]開發(fā)了用于深度對沖的 QRL 方法。具體而言,采用含正交層與復合層結構的量子神經(jīng)網(wǎng)絡來表示策略函數(shù)與價值函數(shù);此外,作者還提出一種分布式的行動者–評論家算法(distributional actor-critic algorithm),其充分利用了量子態(tài)所天然蘊含的高維概率分布特性。
  • 算法交易:文獻[145]提出將量子長短期記憶網(wǎng)絡(QLSTM)與 QRL 相結合用于算法交易。該工作將 QLSTM 用于短期市場趨勢預測,再與量子異步優(yōu)勢行動者–評論家(Quantum Asynchronous Advantage Actor–Critic, QA3C)方法結合進行交易決策,構建出一種混合模型,可同時學習市場預測模式與交易策略。其中,QLSTM 作為市場趨勢的特征提取器,其輸出作為狀態(tài)輸入提供給 QA3C 智能體。
  • 金融科技交易決策優(yōu)化:文獻[146]將經(jīng)典 LSTM 與 QA3C 結合,應用于標普 500 指數(shù)交易。LSTM 模型用于生成宏觀經(jīng)濟與價格特征的一周前瞻性預測,這些預測結果作為附加的輸入特征饋入 QA3C 智能體,以輔助其決策。

e)量子架構搜索:盡管如第七節(jié) C 小節(jié)所述,經(jīng)典強化學習已成功應用于量子架構優(yōu)化,但近期研究進一步探索了全量子架構搜索——即量子智能體在量子環(huán)境中交互,以優(yōu)化線路設計與控制策略。文獻[147]中,量子智能體運行于一個量子環(huán)境,其動作對應于選擇量子門或操作以構建候選線路;線路構建完成后,智能體根據(jù)性能指標(如保真度、深度、參數(shù)數(shù)量等)獲得獎勵反饋,從而引導其偏好更優(yōu)架構。然而,該方向研究仍較為有限;目前大多數(shù)工作仍采用經(jīng)典 RL 進行量子架構搜索(QAS),或反過來利用 QAS 方法改進 QRL 智能體本身——例如文獻[148]與[149]所示。

IX. 未來方向與開放問題

量子機器學習(QML)近期備受關注,因其有望應對經(jīng)典機器學習中長期存在的可擴展性與計算瓶頸等難題。隨著 Qiskit、TensorFlow Quantum、PennyLane 等成熟軟件開發(fā)工具包(SDKs)的普及,以及精選數(shù)據(jù)集與基準測試平臺的陸續(xù)推出,QML 對更廣泛研究群體的可及性已顯著提升。然而,QML 的入門門檻仍處于中高水平,要求研究者扎實掌握量子力學與經(jīng)典機器學習框架。而量子強化學習(QRL)的門檻更高——除上述知識外,還需精通強化學習與優(yōu)化技術。此外,QRL 目前仍屬小眾領域,其推廣應用受到多重挑戰(zhàn)制約:

  1. 高度復雜性:QRL 的跨學科本質(zhì)要求研究者同時深入理解量子力學、強化學習算法及優(yōu)化方法論,極大限制了其在研究者與從業(yè)者中的普及。
  2. 資源匱乏:相比 QML,QRL 缺乏專用 SDK、精選數(shù)據(jù)集與標準化基準,嚴重阻礙實驗探索與社區(qū)發(fā)展。
  3. 硬件限制:QRL 算法的實用化部署往往依賴先進量子硬件;而當前技術在量子比特相干時間、錯誤率等方面仍存在顯著瓶頸,制約了 QRL 的規(guī)模化實現(xiàn)。
  4. 小眾現(xiàn)狀:受上述因素影響,QRL 尚未獲得廣泛采納,在吸引力上遠不及神經(jīng)網(wǎng)絡、支持向量機等主流機器學習范式。

盡管 QRL 面臨復雜性高、資源少等嚴峻挑戰(zhàn),它仍在可充分發(fā)揮量子優(yōu)勢的獨特問題上展現(xiàn)出巨大潛力。隨著量子硬件持續(xù)進步、配套資源日益豐富,QRL 有望為機器學習乃至更廣泛領域開辟全新可能。然而,其廣泛應用仍受若干緊迫挑戰(zhàn)拖累。下文我們將重點闡述 QRL 當前的主要局限與開放性問題。

A. QRL 架構

QRL 的架構設計至關重要,它直接決定了模型在不同任務中的學習能力、泛化性能與實際表現(xiàn)。關鍵架構選擇——如參數(shù)設定、激活函數(shù)類型與計算門配置——顯著影響網(wǎng)絡性能及其對特定應用的適用性。下文我們將討論若干近期在神經(jīng)網(wǎng)絡架構上的進展,這些設計可被遷移至 QRL 框架中;其靈感多源自經(jīng)典學習范式(參見表 V)。


a)科爾莫戈羅夫–阿諾德網(wǎng)絡(Kolmogorov–Arnold Network, KAN):KAN 的理論基礎是科爾莫戈羅夫–阿諾德表示定理,該定理指出:任意多元連續(xù)函數(shù)均可表示為有限個一元連續(xù)函數(shù)與加法運算的復合[150]。在 KAN 中,神經(jīng)元之間的每條連接均關聯(lián)一個可學習的一元函數(shù)(常以樣條函數(shù)參數(shù)化),使其能動態(tài)適應復雜數(shù)據(jù)模式。

KAN 在量子計算中的應用已在量子機器學習框架中得到成功驗證,顯著提升了量子態(tài)制備與變分量子線路(VQC)設計等任務的性能。例如,文獻[151]表明:KAN 可設計出結構更緊湊的 VQC——其雙量子比特門數(shù)量更少、線路深度更低,從而有效緩解當前 NISQ 設備面臨的主要限制,如噪聲敏感性與短相干時間。此外,文獻[152]指出:KAN 的可學習激活函數(shù)與高效參數(shù)化機制,使其性能優(yōu)于傳統(tǒng)多層感知機(MLP),展現(xiàn)出更強的魯棒性,并可擴展至更大規(guī)模的量子系統(tǒng)。

未來研究應將 KAN 拓展至多任務混合量子–經(jīng)典學習的 QRL 場景,提升所學函數(shù)的可解釋性,并借助專用硬件加速器降低執(zhí)行耗時,從而進一步擴大其在實用量子計算中的影響力。

b)卷積可微邏輯門網(wǎng)絡(Convolutional Differentiable Logic Gate Networks, CDLGNs):CDLGNs 是一種新型機器學習架構,它將邏輯門運算的高效性與卷積神經(jīng)網(wǎng)絡的強表征能力相結合。通過采用 NAND、OR、XOR 等邏輯門的可微松弛形式(differentiable relaxations),CDLGNs 支持基于梯度的優(yōu)化,從而能夠直接學習面向特定任務的邏輯門配置。該方法使得所構建的模型可僅使用邏輯門操作進行推理——這類運算在本質(zhì)上比傳統(tǒng)神經(jīng)網(wǎng)絡計算更快、更節(jié)省硬件資源。

在近期一項研究中[153],研究者僅使用 6100 萬個邏輯門就在 CIFAR-10 數(shù)據(jù)集上實現(xiàn)了86.29%的準確率。這一性能不僅超越了此前的最先進模型,且門數(shù)量減少了29 倍,充分彰顯了 CDLGNs 的高效性與可擴展性。

這為探索 CDLGNs 與量子啟發(fā)式強化學習(QiRL)的融合提供了新機遇:通過其高效的推理能力,CDLGNs 有望實現(xiàn)快速決策與策略評估,顯著降低計算開銷;其固有的可解釋性亦可為強化學習智能體的決策過程提供更深入的洞察,從而提升性能透明度與可控性。將 CDLGNs 整合進 RL 框架,有望在效率與可理解性兩方面推動重大進展。

c)連續(xù)變量量子神經(jīng)網(wǎng)絡(Continuous-Variable Quantum Neural Networks, CV-QNNs):CV-QNNs 是一類運行于連續(xù)變量量子計算框架下的量子神經(jīng)網(wǎng)絡。與傳統(tǒng)基于量子比特(qubit)的系統(tǒng)不同,CV-QNNs 將信息編碼在連續(xù)自由度上(如電磁場的振幅與相位),因而特別適合處理連續(xù)型數(shù)據(jù)。通過引入非高斯操作(non-Gaussian operations),CV-QNNs 可實現(xiàn)非線性激活函數(shù),從而構建具備通用計算能力的量子模型[154],[155]。

盡管其實現(xiàn)面臨諸多挑戰(zhàn)——例如需對連續(xù)量子態(tài)進行精密控制并維持相干性——CV-QNNs 仍具備顯著優(yōu)勢:

  • 天然適配連續(xù)數(shù)據(jù)處理;
  • 便于為多種量子算法進行數(shù)據(jù)編碼;
  • 可借助高維量子糾纏構建強大的計算模型。

Strawberry Fields[156]與Piquasso[157]等框架為新型 QRL 架構的設計提供了關鍵支持:

  • Strawberry Fields 提供了構建、仿真與優(yōu)化連續(xù)變量量子線路的全套工具;
  • Piquasso 則為建模與仿真連續(xù)變量量子系統(tǒng)提供了高度靈活的平臺。借助這些工具,研究者可探索能充分發(fā)揮 CV-QNNs 獨特能力的 QRL 架構,推動其在效率與可解釋性方面的進一步突破。

d)張量網(wǎng)絡(Tensor Networks):張量網(wǎng)絡是一類數(shù)學結構,它通過將高維張量分解為相互連接的低維張量,實現(xiàn)對復雜數(shù)據(jù)的高效表征與計算。該方法尤其擅長建模量子多體系統(tǒng)——能精準刻畫其中的復雜關聯(lián)與糾纏結構[158]。

在 QRL 背景下,張量網(wǎng)絡為解決 QRL 算法固有的可擴展性挑戰(zhàn)提供了極具前景的途徑。由于量子態(tài)空間呈指數(shù)級增長,加之量子硬件上的執(zhí)行時間隨規(guī)模急劇上升(如近期研究[159]所示),QRL 的規(guī)?;媾R嚴峻計算壓力。而利用張量網(wǎng)絡,可對這些龐大的態(tài)空間進行高效近似與管理,從而助力設計出更具可擴展性與實效性的 QRL 架構[160]。

文獻[161]進一步通過一種混合張量網(wǎng)絡–變分量子線路架構驗證了這一思路:該架構將矩陣乘積態(tài)(Matrix Product States, MPS)與變分量子線路相結合,用于強化學習任務。此外,強化學習與張量網(wǎng)絡的融合已被證明可顯著提升量子學習模型的可擴展性與性能。近期工作還探索了將 RL 與張量網(wǎng)絡結合以處理動力學大偏差(dynamical large deviations)問題,進一步展現(xiàn)了張量網(wǎng)絡在提升計算效率方面的通用性[162]??傮w而言,張量網(wǎng)絡為構建實用、高效的 QRL 框架開辟了一條可行路徑,直面執(zhí)行時間與資源消耗這一關鍵瓶頸。

e)量子訓練(Quantum-Train, QT):QT 是一種將量子計算與經(jīng)典機器學習算法相融合的框架——其在訓練階段利用量子神經(jīng)網(wǎng)絡(QNN)生成或優(yōu)化經(jīng)典神經(jīng)網(wǎng)絡(NN)的參數(shù)[163]。該方法有效應對了量子機器學習中的若干核心挑戰(zhàn),例如量子硬件訪問受限、數(shù)據(jù)編碼過程中的信息損失等。更重要的是,QT 顯著降低了訓練經(jīng)典 NN 所需的參數(shù)量。

這對 QRL 尤具潛力:在該領域,模型效率與可擴展性至關重要。類似思路已在文獻中初步探索——例如文獻[164]中僅在訓練階段使用 QNN 生成經(jīng)典策略網(wǎng)絡的參數(shù);該工作后續(xù)被拓展至基于 QT 的分布式多智能體強化學習:研究者利用多個量子處理單元(QPUs)實現(xiàn)并行訓練與參數(shù)同步[165]。這些成果共同指明了一條極具前景的 QRL 未來研究方向:即通過量子參數(shù)生成構建兼具可擴展性、高效性與硬件可行性的強化學習系統(tǒng)。

f)自適應非局域可觀測量(Adaptive Non-Local Observables, ANO):近期 QRL 架構設計的一個新方向聚焦于增強變分量子線路的測量層,而非一味增加線路深度。文獻[166]提出將 ANO 引入量子強化學習,以克服局域測量(local measurements)的表達能力局限。ANO 同時優(yōu)化線路參數(shù)與多量子比特聯(lián)合測量(multi-qubit measurements),在不增加線路深度的前提下顯著拓展了量子智能體的函數(shù)表達空間。實驗表明,當集成至 DQN 與 A3C 框架時,采用 ANO 的 VQC 智能體(ANO-VQC)相比傳統(tǒng) VQC 實現(xiàn)了更快收斂更高累積獎勵。未來研究可進一步探索將自適應可觀測量與其他架構范式(如 KAN、CV-QNN 或張量網(wǎng)絡)相結合的可能性。

B. 大語言模型與 QRL

大語言模型(Large Language Models, LLMs)已成為代碼生成的關鍵工具,顯著提升了開發(fā)者生產(chǎn)力,并降低了新手開發(fā)者的學習門檻[167]–[169]。盡管 StarCoder、Code Llama 和 DeepSeek Coder 等通用模型在傳統(tǒng)編程基準測試中表現(xiàn)優(yōu)異,但在專業(yè)化量子領域仍面臨顯著局限——該領域要求深厚且精細的領域知識[170]–[172]。

主流量子軟件開發(fā)工具包(如 Qiskit、Cirq、PennyLane 和 OpenQASM)深度植根于量子力學原理,是應對量子線路復雜性并支撐先進量子算法開發(fā)不可或缺的工具[46]–[48]。除通用 SDK 外,面向特定應用的專業(yè)工具也在各自領域發(fā)揮關鍵作用:

  • 量子傳感:如 OQuPy[173];
  • 量子控制:如 QuTiP[174];
  • 量子通信:如 NetSquid[175]。

為彌合通用 LLM 與領域?qū)I(yè)化需求之間的鴻溝,量子專用代碼輔助工具應運而生。例如:

  • Qiskit憑借其模塊化設計,支持從高層算法設計到低層量子門操作的多級抽象編程,并具備線路優(yōu)化與硬件重定向能力,適配多種量子架構;其配套的 Qiskit Code Assistant 可為量子編程經(jīng)驗有限的用戶提供定制化代碼片段[176];
  • KetGPT通過向訓練數(shù)據(jù)集中注入模擬真實算法的合成量子線路,增強 LLM 的量子領域能力,顯著提升其生成量子指令的準確性[177]。

為評估面向量子編程的 LLM,研究者已構建若干專用基準:

  • Qiskit HumanEval包含 100 余項任務,涵蓋量子線路生成、態(tài)制備與算法實現(xiàn),對功能正確性與可執(zhí)行代碼生成設定了高標準[178];
  • QASMBench聚焦低層 OpenQASM 評估,關注門保真度、線路深度與跨平臺(如 IBMQ、Rigetti)噪聲魯棒性等指標[179];
  • MQT Bench橫跨從算法設計到硬件部署的多級抽象,評估不同量子處理器上的雙量子比特門數(shù)量與線路深度等性能[180];
  • VHDL-EvalL2CEval則將評估延伸至硬件描述語言與多領域代碼生成等專業(yè)化場景[181],[182]。

受上述進展啟發(fā),QRL 智能體的開發(fā)正成為自然延伸方向。QRL 智能體旨在融合量子力學原理與強化學習機制,構建可在量子環(huán)境中自主導航的代理系統(tǒng)。然而,設計高效的 QRL 智能體需集成量子計算與強化學習兩方面的工具——其必須支持:

  • 量子態(tài)的高效建模;
  • 量子門的施加與線路優(yōu)化;
  • 與量子環(huán)境的交互以獲取反饋并動態(tài)調(diào)整策略。

未來可借鑒 Qiskit HumanEval 或 QASMBench 等基準,構建面向 QRL 的評估體系,用于衡量智能體在量子態(tài)制備、門優(yōu)化以及強化學習特有目標(如策略收斂性、樣本效率)等方面的表現(xiàn)。依托這些基礎,QRL 智能體有望在量子機器學習中開辟新前沿,為量子算法提供可擴展、高效率的解決方案。

C. 以量子為中心的超級計算

以量子為中心的超級計算(Quantum-Centric Supercomputing)指一種混合計算范式:量子處理器與經(jīng)典高性能計算(HPC)系統(tǒng)無縫集成,在統(tǒng)一架構中利用量子能力加速特定任務。QRL 與量子啟發(fā)式強化學習在實現(xiàn)這一范式中潛力巨大——它們能有效橋接經(jīng)典與量子計算范式,協(xié)同優(yōu)化硬件利用與算法設計[183]。

典型案例如文獻[184]所提出的系統(tǒng):分布式量子卷積網(wǎng)絡運行于獨立量子處理器上,其輸出由經(jīng)典組件在雙重深度 Q 網(wǎng)絡(Double Deep Q-Network)框架下聚合。該設計展示了可擴展的量子工作負載分布能力,以及對高維數(shù)據(jù)的高效處理能力。

此類框架可通過應對以下關鍵挑戰(zhàn),在構建可擴展、高效率量子系統(tǒng)中發(fā)揮核心作用:

  • 混合系統(tǒng)優(yōu)化:QRL 將經(jīng)典強化學習與量子操作融合,動態(tài)優(yōu)化量子–經(jīng)典混合工作負載,從而改善資源分配、緩解瓶頸,并加速容錯量子計算任務;
  • 量子工作負載分布:量子啟發(fā)式強化學習可高效協(xié)調(diào)量子與經(jīng)典協(xié)處理器(如 QPU 與 GPU)間的工作負載分配;自適應的“線路編織”(circuit knitting)方法進一步強化了該能力,使 QRL 成為量子–經(jīng)典系統(tǒng)協(xié)同計算的關鍵協(xié)調(diào)機制;
  • 增強訓練與校準:QRL 智能體可自動化地重新校準量子設備,最小化相干性損失,抑制誤差累積——這對維持大規(guī)模量子系統(tǒng)的性能至關重要;
  • 算法演進:量子啟發(fā)式強化學習推動面向 NISQ 及更先進設備的啟發(fā)式算法發(fā)展:這些算法既能應對當前系統(tǒng)的噪聲與量子比特數(shù)量限制,又為向“實用級量子超級計算機”(utility-scale quantum supercomputers)過渡做好準備;
  • 可擴展性與容錯性:QRL 有助于設計容錯邏輯量子比特操作策略,并優(yōu)化量子糾錯碼的使用效率,大幅降低擴展至百萬級物理量子比特(實用級超算所需規(guī)模)的資源開銷。

X. 結論

本綜述強調(diào)了量子強化學習(QRL)在推動量子計算發(fā)展及其與經(jīng)典系統(tǒng)融合方面的巨大潛力。通過充分利用量子力學的核心原理——如疊加與糾纏——QRL 框架能夠在復雜決策任務中實現(xiàn)更高效的探索、策略學習與優(yōu)化。其中,變分量子線路(VQC)的應用有效應對了 NISQ 設備中噪聲干擾與相干時間有限等現(xiàn)實挑戰(zhàn),使 QRL 成為實現(xiàn)近期量子優(yōu)勢(near-term quantum advantage)的可行路徑。

近期進展充分展現(xiàn)了 QRL 的廣泛適用性:其已在量子架構搜索、量子傳感、優(yōu)化問題以及經(jīng)典場景中的自主系統(tǒng)等多個領域取得突破性成果。若干關鍵創(chuàng)新——例如基于 KAN 架構的可學習激活函數(shù)、自適應...

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
49歲趙薇廣東飯局近照瘋傳!瘦脫相顯兇相,當年小燕子徹底涼透了

49歲趙薇廣東飯局近照瘋傳!瘦脫相顯兇相,當年小燕子徹底涼透了

李健政觀察
2025-12-11 09:22:16
中興通訊:正與美國司法部就有關事項進行溝通

中興通訊:正與美國司法部就有關事項進行溝通

界面新聞
2025-12-11 12:26:44
為何中國急需實施“休養(yǎng)生息”戰(zhàn)略?

為何中國急需實施“休養(yǎng)生息”戰(zhàn)略?

西虹市閑話
2025-12-09 14:22:19
山東村支書賣小米被舉報封店!當場喊話雷軍:放我們一馬行不行

山東村支書賣小米被舉報封店!當場喊話雷軍:放我們一馬行不行

亡海中的彼岸花
2025-12-11 10:17:06
共度危機!皇馬4人公開力挺阿隆索:100%支持他 沒人放棄

共度危機!皇馬4人公開力挺阿隆索:100%支持他 沒人放棄

葉青足球世界
2025-12-11 19:31:34
隨著孫穎莎4-0王藝迪,總決賽女單八強出爐:國乒占5席,日本2人

隨著孫穎莎4-0王藝迪,總決賽女單八強出爐:國乒占5席,日本2人

侃球熊弟
2025-12-11 21:03:14
價格大跳水!有人1.8萬元買的如今只能賣180元!網(wǎng)友:太后悔了

價格大跳水!有人1.8萬元買的如今只能賣180元!網(wǎng)友:太后悔了

佛山電視臺小強熱線
2025-12-11 20:27:46
柏楊超巨失誤!回傳送單刀+拉人送點,媒體人:看得我七竅生煙

柏楊超巨失誤!回傳送單刀+拉人送點,媒體人:看得我七竅生煙

奧拜爾
2025-12-11 22:01:05
泰國發(fā)現(xiàn)情況不對,第三國勢力進場幫柬埔寨?泰軍用中文發(fā)表聲明

泰國發(fā)現(xiàn)情況不對,第三國勢力進場幫柬埔寨?泰軍用中文發(fā)表聲明

觸摸史跡
2025-12-11 20:19:07
范曾87歲生子,打破了中國男性最高齡生育紀錄

范曾87歲生子,打破了中國男性最高齡生育紀錄

深度財線
2025-12-11 15:52:54
官媒親宣,34歲韋東奕再破天花板,辦公室內(nèi)景曝光,新水杯未開封

官媒親宣,34歲韋東奕再破天花板,辦公室內(nèi)景曝光,新水杯未開封

烏娛子醬
2025-12-11 16:37:45
悲催!深圳一大廠最后通牒,要求員工限期返崗復工,否則全部開除

悲催!深圳一大廠最后通牒,要求員工限期返崗復工,否則全部開除

火山詩話
2025-12-11 07:48:46
一炮“送走”柬埔寨副司令,泰軍三軍壓境,不把洪森打服誓不罷休

一炮“送走”柬埔寨副司令,泰軍三軍壓境,不把洪森打服誓不罷休

大國知識局
2025-12-10 22:21:12
8個小時對決,紅旗12導彈苦戰(zhàn)F-16戰(zhàn)機:柬軍5千發(fā)火箭彈絕地反擊

8個小時對決,紅旗12導彈苦戰(zhàn)F-16戰(zhàn)機:柬軍5千發(fā)火箭彈絕地反擊

古史青云啊
2025-12-11 14:25:26
利物浦全隊支持主帥!薩拉赫眾叛親離:48小時內(nèi)決定未來

利物浦全隊支持主帥!薩拉赫眾叛親離:48小時內(nèi)決定未來

葉青足球世界
2025-12-11 20:50:10
段永平接受王石訪談:80%以上的散戶“牛市”“熊市”都虧錢!談泡泡瑪特:看不懂,不投資

段永平接受王石訪談:80%以上的散戶“牛市”“熊市”都虧錢!談泡泡瑪特:看不懂,不投資

每日經(jīng)濟新聞
2025-12-09 22:25:06
雨果忘暫停2-4出局,小勒布倫獲勝模仿樊振東慶祝手勢,約戰(zhàn)張本

雨果忘暫停2-4出局,小勒布倫獲勝模仿樊振東慶祝手勢,約戰(zhàn)張本

乒談
2025-12-11 22:16:30
浙金暴雷200億,真相比你想的更可怕!

浙金暴雷200億,真相比你想的更可怕!

思哲與創(chuàng)富
2025-12-11 10:27:36
剛剛會議解讀,風向變了!

剛剛會議解讀,風向變了!

子木聊房
2025-12-11 18:26:42
自稱男友趁自己身體不適時發(fā)生關系致抑郁 女研究生索賠7萬元 一審被駁回

自稱男友趁自己身體不適時發(fā)生關系致抑郁 女研究生索賠7萬元 一審被駁回

極目新聞
2025-12-11 14:58:18
2025-12-12 00:23:00
CreateAMind incentive-icons
CreateAMind
CreateAMind.agi.top
1057文章數(shù) 17關注度
往期回顧 全部

科技要聞

豆包剛被微信淘寶們"群毆" ,又有人來搶位

頭條要聞

男子訂1600元一晚的別墅套餐 妻子摔骨折鋼板陪伴終生

頭條要聞

男子訂1600元一晚的別墅套餐 妻子摔骨折鋼板陪伴終生

體育要聞

你最看不上的人,關鍵時刻卻最想救你...

娛樂要聞

黃慧頤曝保劍鋒出軌細節(jié)!

財經(jīng)要聞

明年經(jīng)濟工作怎么干 中央經(jīng)濟工作會議定調(diào)

汽車要聞

長途穿越更輕松 二代哈弗H9穿越版限時售23.29萬

態(tài)度原創(chuàng)

本地
時尚
手機
教育
公開課

本地新聞

打工人夢想中的生活,寵物已經(jīng)提前過上了

12月的奇跡,是“白”給的!

手機要聞

OPPO Reno15c現(xiàn)身,有望本月發(fā)布

教育要聞

2025年度河南省中小學教師正高級職稱評審講課答辯須知(附市區(qū)人員名單)

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 无码精品人妻一区二区三| 日本国产制服丝袜一区| 久久夜色av| 污污污污污污污网站污| 无码人妻丰满熟妇毛片| 66999热热| 久久久精品人妻无码专区不卡| 色中涩在线观看高清一区二区| 18分钟处破好疼哭视频在线观看| 天天躁狠狠躁| 久久精品国产99久久无毒不卡| 真实国产乱子伦精品视频| 日韩无码av毛片| 天天干成人网| 国产欧美日韩在线中文一区| 少妇高潮一区二区三区久久| 米奇影院77777在线观看| 波多そら无码av巨大黑人| 国产资源精品一区二区免费| 亚洲 小说区 图片区 都市| 华人在线亚洲欧美精品| 日韩图区 你懂的| 国产91在线免费| 真人做人60分钟啪啪免费看| 国内精品久久久久影院一蜜桃| 兰州熟女专区| 色www婷婷| 在线 欧美 中文 亚洲 精品| 成人在线观看一区二区| 国产推油按摩在线视频| 日韩av一区二区无码| 久久精品国产99久久无毒不卡| 伦埋琪琪电影院久久| 日韩一区二区在线观看视频| 欧美日韩人妻综合在线| 六月丁香五月婷婷| 爆乳熟妇一区二区三区| 午夜西瓜视频在线观看| 亚洲av成人一区国产精品| 亚洲AV无码理论亚洲毛片| 亚洲2019AV无码网站在线|