網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

在WAIC耳朵聽出繭子的「智能體」，是時候系統(tǒng)學(xué)一下了

2025-08-04 16:13:24　來源: 機(jī)器之心Pro

北京舉報

分享至

摘自Deep（Learning）Focus

作者：Cameron R. Wolfe

機(jī)器之心編譯

在今年的世界人工智能大會（WAIC）上，智能體是絕對的主角，從 C 端產(chǎn)品到企業(yè)級應(yīng)用，每家參展的 AI 廠商似乎都要提一下在智能體方向的布局。

這其實(shí)揭示了一個重要轉(zhuǎn)變：人們不再把 AI 大模型當(dāng)成一個單純的聊天機(jī)器人，而是希望它能像人一樣主動思考、制定計(jì)劃、使用各種工具來完成任務(wù)，這是接下來大模型走向應(yīng)用的重要方向。

看來，對于 AI 從業(yè)者來說，是時候系統(tǒng)了解一下「智能體」了。

剛好，我們找到了一篇寫得非常全面的博客。博客作者是Netflix 高級研究科學(xué)家、萊斯大學(xué)博士 Cameron R. Wolfe。他從最基礎(chǔ)的 LLM 說起，逐步引入工具、推理、自主規(guī)劃的能力，深度分析了 AI 智能體的底層邏輯。

博客地址：https://cameronrwolfe.substack.com/p/ai-agents

以下是博客的詳細(xì)內(nèi)容。

LLM及其能力

標(biāo)準(zhǔn)LLM的輸入輸出特征

標(biāo)準(zhǔn) LLM 的功能如上所示。給定一個文本提示，LLM 生成一個文本響應(yīng)。從許多方面來看，LLM 的通用性是其最大的優(yōu)勢之一

這一部分將概述如何通過利用這種文本到文本的結(jié)構(gòu)，將推理或與外部 API 交互等新能力集成到 LLM 中?，F(xiàn)代 AI 智能體的高級能力在很大程度上是建立在這一基礎(chǔ)功能之上的。

工具使用

隨著 LLM 逐漸變得更強(qiáng)大，如何快速教會它們集成并使用外部工具已成為 AI 研究中的熱門話題。舉些例子，計(jì)算器、日歷、搜索引擎、代碼解釋器等有用工具均可以與 LLM 集成。

簡單來說，LLM 顯然并不是解決所有任務(wù)的最佳工具。在很多情況下，執(zhí)行任務(wù)都存在更簡單、更可靠的工具。但考慮到 LLM 在規(guī)劃和協(xié)調(diào)方面的優(yōu)勢，可以輕松地教會它們使用這些基本工具，并運(yùn)用工具作為解決問題過程的一環(huán)。

LLM 使用工具解決問題的基本思想，是賦予 LLM 將子任務(wù)提交給更專業(yè)或更強(qiáng)大的工具的能力。LLM 充當(dāng)「大腦 / 指揮官」，協(xié)調(diào)不同的專業(yè)工具協(xié)同工作。

1、針對工具使用的微調(diào)

早期的研究采用了針對性的微調(diào)，教會 LLM 如何利用一系列固定的工具，只需精心調(diào)整訓(xùn)練示例，將對某個工具的函數(shù)調(diào)用直接插入到 LLM 的 token 流中，如下圖所示。

大語言模型工具調(diào)用的結(jié)構(gòu)

在訓(xùn)練過程中，這些工具調(diào)用與其他任何 token 類似 —— 它們都只是文本序列的一部分。LLM 在推理時（inference time）生成工具調(diào)用時，將按照以下步驟處理它：

1. 停止生成 token。

2. 解析工具調(diào)用（即確定正在使用的工具及其參數(shù)）。

3. 使用這些參數(shù)調(diào)用該工具。

4. 將工具返回的響應(yīng)添加到 LLM 的 token 流中。

5. 繼續(xù)生成 token。

調(diào)用的工具可以在 LLM 生成輸出時實(shí)時處理，工具返回的信息將直接添加到模型的上下文中

2、基于提示的工具使用

教會 LLM 通過微調(diào)來調(diào)用工具通常需要一個大規(guī)模的訓(xùn)練數(shù)據(jù)集，通常還需要人工注釋。隨著 LLM 能力的提升，后續(xù)的研究強(qiáng)調(diào)了基于上下文學(xué)習(xí)的方法來實(shí)現(xiàn)工具使用。

為什么我們要選擇對一個語言模型進(jìn)行微調(diào)，而不是簡單地在模型的提示詞中解釋可供使用的工具呢？

Hugginggpt與Gorilla工作將LLM與工具集成。

基于提示詞的工具使用減少了人工干預(yù)，使得我們能夠大幅增加 LLM 可訪問的工具數(shù)量。

例如，該領(lǐng)域的后續(xù)研究將 LLM 與數(shù)百個甚至數(shù)千個工具進(jìn)行了集成，如上圖所示。為了實(shí)現(xiàn)這一點(diǎn)，可以將每個工具視為一個通用 API，并在模型的提示中提供相關(guān) API 的架構(gòu)作為上下文。這種方法使得 LLM 能夠通過標(biāo)準(zhǔn)化結(jié)構(gòu)與互聯(lián)網(wǎng)上的任意 API 進(jìn)行集成，從而使得無數(shù)的應(yīng)用成為可能。例如，查找信息、調(diào)用其他 ML 模型、預(yù)訂假期、管理日歷等。

3、模型上下文協(xié)議（Model context protocol ，MCP）

MCP 由 Anthropic 提出，是一個受歡迎的框架，擴(kuò)展了讓 LLM 與任意工具互動的理念。

簡單來說，MCP 將外部系統(tǒng)將上下文提供給 LLM 提示的格式進(jìn)行了標(biāo)準(zhǔn)化。為了應(yīng)對復(fù)雜問題，LLM 需要隨著時間的推移集成更多的外部工具。為了簡化這個過程，MCP 提出了一種標(biāo)準(zhǔn)格式，并允許開發(fā)者創(chuàng)建預(yù)先建立的集成（稱為 MCP 服務(wù)器），可以被任何 LLM 調(diào)用，以連接各種自定義數(shù)據(jù)源，如下圖所示。

MCP的整體架構(gòu)示意圖

4、工具使用的局限性

盡管工具使用具有強(qiáng)大的能力，但仍受到 LLM 推理能力的限制。為了有效地利用工具，LLM 必須具備以下能力：

1. 將復(fù)雜問題分解為較小的子任務(wù)。

2. 確定應(yīng)使用哪些工具來解決問題。

3. 可靠地構(gòu)建對相關(guān)工具的調(diào)用，并確保格式正確。

復(fù)雜的工具使用要求 LLM 成為一個高效的指揮官，在很大程度上依賴于模型的推理能力和整體可靠性

推理模型

鑒于智能體特征與推理之間的關(guān)系，推理能力多年來一直是 LLM 研究的核心焦點(diǎn)。

有關(guān)當(dāng)前推理研究的更深入概述，請參閱以下博客：

博客鏈接：https://cameronrwolfe.substack.com/p/demystifying-reasoning-models

為了本文完整性，我們將在這里簡要介紹推理模型背后的關(guān)鍵思想。

1、思維鏈（Chain of Thought, CoT）

當(dāng) LLM 出現(xiàn)時，最常見的批評之一是這些模型無法執(zhí)行復(fù)雜的推理。然而，關(guān)于思維鏈（Chain of Thought，CoT）的研究揭示了，普通的 LLM 實(shí)際上比我們最初意識到的更擅長推理。

CoT 提示詞背后的思想很簡單。我們并不是直接請求 LLM 給出最終的輸出，而是要求它在給出最終輸出之前，先生成一個推理過程或解釋，如下圖所示。

這種方法通過引導(dǎo) LLM 進(jìn)行逐步推理，幫助其在解決問題時更加系統(tǒng)地展示思維過程，從而提升其推理能力。通過展示思維鏈，模型能夠更好地理解問題的各個方面，從而得出更為準(zhǔn)確和合理的結(jié)論。

CoT提示詞使LLM輸出推理過程

有趣的是，這種方法顯著提高了普通 LLM 在推理任務(wù)中的表現(xiàn)。如果我們能找到正確的方法來引導(dǎo)這些能力，LLM 實(shí)際上是能夠在一定程度上進(jìn)行復(fù)雜推理的。

2、推理模型

CoT 提示詞非常有效，是所有現(xiàn)代 LLM 的核心部分；例如，ChatGPT 通常默認(rèn)會在其回答中輸出 CoT。

然而，這種推理方法也有些過于簡單。整個推理過程圍繞 LLM 生成的 CoT 展開，并且沒有根據(jù)待解決問題的復(fù)雜性進(jìn)行動態(tài)調(diào)整。

最近的研究引入了新的訓(xùn)練策略，創(chuàng)造了專門用于推理的 LLM（即推理模型），例如 DeepSeek。與標(biāo)準(zhǔn) LLM 相比，這些模型在解決問題時采取不同的方式 ——它們在給出問題答案之前，會花費(fèi)不定量的時間進(jìn)行「思考」

DeepSeek 引入新的思考方式

推理模型的思考過程與標(biāo)準(zhǔn)的思維鏈條類似，但推理模型的 CoT 通常比標(biāo)準(zhǔn) LLM 的長得多（可以有數(shù)千個 token），并且傾向于表現(xiàn)出復(fù)雜的推理行為（例如回溯和自我修正），還可以根據(jù)問題的難度動態(tài)調(diào)整 —— 更難的問題需要更長的 CoT。

使推理模型成為可能的關(guān)鍵進(jìn)展是通過可驗(yàn)證獎勵強(qiáng)化學(xué)習(xí)（Reinforcement Learning from Verifiable Rewards，RLVR）進(jìn)行的大規(guī)模后訓(xùn)練，如下圖所示。

如果我們擁有一個包含可驗(yàn)證問題（例如數(shù)學(xué)或編程）標(biāo)準(zhǔn)答案的數(shù)據(jù)集，就可以簡單地檢查 LLM 生成的答案是否正確，并利用這一信號來通過強(qiáng)化學(xué)習(xí)訓(xùn)練模型。推理模型自然就會通過強(qiáng)化學(xué)習(xí)驅(qū)動的自我進(jìn)化來生成長思維鏈，以解決可驗(yàn)證的推理問題。

RLVR工作原理概述

我們探索了LLM在沒有任何監(jiān)督數(shù)據(jù)的情況下發(fā)展推理能力的潛力，重點(diǎn)關(guān)注它們通過純強(qiáng)化學(xué)習(xí)過程實(shí)現(xiàn)自我進(jìn)化。

3、推理軌跡

總之，通過使用 RLVR 進(jìn)行大規(guī)模后訓(xùn)練的推理模型，會改變標(biāo)準(zhǔn) LLM 的行為，如下圖所示。

推理模型不是直接生成輸出，而是首先生成一個任意長度的思維鏈，該鏈分解并解決推理任務(wù) —— 這就是「思考」過程。我們可以通過控制推理軌跡的長度來改變模型思考的深度

例如，OpenAI 的推理模型 o 系列提供了低、中、高三個不同級別的推理深度。

推理模型的輸入輸出特征

盡管模型在給定提示詞后仍然生成一個單一的輸出，但推理軌跡隱式地展示了多種高級行為；例如，規(guī)劃、回溯、監(jiān)控、評估等。

4、推理 + 智能體

一個足夠強(qiáng)大的 LLM，能夠根據(jù)指令做出規(guī)劃并有效地對其指令進(jìn)行推理，應(yīng)該具備分解問題、解決子任務(wù)，并最終自行得出解決方案的完整能力。為 LLM 提供更多的自主性，并依賴它們的能力 —— 而不是人工干預(yù) —— 來解決復(fù)雜問題，是智能體系統(tǒng)的核心思想

為了更清楚地說明智能體的概念，接下來將討論一個可以用來設(shè)計(jì)這類系統(tǒng)的框架。

ReAct 框架

ReAct（REasoning and ACTion）是第一個被提出的通用框架之一，旨在通過 LLM 智能體自主地分解并解決復(fù)雜問題

我們可以將 ReAct 視為一個由 LLM 驅(qū)動的順序的、多步的問題解決過程。在每一個時間步驟 t，LLM 整合任何可用的反饋，并考慮問題的當(dāng)前狀態(tài)，從而使其能夠有效地推理并選擇未來的最佳行動方案。

為智能體創(chuàng)建框架

在某個特定的時間步 t，我們的智能體從環(huán)境中接收一個觀察值 o_t。基于這個觀察，智能體將決定采取某個行動 a_t，這個行動可以是中間步驟 —— 例如，通過搜索網(wǎng)絡(luò)來找到所需的數(shù)據(jù) —— 或者是解決當(dāng)前問題的最終行動。

我們定義智能體用于生成這一行動的函數(shù)為策略 π。該策略將上下文（智能體之前的行動和觀察的串聯(lián)列表）作為輸入，預(yù)測下一個行動 a_t 作為輸出，可以是確定性或者隨機(jī)性的。

如下圖所示，這個觀察與行動的循環(huán)將持續(xù)進(jìn)行，直到智能體輸出最終行動。

智能體的觀察-行動循環(huán)

ReAct 框架對上述觀察 - 行動循環(huán)進(jìn)行了一個關(guān)鍵修改。其擴(kuò)展了行動空間，允許語言作為行動的一種形式，這樣智能體就可以選擇生成文本輸出作為行動，而不是采取傳統(tǒng)的行動。

換句話說，智能體在輸出行動之外可以選擇「思考」

ReAct 框架

顧名思義，ReAct 的主要動機(jī)是找到推理與行動之間的平衡。類似于人類，智能體應(yīng)該能夠思考并規(guī)劃它在環(huán)境中采取的行動，即推理與行動之間具有共生關(guān)系

智能體是如何思考的？

傳統(tǒng)的智能體行動空間是離散的，并且大多數(shù)情況下相對較小。例如，一個專門用于問答的智能體可能只有幾種行動選項(xiàng)：

* 執(zhí)行 Google 搜索以檢索相關(guān)網(wǎng)頁。

* 從特定網(wǎng)頁中抓取相關(guān)信息。

* 返回最終答案。

智能體的行動空間示例

相比之下，語言的空間幾乎是無限的

因此，ReAct 框架要求使用強(qiáng)大的語言模型作為基礎(chǔ)。為了生成對性能有益的有用思考，智能體系統(tǒng)的 LLM 后臺必須具備先進(jìn)的推理和規(guī)劃能力。

1、思維模式

智能體可以生成的常見實(shí)用思維模式包括：分解任務(wù)、創(chuàng)建行動計(jì)劃、跟蹤進(jìn)展，或僅僅輸出來自 LLM 隱式知識庫的（與解決問題相關(guān)的）信息。

智能體利用其思考能力明確描述問題解決方案，然后執(zhí)行計(jì)劃并同時監(jiān)控執(zhí)行情況。

在上述兩個例子中，智能體明確寫出了解決問題時需要執(zhí)行的下一步操作；例如，「接下來，我需要……」或「我需要搜索……」。

給ReAct智能體的少樣本示例

在大多數(shù)情況下，智能體產(chǎn)生的思考模仿了人類解決問題的過程

事實(shí)上，ReAct 實(shí)驗(yàn)通過提供任務(wù)解決軌跡的上下文示例（即，行動、思考和觀察）來指導(dǎo)智能體解決問題。這些上下文是人類用來解決類似問題的過程。以這種類型提示詞訓(xùn)練的智能體更有可能采用與人類相似的推理過程。

我們讓語言模型自行決定思維和行動不同出現(xiàn)時機(jī)。

2、智能體在什么時候應(yīng)當(dāng)思考？

根據(jù)我們所解決的問題，ReAct 框架可以進(jìn)行不同的設(shè)置。

對于推理密集型任務(wù)，思考通常與行動交替進(jìn)行 —— 我們可以將智能體硬編碼，使其在每個行動之前生成一個單獨(dú)的思考。然而，智能體也可以被賦予自我判斷是否需要思考的能力。對于需要大量行動的任務(wù)（決策任務(wù)），智能體可能會選擇在其問題解決軌跡中較少地進(jìn)行思考。

具體應(yīng)用案例

在 ReAct 論文中，考慮了 ReAct 框架的兩個應(yīng)用案例：

1.知識密集型推理：使用 ReAct 進(jìn)行問答和事實(shí)驗(yàn)證任務(wù)（例如，HotpotQA 和 FEVER）。

2.決策制定：將 ReAct 應(yīng)用于交互式（基于語言的）決策任務(wù)；例如，ALFWorld 用于模擬導(dǎo)航，WebShop 用于完成自主購物任務(wù)。

1、知識密集型推理

在這個領(lǐng)域，LLM 智能體只接收一個問題或命題作為輸入。為了回答問題或評估命題的正確性，LLM 必須依賴于其內(nèi)部知識庫或從外部環(huán)境中檢索必要的信息。

具體來說，智能體的行動空間如下圖所示。

ReAct 在知識密集型推理中的行動空間

在這里，我們看到作者通過智能體的行動空間暴露了基本的信息檢索功能 —— 這反映了人類如何在 Wikipedia 上查找信息。

與傳統(tǒng)的 LLM 不同，ReAct 智能體不會每次提示時只生成一個輸出。相反，智能體按以下順序生成輸出：

1. 選擇一個要執(zhí)行的行動（可以是具體行動或思考）。

2. 根據(jù)這個行動從環(huán)境中獲得反饋（例如，從搜索查詢中檢索到的信息）。

3. 基于這個新的上下文繼續(xù)執(zhí)行下一個行動。

最終，智能體會執(zhí)行最終行動，以結(jié)束解決問題的過程。

如下圖所示，這個有狀態(tài)、有順序的問題解決方法是智能體的特征，顯著區(qū)分于標(biāo)準(zhǔn) LLM。

使用 ReAct 按順序解決問題

2、決策制定

在決策制定任務(wù)中，ReAct 的設(shè)置與知識密集型推理任務(wù)非常相似。對于這兩種任務(wù)，人工手動注釋了多個推理軌跡，這些軌跡作為上下文示例提供給 ReAct 智能體。

然而，與知識密集型推理任務(wù)不同，ReAct 在決策制定任務(wù)中使用的思維模式是稀疏的 —— 模型在何時以及如何進(jìn)行思考時要自主判斷。

此外，對于 WebShop 數(shù)據(jù)集，ReAct 智能體提供了更多種類的工具和行動選項(xiàng)；例如，搜索、篩選、選擇產(chǎn)品、選擇產(chǎn)品屬性、購買產(chǎn)品等。這個應(yīng)用為 ReAct 與更復(fù)雜環(huán)境的交互提供了一個很好的測試場景。

3、ReAct 表現(xiàn)如何？

上面描述的 ReAct 智能體與幾個基準(zhǔn)模型進(jìn)行了比較：

Prompting：少量示例提示，去除思維、行動和觀察，只留下問題和答案。
CoT Prompting：與上述相同，但模型被提示在輸出最終解決方案之前生成一條思維鏈。
Act（僅行動）：從 ReAct 軌跡中去除思維，僅保留觀察和行動。
Imitation（模仿）：通過模仿和 / 或強(qiáng)化學(xué)習(xí)訓(xùn)練的智能體，模擬人類的推理軌跡。

如下圖所示，ReAct 框架始終優(yōu)于 Act，揭示了智能體在行動時進(jìn)行思考的能力是極其重要的。進(jìn)一步來看，我們發(fā)現(xiàn) CoT 提示是一個強(qiáng)大的基準(zhǔn)，在某些情況下超過了 ReAct 的表現(xiàn)，但在 LLM 容易發(fā)生幻覺的場景中表現(xiàn)不佳，而 ReAct 能夠利用外部信息源避免這些幻覺的產(chǎn)生。

最后，我們看到 ReAct 智能體的性能仍有很大提升空間。事實(shí)上，ReAct 探討的智能體系統(tǒng)相當(dāng)脆弱；例如，作者指出，僅僅檢索到了無信息量的信息就可能導(dǎo)致失敗。

ReAct 框架的表現(xiàn)

4、ReAct + CoT

ReAct 在解決問題的過程中是客觀實(shí)際的。CoT 提示在制定解決復(fù)雜推理任務(wù)的結(jié)構(gòu)方面表現(xiàn)出色。ReAct 將嚴(yán)格的觀察、思維和行動結(jié)構(gòu)強(qiáng)加于智能體的推理軌跡上，而 CoT 則在制定推理過程時具有更多的靈活性。

為了同時獲得兩種方法的優(yōu)點(diǎn)，我們可以在它們之間進(jìn)行切換。

例如，如果 ReAct 在 N 步后未能返回答案，可以默認(rèn)切換到 CoT 提示（即 ReAct → CoT）；或者，如果多個 CoT 樣本之間存在分歧，則使用 ReAct（即 CoT → ReAct）。

無論是向 ReAct 還是向 CoT 切換，都能提升智能體的解決問題能力

先前對智能體的嘗試

盡管 ReAct 可以說是第一個長期存在的 AI 智能體框架，但在智能體領(lǐng)域之前已有許多有影響力的論文和想法。這里將簡要概述一些關(guān)鍵的方法以及它們的性能。

1、Inner monologue，IM

這是與 ReAct 最為相似的工作之一，并應(yīng)用于機(jī)器人領(lǐng)域，展示了將 LLM 作為一個通用問題解決工具在自然語言以外的領(lǐng)域中的可行性。

如圖所示，IM 將 LLM 與多個領(lǐng)域特定的反饋機(jī)制，如場景描述符或成功檢測器，進(jìn)行集成。與 ReAct 相似，LLM 用于生成計(jì)劃并通過反復(fù)執(zhí)行、思考以及從外部環(huán)境獲取反饋來監(jiān)控任務(wù)的解決，例如拾取物體等。

IM工作示意圖

然而，相較于 ReAct，LLM 在 IM 中的「思考」能力是有限的，模型只能觀察來自環(huán)境的反饋并決定接下來需要做什么。ReAct 通過賦予智能體輸出大量自由形式的思維，解決了這個問題。

2、用于互動決策的 LLM (LID)

它使用語言作為規(guī)劃和行動的通用媒介，通過提出一個基于語言的框架來解決有序的問題。

我們可以將各種任務(wù)的上下文和行動空間表述為一系列 tokens，從而將任意任務(wù)轉(zhuǎn)換為與 LLM 兼容的標(biāo)準(zhǔn)化格式。然后，這些數(shù)據(jù)可以被 LLM 吸收，允許強(qiáng)大的基礎(chǔ)模型整合來自環(huán)境的反饋并做出決策，如圖所示。作者通過模仿學(xué)習(xí)對 LID 進(jìn)行微調(diào)，以正確預(yù)測跨多個領(lǐng)域的行動。

LID 工作示意圖

3、WebGPT

它探索了將 LLM（GPT-3）與基于文本的網(wǎng)頁瀏覽器集成，以更有效地回答問題。這項(xiàng)工作是工具使用的早期開創(chuàng)者，教會 LLM 如何進(jìn)行開放式搜索和瀏覽網(wǎng)頁。

然而，WebGPT 通過大量來自人類的任務(wù)解決方案數(shù)據(jù)集進(jìn)行微調(diào)（即行為克隆或模仿學(xué)習(xí)）。因此，盡管這個系統(tǒng)表現(xiàn)出色（在超過 50% 的情況下產(chǎn)生的答案優(yōu)于人類），但需要大量的人工干預(yù)。

盡管如此，使用人類反饋微調(diào) LLM 智能體仍然是今天的熱門研究話題，而 WebGPT 是這一領(lǐng)域的基礎(chǔ)性工作。

WebGPT 工作示意圖

4、Gato

它受到 LLM 廣泛能力的啟發(fā)，是一個單一的「通用」智能體，能夠在多個模態(tài)、任務(wù)和領(lǐng)域中執(zhí)行操作。

例如，Gato 可以用于玩 Atari 游戲、圖像描述、操控機(jī)器人手臂等。如報告中所述，Gato 能夠「根據(jù)上下文決定是輸出文本、關(guān)節(jié)扭矩、按鈕按壓，還是其他標(biāo)記」。該模型確實(shí)朝著創(chuàng)建一個能夠解決幾乎任何問題的自主系統(tǒng)的目標(biāo)邁進(jìn)。

然而，類似于 WebGPT，Gato 是通過模仿學(xué)習(xí)方法進(jìn)行訓(xùn)練的，收集了一個龐大的數(shù)據(jù)集，包含了多個問題場景中的上下文和行動 —— 所有這些都表示為 token 序列。

Gato 工作示意圖

5、通過規(guī)劃進(jìn)行推理（RAP）

這種方法旨在賦予 LLM 更好的世界模型以提高 LLM 規(guī)劃復(fù)雜、多步驟問題解決方案的能力。

特別地，LLM 用于構(gòu)建一個推理樹，可以通過蒙特卡洛樹搜索（MCTS）來探索，以找到能夠獲得高獎勵的解決方案。在這里，LLM 本身也被用來評估解決方案。在 RAP 中，LLM 既充當(dāng)智能體，又充當(dāng)世界模型。

RAP 工作示意圖

更全面地了解 LLM 推理與智能體系統(tǒng)交叉的研究，請參閱這篇綜述。

論文鏈接：https://arxiv.org/abs/2504.09037

什么是「智能體」？

基于語言模型的智能體的起點(diǎn)，最簡單的理解，就是使用工具的語言模型。從這里開始，智能體的復(fù)雜性逐漸增加。 —— Nathan Lambert

盡管智能體在行業(yè)中非常流行，但它們并沒有明確的定義。智能體定義不清晰的原因在于，我們在今天的世界中遇到各種不同類型的智能體，這些智能體在復(fù)雜性上有很大的差異

從高層次來看，智能體的功能在某些情況下可能與 LLM 類似，但智能體通常具有更廣泛的策略和工具可用于解決問題。

基于我們到目前為止所學(xué)的信息，接下來將創(chuàng)建一個框架，用于理解 AI 智能體可能擁有的能力范圍，以及這些能力與標(biāo)準(zhǔn) LLM 的區(qū)別。

從大語言模型到智能體

前文介紹了多種概念，包括：

i) 標(biāo)準(zhǔn) LLM ii) 工具使用 iii) 推理模型，以及 iv) 自主解決問題的系統(tǒng)。

從 LLM 的標(biāo)準(zhǔn)定義開始，我們將解釋這些概念如何在標(biāo)準(zhǔn) LLM 的能力之上，創(chuàng)造出具有更多智能體性質(zhì)的系統(tǒng)。

1、[Level 0]標(biāo)準(zhǔn) LLM

作為起點(diǎn)，我們可以考慮標(biāo)準(zhǔn)的 LLM 設(shè)置（如上圖所示），該設(shè)置接收文本提示作為輸入，并生成文本響應(yīng)作為輸出。為了解決問題，該系統(tǒng)完全依賴于 LLM 的內(nèi)部知識庫，而不引入外部系統(tǒng)或?qū)栴}解決過程施加任何結(jié)構(gòu)。

為了更好地解決復(fù)雜的推理問題，我們還可以使用推理風(fēng)格的 LLM 或 CoT 提示方法來引導(dǎo)推理軌跡，如下圖所示。

2、[Level 1]工具使用

依賴 LLM 的內(nèi)部知識庫存在風(fēng)險 ——LLM 有知識截止日期，并且會產(chǎn)生幻覺。

為了解決這個問題，LLM 可以通過將子任務(wù)的解決委托給更專業(yè)的系統(tǒng)來更強(qiáng)大地解決問題，如下圖所示。

3、[Level 2]問題分解

期望 LLM 在單一步驟中解決復(fù)雜問題可能是不現(xiàn)實(shí)的。相反，我們可以創(chuàng)建一個框架，規(guī)劃問題應(yīng)該如何解決，并迭代地推導(dǎo)解決方案。

這樣的 LLM 系統(tǒng)可以是手工設(shè)計(jì)的，也可以通過使用像 ReAct 這樣的框架來設(shè)計(jì)，如下圖所示。

當(dāng)然，使用 LLM 分解和解決復(fù)雜問題的問題與工具使用和推理密切相關(guān)。在整個問題解決過程中，LLM 可能依賴于各種工具，而推理能力對于制定詳細(xì)且正確的解決問題計(jì)劃至關(guān)重要。

進(jìn)一步說，這種以 LLM 為中心的問題解決方法引入了推理過程中的控制流概念 —— 智能體的輸出是有序構(gòu)建的，智能體有狀態(tài)地通過一系列問題解決步驟，逐步完成推理。

4、[Level 3] 增加自主性

上述框架概述了今天 AI 智能體的主要功能。然而，我們還可以通過賦予系統(tǒng)更高的自主性，使其變得更強(qiáng)大。例如，我們可以在智能體的行動空間中加入代表我們采取具體行動的能力（例如，購買物品、發(fā)送電子郵件或提交拉取請求）。

智能體是任何能夠感知其環(huán)境并對該環(huán)境采取行動的事物……這意味著，智能體的特征由其操作的環(huán)境和它能夠執(zhí)行的行動集來定義?！?Chip Huyen

到目前為止，我們所概述的智能體始終以人類用戶的提示作為輸入。這些智能體只有在人類用戶觸發(fā)的提示下才會采取行動。然而，情況并不一定非得如此。我們可以構(gòu)建持續(xù)在后臺運(yùn)行的智能體

例如，已經(jīng)有很多關(guān)于開放式計(jì)算機(jī)使用智能體的研究，OpenAI 宣布了 Codex—— 一個基于云的軟件工程智能體，它可以并行處理多個任務(wù)，甚至具備自主向代碼庫提交 PR 的能力。

5、AI 智能體體系

結(jié)合我們在本概述中討論的所有概念，我們可以創(chuàng)建一個智能體系統(tǒng)，該系統(tǒng)：

在沒有任何人工輸入的情況下異步運(yùn)行。
使用推理 LLM 制定解決復(fù)雜任務(wù)的計(jì)劃。
使用標(biāo)準(zhǔn) LLM 生成基本思維或綜合信息。
代表我們在外部世界采取行動（例如，預(yù)訂機(jī)票或?qū)⑹录砑拥饺諝v中）。
通過搜索 API（或任何其他工具）獲取最新信息。

每種類型的 LLM 以及任何其他工具或模型都有其優(yōu)缺點(diǎn)。這些組件為智能體系統(tǒng)提供了許多在不同問題解決方面有用的能力。智能體系統(tǒng)的關(guān)鍵在于以無縫和可靠的方式協(xié)調(diào)這些組件。

AI智能體的未來

盡管 AI 智能體非常流行，但在這個領(lǐng)域的工作都處于起步階段。智能體通過順序的問題解決過程來運(yùn)作。如果這個過程中任何一步出錯，智能體就很可能會失敗。

去年，你說制約 [智能體] 發(fā)展的因素是另外九成的可靠性…… 你依然會描述這些軟件智能體無法完成一整天的工作，但是它們能夠在幾分鐘內(nèi)幫你解決一些問題?！狣warkesh Podcast

因此，可靠性是構(gòu)建有效智能體系統(tǒng)的前提，尤其是在復(fù)雜環(huán)境中。換句話說，構(gòu)建穩(wěn)健的智能體系統(tǒng)將需要創(chuàng)造具有更高可靠性的 LLM。

無論是 LLM 還是智能體系統(tǒng)，進(jìn)展都在迅速推進(jìn)。最近的研究特別集中在有效評估智能體、創(chuàng)建多智能體系統(tǒng)以及微調(diào)智能體系統(tǒng)以提高在特定領(lǐng)域中的可靠性。

鑒于該領(lǐng)域的研究進(jìn)展速度，我們很可能會在不久的將來看到這些智能體系統(tǒng)在能力和通用性方面的顯著提升。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.