首個地球科學(xué)智能體Earth-Agent，解鎖地球觀測數(shù)據(jù)分析新范式

2025-10-27 17:15:50　來源: 機(jī)器之心Pro

北京舉報

分享至

本文的第一作者馮沛林和呂主濤是上海人工智能實(shí)驗室的實(shí)習(xí)生，他們的研究聚焦于大語言模型，尤其關(guān)注多模態(tài)大語言模型的推理和智能體。通訊作者李唯嘉為中山大學(xué)遙感學(xué)院副教授。論文的其他合作者來自上海人工智能實(shí)驗室和中山大學(xué)。

當(dāng)強(qiáng)大的多模態(tài)大語言模型應(yīng)用于地球科學(xué)研究時，它面臨著無法忽視的「阿克琉斯之踵」：

只能處理 RGB 圖像，面對光譜數(shù)據(jù)束手無策。
只能做少量的圖片，無法勝任大規(guī)模遙感數(shù)據(jù)語料分析。
只能做簡單問答，缺乏處理復(fù)雜、多步驟科學(xué)問題的能力。
囿于模型預(yù)訓(xùn)練所得的靜態(tài)知識，無法調(diào)用成熟的專業(yè)工具與科學(xué)模型體系。

而今，這些「致命傷」終于迎來了它們的解藥。想象一下，有一個能真正理解并執(zhí)行復(fù)雜地球科學(xué)任務(wù)的「AI 科學(xué)家」。它能夠理解你的研究意圖，像人類專家一樣自主規(guī)劃分析流程；可以處理原始光譜數(shù)據(jù)、遙感影像和地球產(chǎn)品，進(jìn)行專業(yè)的指數(shù)計算和參數(shù)反演；能在多步驟推理中調(diào)用最合適的工具，完成從數(shù)據(jù)預(yù)處理到時空分析的全流程工作。

這一切不再是想象，由上海人工智能實(shí)驗室與中山大學(xué)聯(lián)合研發(fā)的 Earth-Agent，正在將這一愿景轉(zhuǎn)化為現(xiàn)實(shí)。

論文題目：Earth-Agent: Unlocking the Full Landscape of Earth Observation with Agents
論文鏈接：https://arxiv.org/abs/2509.23141
代碼地址：https://github.com/opendatalab/Earth-Agent
項目主頁：https://opendatalab.github.io/Earth-Agent/

靈感來源：

模擬人類的專業(yè)能力掌握邏輯-知識轉(zhuǎn)化為工具庫

想象一名地球科學(xué)領(lǐng)域的學(xué)生如何成為一個成熟的研究者？他需要在數(shù)年的學(xué)習(xí)中，從專業(yè)課程中汲取海量知識，將每一個理論和算法內(nèi)化為自己心中的「工具」。而后在面對真實(shí)的數(shù)據(jù)分析場景時從儲備的「工具庫」中精準(zhǔn)挑選并串聯(lián)起「指標(biāo)計算」、「參數(shù)反演」、「統(tǒng)計分析」等一系列工具鏈路，最終形成解決復(fù)雜問題的完整工作流。

我們能否借助 AI 智能體（Agent）復(fù)現(xiàn)這一「知識工具化」與「流程自動化」的專家能力？

基于上述靈感，研究者構(gòu)建了 Earth-Agent 的核心框架，其關(guān)鍵在于兩個層面的構(gòu)建：

領(lǐng)域知識工具封裝化：研究者將地球科學(xué)領(lǐng)域長期積累的專業(yè)知識逐一封裝為標(biāo)準(zhǔn)化、可執(zhí)行的函數(shù)或?qū)Ｓ媚Ｐ筒?biāo)注其明確的功能定義、輸入輸出規(guī)范以及典型的適用場景，從而構(gòu)建成一個結(jié)構(gòu)化的工具體系。借助模型上下文協(xié)議（MCP）橋接語言模型和工具庫。在本工作中，該工具庫共集成了 104 個專用工具。
基于 LLM 的智能規(guī)劃與調(diào)度：研究者利用大語言模型（LLM）強(qiáng)大的上下文理解與推理能力，使其充當(dāng)智能體的「大腦」。在 Reasoning + Acting (ReAct) 機(jī)制在面對用戶查詢時，Agent 通過理解當(dāng)前需求能夠從預(yù)構(gòu)建的工具庫中動態(tài)地選擇最合適的工具，從而自主完成從數(shù)據(jù)預(yù)處理到復(fù)雜時空分析的全鏈路科學(xué)工作流。

基準(zhǔn)評估：

多步推理+雙層次評估協(xié)議

Earth-Bench 包含 248 個專家標(biāo)注的任務(wù)，涵蓋 13,729 張圖像，分布于三大模態(tài)：

RGB 圖像：用于場景分類、目標(biāo)檢測、變化檢測等感知任務(wù)；
原始光譜數(shù)據(jù)：用于植被監(jiān)測、溫度反演、干旱評估等定量分析；
地球產(chǎn)品數(shù)據(jù)：用于城市擴(kuò)張、水體變化、氣象趨勢等時空分析。

與以往側(cè)重于對單張或少量遙感影像進(jìn)行描述（Captioning）、分類（Classification）或簡單問答（VQA）的基準(zhǔn)不同的是，Earth-Bench 的核心在于評估智能體執(zhí)行完整地球科學(xué)分析工作流的能力。

舉一個例子：「利用 2022 年紐約市 Landsat 8 熱成像和反射率數(shù)據(jù)，采用單通道方法基于 NDVI 和熱波段 10 估算 LST，然后計算夏季和秋季的平均 LST，并確定平均差以評估這兩個時期之間的季節(jié)性溫度差值。A. 8.65K B. 10.89K C.12.42K D.14.75K?！箍梢钥吹剑珽arth-Bench 的題目不再局限于對于原始地球觀測數(shù)據(jù)進(jìn)行簡單的一步即可完成的描述、分類、計數(shù)任務(wù)，而是強(qiáng)調(diào)利用地球科學(xué)的知識進(jìn)行嚴(yán)格的指標(biāo)計算和時空分析。

Earth-Bench 只有 248 個題目，但是需要處理 13729 張 image 圖像，平均每個題目需要處理 55 張影像，平均每個問題需要 5.4 步才能完成。這意味著智能體必須具備批量數(shù)據(jù)處理、時序分析和跨文件信息整合的能力，這直接對應(yīng)了真實(shí)地球科學(xué)研究中處理大規(guī)模觀測數(shù)據(jù)的核心需求。

另一方面，以往的 Agent 基準(zhǔn)測試陷入了「唯結(jié)果論」的陷阱，側(cè)重于最終結(jié)果的準(zhǔn)確性而忽視了對于 Agent 推理軌跡的評估。

研究者認(rèn)為「怎么得出這個結(jié)論」的過程和結(jié)論本身同樣重要，因此邀請了一支由遙感專業(yè)研究生組成的專家小組針對 Earth-Bench 的每一個問題都進(jìn)行逐步的解答求得最終結(jié)果。他們把每一步調(diào)用了什么工具、輸入了什么參數(shù)、得到了什么中間結(jié)果，都完整地記錄了下來。這就形成了一條條標(biāo)準(zhǔn)的「專家推理軌跡」。接著將專家推理軌跡納入到了 step-by-step 評估，并將最終的答案和效率納入到了結(jié)果的 end-to-end 評估。

Earth-Agent 的能力評估和實(shí)驗分析

實(shí)驗一：比較不同的 LLM Backbone

通過對 GPT、Gemini、Kimik2、DeepSeek、Qwen 等主流模型的測試，評測結(jié)果揭示了進(jìn)行工具調(diào)用（Tool Calling）預(yù)訓(xùn)練的語言模型表現(xiàn)大幅領(lǐng)先于沒有進(jìn)行工具調(diào)用預(yù)訓(xùn)練的模型。閉源模型最終準(zhǔn)確率更高，但 DeepSeek-V3.1 和 Kimik2 在推理過程中工具使用的準(zhǔn)確率上超越 GPT-5。

研究者還對比了 Query 中不進(jìn)行步驟提示的 Auto Planning（AP）和在 Query 中加入步驟提示的 Instruct Following (IF) 的實(shí)驗結(jié)果，可以發(fā)現(xiàn) IF 可以提升工具的感知準(zhǔn)確率，但是往往會使得智能體在中間過程中引入無關(guān)的工具，使得效率下降并引起級聯(lián)誤差，導(dǎo)致最終的準(zhǔn)確率不一定上升。

實(shí)驗二：與通用的 Agent 架構(gòu)的對比

實(shí)驗三：與 MLLM 方法的對比

研究者還將 Earth-Agent 和通用的 Agent 架構(gòu)以及 MLLM 方法進(jìn)行了橫向?qū)Ρ?，可以發(fā)現(xiàn) Earth-Agent 在各個 Spectrum、Products、RGB 三個模態(tài)的效果領(lǐng)先于通用的 Agent 架構(gòu)，并且在經(jīng)典的遙感分類、檢測、分割任務(wù)中相比于 MLLM 都取得了領(lǐng)先的性能，這驗證了 Earth-Agent 在地球觀測任務(wù)的巨大應(yīng)用前景。

消融實(shí)驗

為了驗證 Earth-Agent 的能力提升來自于 LLM 對于工具的調(diào)用而非其他的因素，研究者對 Earth-Agent 進(jìn)行了系統(tǒng)的消融實(shí)驗，劃分為 A 組：不使用工具；B 組：使用工具。結(jié)果表明，在 LLM 無法使用工具的情況下，不同的 LLM 準(zhǔn)確率都在 37%(圖中藍(lán)色虛線）。

而允許 LLM 調(diào)用工具后，不同的 LLM 對于地球科學(xué)問題的回答準(zhǔn)確性提升出現(xiàn)了明顯的差異。GPT5 的回答準(zhǔn)確率提升到了 65%；Gemini-2.5、DeepSeek-V3.1、Kimik2、Qwen3-max 的回答準(zhǔn)確率提升到 50%，GPT-4o 的回答準(zhǔn)確率僅提升到 45%。

地球科學(xué)智能體的未來路線

Earth-Agent 為地球觀測數(shù)據(jù)分析提供了一個新的學(xué)習(xí)范式：不再像 MLLM 將全部能力編碼到大模型預(yù)訓(xùn)練的參數(shù)中，而是將能力外化為一個結(jié)構(gòu)化的、可隨時調(diào)用的工具庫，讓大模型扮演一個了解「何時調(diào)度和決策」的大腦。這種范式更接近我們?nèi)祟惖膶W(xué)習(xí)和工作方式：我們并非把所有知識都記在腦子里，而是學(xué)會在需要時，精準(zhǔn)地選擇并使用合適的工具。Earth-Agent 未來還有廣闊的發(fā)展前景：

從基石到生態(tài)：Earth-Agent 只納入了 104 個專業(yè)的地球科學(xué)工具 / 專家模型，這僅僅是一個起點(diǎn)。Earth-Agent 采用了 MCP 框架，可以非常方便地加入新的工具。研究者相信在開放社區(qū)的共同努力下，Earth-Agent 將成長為一個不斷進(jìn)化、日益強(qiáng)大的地球科學(xué)智能體。
從評估到訓(xùn)練：本篇工作驗證了智能體路線在地球科學(xué)分析任務(wù)中的巨大潛力，而沒有對 LLM 進(jìn)行專門的訓(xùn)練或微調(diào)。研究者在附錄中對于現(xiàn)階段的 LLM 進(jìn)行了詳細(xì)的錯誤分析，發(fā)現(xiàn)智能體在與真實(shí)操作系統(tǒng)交互時，表現(xiàn)出嚴(yán)重的「工具幻覺」和「文件幻覺」，它們會調(diào)用不存在的工具或試圖處理根本不存在的文件。這為將來的訓(xùn)練路線提供指導(dǎo)。
從語言到視覺：當(dāng)前 LLM 對于工具的選擇依賴于模型的上下文和工具的描述，它局限在文本語義的 prompt 提示工程，隨著 MLLM 的成熟，研究者預(yù)見下一個突破點(diǎn)：讓具備視覺能力的模型作為智能體的核心，建立在視覺語義的工具感知可能成為突破地球觀測數(shù)據(jù)分析的關(guān)鍵。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.