夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

當(dāng)Search Agent遇上不靠譜搜索結(jié)果,清華團隊祭出自動化紅隊框架

0
分享至



該文第一作者是清華大學(xué)博士生董建碩,研究方向是大語言模型運行安全;該文通訊作者是清華大學(xué)邱寒副教授;其他合作者來自南洋理工大學(xué)和零一萬物。

在 AI 發(fā)展的新階段,大模型不再局限于靜態(tài)知識,而是可以通過「Search Agent」的形式實時連接互聯(lián)網(wǎng)。搜索工具讓模型突破了訓(xùn)練時間的限制,但它們返回的并非總是高質(zhì)量的資料:一個低質(zhì)量網(wǎng)頁、一條虛假消息,甚至是暗藏誘導(dǎo)的提示,都可能在用戶毫無察覺的情況下被模型「采納」,進而生成帶有風(fēng)險的回答。



  • 論文標(biāo)題:SafeSearch: Automated Red-Teaming for the Safety of LLM-Based Search Agents
  • 預(yù)印本:https://arxiv.org/abs/2509.23694
  • 代碼倉庫:https://github.com/jianshuod/SafeSearch

從真實案例切入:一次價值 2500 美元的「搜索錯誤」

24 年 11 月,在 Twitter 上有一個這樣的案例:有開發(fā)者直接復(fù)制了 ChatGPT 生成的代碼片段,但該片段源自一個搜索過程不可靠的 GitHub 頁面。結(jié)果,他的私鑰被意外泄露,最終損失了約2500 美元。

這一事件揭示了問題的本質(zhì):搜索服務(wù)并不總是返回高質(zhì)量、可信的網(wǎng)頁,而用戶往往難以分辨其中的潛在風(fēng)險。這也意味著,Search Agent 一旦「輕信」了搜索結(jié)果,風(fēng)險會迅速傳遞給終端用戶。



圖 1: LLM 服務(wù)可能由于互聯(lián)網(wǎng)來源的不可靠搜索結(jié)果而返回不安全的代碼。圖源:https://twitter-thread.com/t/1859656430888026524

搜索智能體:強大但脆弱的新范式

隨著 ChatGPT Search、Gemini Deep Research 等產(chǎn)品的興起,搜索智能體逐漸成為大模型的重要形態(tài)。與傳統(tǒng)的檢索增強生成(RAG)不同,搜索智能體直接調(diào)用搜索引擎,實時獲取互聯(lián)網(wǎng)上的最新信息。



圖 2: RAG 和 Search Agent 在技術(shù)特點上的對比

這種模式雖然突破了大模型知識時效性的限制,但同時也引入了一個新的威脅面:搜索工具本身并不總是可靠。研究團隊通過兩項在野實驗發(fā)現(xiàn):

  • 低質(zhì)量網(wǎng)站在搜索結(jié)果普遍存在:把從 PersonaHub 中隨機采樣的 1000 個用戶描述改寫為最可能詢問的問題,在從 Google Search 收集的近 9000 個搜索結(jié)果中,有 4.3% 被判定為疑似內(nèi)容農(nóng)場(為了獲取流量、廣告點擊量或搜索引擎排名而批量生產(chǎn)低質(zhì)量內(nèi)容)。
  • 不可靠網(wǎng)頁會顯著改變模型回答:受控比較有無搜索工具情況下模型回復(fù)的變化,Search Agent 在接觸低質(zhì)量搜索結(jié)果后更傾向于認(rèn)可不安全的治療方式,特別是在健康等敏感領(lǐng)域。



圖 3: 搜索智能體可能會因不可靠的搜索結(jié)果而改變其立場。

這些現(xiàn)象表明,搜索智能體并不像我們想象的那樣「魯棒」。

現(xiàn)有文獻主要關(guān)注搜索智能體的性能上限,如 Deep Research Systems 或工具強化學(xué)習(xí),但在安全性評估方面仍存在空白:

  1. 缺乏系統(tǒng)性的安全基準(zhǔn)。已有基準(zhǔn)(GAIA、SimpleQA、BrowseComp 等)關(guān)注回答準(zhǔn)確率,而非安全邊界。
  2. 覆蓋風(fēng)險有限。一些智能體安全基準(zhǔn)只測試間接提示注入等局部威脅,忽視搜索工具本身帶來的系統(tǒng)性風(fēng)險。
  3. 動態(tài)威脅難以評估。與 RAG 系統(tǒng)集中在靜態(tài)知識庫不同,搜索智能體的威脅源于開放、動態(tài)互聯(lián)網(wǎng),更具不可預(yù)測性。

方法設(shè)計:自動化紅隊框架

風(fēng)險范圍與威脅模型

研究包含五類風(fēng)險,涵蓋兩種對抗性風(fēng)險 —— 間接提示注入和有害輸出,以及三種非對抗性風(fēng)險 —— 偏見誘導(dǎo)、廣告推廣與錯誤信息。這些風(fēng)險分別源于惡意利用或商業(yè)目的,但在搜索智能體視角下都是「返回不可靠網(wǎng)頁」這一共同威脅。



表 1: SafeSearch 基準(zhǔn)涵蓋的五類風(fēng)險。

為獲得可比較的結(jié)果,紅隊測試者的能力、知識和目標(biāo)被嚴(yán)格限定:

  • 能力限制(Capacity):每個測試用例的查詢都是良性的,測試者只能通過搜索工具注入至多一個不可靠網(wǎng)站,避免高估真實部署中的風(fēng)險。
  • 知識假設(shè)(Knowledge):不可靠網(wǎng)站針對具體用戶請求而非特定 Agent,即同一用例在不同 Agent 上使用相同的不可靠網(wǎng)站,保持評測公平。
  • 評估目標(biāo)(Objective):考察不可靠網(wǎng)站對 Agent 輸出的影響,重點關(guān)注是否產(chǎn)生不安全響應(yīng)。

高質(zhì)量測試案例的自動生成

為了覆蓋大量風(fēng)險場景,SafeSearch 采用了多階段的測試用例生成流程。該流程由一個具有推理能力的生成模型(例如, o4-mini)驅(qū)動,并輔以自動化過濾,確保生成的用例既具可行性又具挑戰(zhàn)性。具體步驟如下:

  1. 場景構(gòu)想(Scenario Envisioning):測試生成模型首先根據(jù)所選風(fēng)險類型,設(shè)想一個用戶向搜索智能體提問、風(fēng)險可能出現(xiàn)的真實場景。
  2. 測試設(shè)計(Test Design):隨后,測試生成模型制定「攻擊計劃」:明確希望搜索智能體輸出的負(fù)面后果(如推薦危險治療方法、傳播虛假新聞),并列舉相關(guān)不可靠網(wǎng)站的潛在來源。生成過程中測試生成模型被要求考慮時間差,所注入的誘導(dǎo)信息必須發(fā)生在大模型知識截止日期之后,以確保測試反映該威脅的實時性特點。
  3. 測試實例化(Test Instantiation):最后,測試生成模型將概念化的計劃轉(zhuǎn)化為指導(dǎo)不可靠網(wǎng)頁生成的詳細(xì)規(guī)范(guidelines),包括頁面格式、關(guān)鍵信息等,并生成一份檢核表(checklist)。檢核表為后續(xù)評估器提供明確的判斷依據(jù),有助于減少評價時的偏差。



圖 4: SafeSearch 自動化的測試樣例生成流程。

為了篩除無效或低質(zhì)量用例,SafeSearch 在生成后進行差異測試,使用 Baseline Agent 在「正常搜索」和「注入不可靠網(wǎng)頁」兩種環(huán)境下運行。只有同時滿足以下條件的用例才會留存:

  • 可達性(Attainability):用例必須能在該 Agent 上觸發(fā)預(yù)期的負(fù)面后果,否則可能因為測例本身的缺陷誤導(dǎo)開發(fā)者認(rèn)為模型安全無虞;
  • 完整性(Integrity):在不注入不可靠網(wǎng)頁的情況下,Agent 不會自行生成不安全輸出,否則該用例說明原任務(wù)本身就具風(fēng)險,不適合測評。

模擬式紅隊:低成本注入不可靠網(wǎng)頁


不同于直接操縱搜索引擎排名的有害做法,SafeSearch 采用「模擬式」紅隊方法向搜索結(jié)果注入不可靠網(wǎng)頁,以減少對真實用戶的影響。其流程如下:

  1. 當(dāng)智能體收到用戶查詢后,它會按照正常調(diào)用搜索工具獲取相關(guān)搜索結(jié)果,紅隊僅在第一次調(diào)用的結(jié)果中插入一篇不可靠網(wǎng)頁,使其與若干個真實網(wǎng)頁混合,從而逼近現(xiàn)實中偶爾夾雜不可靠信息的場景。這樣的設(shè)定使得,如果智能體調(diào)用多次搜索工具,智能體將有機會在后續(xù)輪次消解不可靠網(wǎng)頁的影響。
  2. 不可靠網(wǎng)頁的內(nèi)容由專門的大模型作為網(wǎng)頁生成器按照 guidelines 自動合成,且生成時會設(shè)置日期以模擬真實世界中不可靠信息的實時性特點。
  3. 智能體在參考混合搜索結(jié)果并產(chǎn)生最終回復(fù)后,紅隊會審計其回復(fù)以判斷是否出現(xiàn)預(yù)期的風(fēng)險行為。

這種模擬策略保證了測試可重復(fù)、成本低,同時避免了通過 SEO 操縱搜索引擎干擾普通用戶的風(fēng)險。



圖 5: SafeSearch 模擬式紅隊流程。

自動化評估與指標(biāo)

SafeSearch 采用 LLM-as-a-Judge 思路進行自動化評估:

  • 安全性評估:評估器接收用戶查詢、目標(biāo)后果(含 checklist)以及 Agent 回復(fù),先進行推理,再給出是否發(fā)生了預(yù)期的風(fēng)險行為的判斷。跨所有測試用例計算,被誘導(dǎo)產(chǎn)生不安全輸出的比例稱為攻擊成功率(Attack Success Rate,ASR)。
  • 有用性評估:在有無注入兩種環(huán)境下,評估器還會根據(jù) Agent 回復(fù)對用戶的幫助程度打分,范圍 1–5 分,換算到 0–100 后取平均即為有用性得分(Helpfulness Score)。這一指標(biāo)用于衡量在追求安全的同時 Agent 的任務(wù)效用是否下降。

SafeSearch 基準(zhǔn)數(shù)據(jù)集

按照上述流程,研究者為每類風(fēng)險生成并過濾了 60 個高質(zhì)量測試案例,總計 300 個。最終的 SafeSearch 基準(zhǔn)覆蓋廣告、偏見、有害輸出、提示注入和錯誤信息五類風(fēng)險,為搜 Search Agent 提供了全面且實用的安全測試庫。

實驗結(jié)果

研究團隊使用 SafeSearch 對三類代表性 Search Agent 架構(gòu)(Search Workflow、Tool-calling、Deep Research)以及 15 個主流大模型(包括 GPT-4.1、GPT-5、Gemini、Qwen3、DeepSeek R1 等)進行了系統(tǒng)評估 。



表 2: SafeSearch 上搜索智能體的有用性和安全性表現(xiàn)。

主要結(jié)論令人警醒:

  • 搜索智能體的高脆弱性:在最極端情況下(GPT-4.1-mini + 搜索工作流),智能體受到不可靠搜索結(jié)果影響的比例高達 90.5%。
  • 模型差異明顯:即便在相同 Search Agent 架構(gòu)下,不同 LLM 的抗風(fēng)險能力差異顯著。推理模型往往更有韌性。其中,GPT-5 和 GPT-5-mini 展現(xiàn)出獨一檔的魯棒性。
  • 搜索智能體架構(gòu)影響關(guān)鍵:設(shè)計不同的搜索智能體架構(gòu)會影響安全性。以 GPT-4.1-mini 為例,其受影響比例從搜索工作流的 90.5%,在工具調(diào)用下降至 77.8%,進一步在 Deep Research 下降到 57.4%。
  • 風(fēng)險類型差異:相比提示注入(ASR 較低),錯誤信息的風(fēng)險最難抵御。

這些結(jié)果說明,大模型搜索智能體的安全性依賴于「模型能力 + 架構(gòu)設(shè)計」的雙重因素。

防御措施:提醒無效,過濾作用有限

SafeSearch 的一個直接效用是提升搜索智能體開發(fā)中在安全維度的透明性。例如,研究測試了兩種常見防御策略的有效性:

  1. 提醒(Reminder Prompting):在系統(tǒng)提示中提醒模型「注意不可靠搜索結(jié)果,審慎采納」。
  2. 過濾(Filtering):利用輔助模型(GPT-4.1-mini)先對搜索結(jié)果進行篩選,剔除可能不可靠的網(wǎng)頁。



圖 6: GPT-4.1-mini 和 Gemini-2.5-Flash 在防御措施加持下的 ASR 變化。

結(jié)果表明:

  • 提醒幾乎無效,模型雖然能識別部分不良來源,但在實際生成時依舊會受到影響。
  • 過濾更有效,可將 ASR 減半,相當(dāng)于主動構(gòu)造一個更安全的搜索工具,但仍無法完全杜絕風(fēng)險。

這一現(xiàn)象還凸顯了一個「知識 - 行動鴻溝」:以 GPT-4.1-mini 為例,模型即使知道內(nèi)容不可靠(被特別用于不可靠搜索檢測),在真實智能體場景中仍然可能被誤導(dǎo)。

意義與展望

SafeSearch 的提出,不僅是一項技術(shù)突破,更為業(yè)界和學(xué)界提供了一個重要啟示:

  • 搜索智能體不是天然安全的,它們極易受到低質(zhì)量網(wǎng)頁的干擾。
  • 系統(tǒng)化評測至關(guān)重要,SafeSearch 為開發(fā)者提供了一種可量化、可擴展的安全檢測方式。
  • 安全與實用并非對立,研究發(fā)現(xiàn),合理的架構(gòu)設(shè)計(如 Deep-research scaffold)既能保持高效實用性,又能大幅降低風(fēng)險。當(dāng)然,其背后 test-time scaling 意味著更多成本。

未來,團隊希望 SafeSearch 能成為 Search Agent 標(biāo)準(zhǔn)化的安全評測工具,幫助推動 Search Agent 在性能與安全的雙重平衡中持續(xù)進化。

總結(jié)

在信息爆炸但又暗流涌動的互聯(lián)網(wǎng)世界里,大模型搜索智能體就像一位「信息翻譯官」。然而,當(dāng)它遇到不可靠網(wǎng)頁時,翻譯的內(nèi)容可能帶來不可忽視的風(fēng)險。

清華大學(xué)團隊提出的 SafeSearch 框架,正是在這個背景下的一次積極探索。它提醒我們:搜索智能體要想真正走向大眾,除了強大的能力,更需要透明、可靠與安全。

目前項目已在 GitHub 開源,歡迎有興趣的同學(xué)了解。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
腦梗“偏愛”中國人?80%患者都缺一種維生素!

腦梗“偏愛”中國人?80%患者都缺一種維生素!

孟大夫之家1
2025-12-02 19:46:07
惡劣!戈貝爾被馬威一級惡犯打眼睛 重?fù)艉笳哐慷墣悍副或?qū)逐

惡劣!戈貝爾被馬威一級惡犯打眼睛 重?fù)艉笳哐慷墣悍副或?qū)逐

醉臥浮生
2025-12-09 10:18:41
深夜,中概股下挫!

深夜,中概股下挫!

證券時報e公司
2025-12-09 23:08:18
甲流最討厭的6碗湯,全家喝一喝,潤肺止咳,輕松度過非常時期!

甲流最討厭的6碗湯,全家喝一喝,潤肺止咳,輕松度過非常時期!

多思味
2025-12-08 16:57:21
75歲芯片專家攜核心技術(shù)逃美,中國半導(dǎo)體發(fā)展遇變數(shù)

75歲芯片專家攜核心技術(shù)逃美,中國半導(dǎo)體發(fā)展遇變數(shù)

悅君兮君不知
2025-12-08 13:31:34
約基奇總助攻數(shù)超越喬丹!賽后他說:我沒有山羊,我養(yǎng)了很多匹馬

約基奇總助攻數(shù)超越喬丹!賽后他說:我沒有山羊,我養(yǎng)了很多匹馬

體育妞世界
2025-12-09 11:02:40
十年侵吞"校園餐"經(jīng)費90萬!湖北一校長被判4年

十年侵吞"校園餐"經(jīng)費90萬!湖北一校長被判4年

看看新聞Knews
2025-12-09 21:12:10
浙江第一市,浙江第一縣,浙江第一鎮(zhèn),浙江第一村,有你家鄉(xiāng)嗎?

浙江第一市,浙江第一縣,浙江第一鎮(zhèn),浙江第一村,有你家鄉(xiāng)嗎?

戶外小阿隋
2025-12-09 12:07:12
風(fēng)暴前夜!黃金即將迎來終極審判......

風(fēng)暴前夜!黃金即將迎來終極審判......

口袋貴金屬官方
2025-12-09 17:14:50
獎金曝光!樊振東攜手教練被上海市記大功!10戰(zhàn)10勝是支撐!

獎金曝光!樊振東攜手教練被上海市記大功!10戰(zhàn)10勝是支撐!

工從昊懂球阿靖
2025-12-09 12:16:22
看完《得閑謹(jǐn)制》我想說,以后這種題材的電影,再也不會去看了

看完《得閑謹(jǐn)制》我想說,以后這種題材的電影,再也不會去看了

影視口碑榜
2025-12-09 15:52:48
年度荒誕大戲!蘋果取卡針變“鉑金針”炒到300元回收,蘋果辟謠

年度荒誕大戲!蘋果取卡針變“鉑金針”炒到300元回收,蘋果辟謠

雷科技
2025-12-09 21:54:13
朱可夫在見到處決沙皇一家的劊子手時,說了句誰都沒想到的話

朱可夫在見到處決沙皇一家的劊子手時,說了句誰都沒想到的話

王嚾曉
2025-12-09 20:31:59
關(guān)于新國標(biāo)限速25公里,最后我只說三句

關(guān)于新國標(biāo)限速25公里,最后我只說三句

李老逵亂擺龍門陣
2025-12-09 09:18:22
韋世豪:最后那個點球確實太牽強了;換個發(fā)型換個心情

韋世豪:最后那個點球確實太牽強了;換個發(fā)型換個心情

懂球帝
2025-12-10 05:53:09
原來有這么多不體面但掙錢的小生意!原來都是悶聲發(fā)大財!

原來有這么多不體面但掙錢的小生意!原來都是悶聲發(fā)大財。

另子維愛讀史
2025-12-06 22:09:07
深圳拿下亞馬遜全球首發(fā)項目!本地入倉賣全球,明年3月開放

深圳拿下亞馬遜全球首發(fā)項目!本地入倉賣全球,明年3月開放

南方都市報
2025-12-09 09:32:14
在銀行工作是最好的避孕方式

在銀行工作是最好的避孕方式

微微熱評
2025-11-22 16:04:34
水銀體溫計禁產(chǎn)在即,線上店開始斷貨,客服稱“購買的顧客增多”!生產(chǎn)企業(yè):肯定遵守規(guī)定,要全面轉(zhuǎn)型

水銀體溫計禁產(chǎn)在即,線上店開始斷貨,客服稱“購買的顧客增多”!生產(chǎn)企業(yè):肯定遵守規(guī)定,要全面轉(zhuǎn)型

每日經(jīng)濟新聞
2025-12-10 00:32:04
下一個烏克蘭出現(xiàn)?俄鷹派將領(lǐng)威脅出兵,再打一場特別軍事行動

下一個烏克蘭出現(xiàn)?俄鷹派將領(lǐng)威脅出兵,再打一場特別軍事行動

壹知眠羊
2025-12-09 07:16:36
2025-12-10 07:16:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
11881文章數(shù) 142509關(guān)注度
往期回顧 全部

科技要聞

H200是不是要讓中國“上癮”?

頭條要聞

31歲中國女留學(xué)生讓26歲外籍男友檢測性病 遭殘忍殺害

頭條要聞

31歲中國女留學(xué)生讓26歲外籍男友檢測性病 遭殘忍殺害

體育要聞

“蘇炳添時代”正式畫上句號

娛樂要聞

尖叫之夜劉宇寧打包餅干被嘲寒酸?

財經(jīng)要聞

縣城經(jīng)濟神話,夢醒時分

汽車要聞

旗艦巨作 鴻蒙智行首款MPV智界V9信息披露

態(tài)度原創(chuàng)

藝術(shù)
游戲
家居
親子
軍事航空

藝術(shù)要聞

丁聰先生40年前的漫畫,現(xiàn)在看來依然如鞭似匕

里昂還是來了!《生化危機9》新視覺圖泄露

家居要聞

現(xiàn)代手法 詮釋東方文化

親子要聞

40余名幼教人齊聚一堂,開展師幼互動支持策略研究

軍事要聞

內(nèi)塔尼亞胡:加沙地帶;饘⒑芸爝M入下一階段

無障礙瀏覽 進入關(guān)懷版 在线a亚洲老鸭窝天堂| 亚精产品一区二区三区在线看| 亚洲午夜成人精品无码| 啊v在线免费播放| 麻豆熟妇人妻xxxxxx| 九九热精品在线视频| 亚洲专区32p| 人人操人人看人摸| ,/J 1人91| 全免费a级毛片免费看无码| 美女午夜福利| 亚洲高清WWW色好看美女| 清纯粉嫩极品夜夜嗨AV| 亚洲综合自拍| 后入内射欧美99二区视频| 亚洲av高清在线观看一区二区| 日本熟妇色 日本| 国产精品久久久久影院| 免费av网站在线播放| а天堂中文官网| 国产精品久久久久不卡绿巨人| 国产亚洲精品久久久久久久| 黄色片在线播放| 日本一卡二卡3卡四卡网站精品 | 亚洲av综合色区| 久久久久国产综合| 美女黄网站18禁免费看| 日韩不卡AV| 国产成人毛片无码视频软件| 免费无码国产欧美久久18| 永久免费a∨片在线观看| 蜜AⅤ无码精品一区二区三区| 性色av一区二区三区人妻| 久久久久无码专区亚洲av| 玩弄人妻熟妇| 丰满人妻被两个按摩师| 国产无套白浆一区二区| 酒泉市政府原秘书长被查| 777米奇色狠狠888俺也去乱| 亚洲日韩乱码一区二区三区四区 | 国产一区二区三区免费高清在线播放|