夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

采樣越多越聰明?隱式擴展顛覆認知,采樣搜索如何挑出完美解

0
分享至


新智元報道

編輯:英智

【新智元導讀】采樣多就一定準嗎?研究人員用實驗告訴你:是的,而且超乎想象!基于采樣的搜索不僅能在并行處理中大展身手,還通過隱式擴展讓驗證更精準。

先讓模型生成多個候選答案,再通過自我驗證挑出「真金」。

基于采樣的搜索在許多推理任務中表現(xiàn)優(yōu)異,可關(guān)于它的擴展趨勢,還有許多未解之謎。

隨著采樣數(shù)量的增加,模型的推理性能能否繼續(xù)提升?這種簡單的搜索范式能在多大程度上擴展?

來自谷歌和伯克利的華人研究員發(fā)現(xiàn),隨著采樣數(shù)量和驗證強度的增加,模型的推理性能有顯著的提升。


論文鏈接:https://arxiv.org/abs/2502.01839

增加測試時計算的方法有很多。有些是通過強化學習,隱式地鼓勵模型生成更長、更詳細的回答;還有些是通過巧妙的提示,讓模型更準確地思考。

在眾多方法中,基于采樣的搜索策略顯得格外突出,生成多個候選答案,再從中挑選出最佳的那個。

這種方法可以和其他策略搭配使用,還特別適合并行處理。


通過有效的自我驗證,簡單地擴展基于采樣的搜索就足以在推理和數(shù)學基準測試,以及伯克利數(shù)學數(shù)據(jù)集上獲得最先進的性能。


表中展示了Gemini v1.5 Pro模型在每個問題僅嘗試一個解決方案(Pass@1)、嘗試200個解決方案并選擇最常見的最終答案(Consistency@200)以及在基于采樣的搜索中嘗試200個解決方案,并根據(jù)正確性評分選擇得分最高的答案(Verification@200)時的準確性。

在基于采樣的搜索(Verification@200)中,Gemini v1.5超越了o1-Preview。

基于采樣的搜索

基于采樣的搜索是怎么運作的呢?

簡單來說,就是模型先通過隨機采樣的方式,生成一堆候選答案。

然后,模型再對這些候選答案進行自我驗證,判斷哪個答案最靠譜。

具體的實現(xiàn)過程可以分為幾個關(guān)鍵步驟。首先是生成候選答案階段,LLM會根據(jù)給定的問題,按照一定的溫度參數(shù)(=1.5),并行生成個候選答案。

這個溫度參數(shù)就像是調(diào)節(jié)模型創(chuàng)造力的旋鈕,數(shù)值越大,生成的答案就越多樣化,但也可能更偏離正確答案。

數(shù)值越小,答案就越保守,可能會錯過一些有創(chuàng)意的解法。


接下來是驗證候選答案階段。模型會為每個候選答案生成個二進制的驗證分數(shù),以此來判斷答案的正確性。

在這個過程中,模型會把答案改寫為定理、引理和證明的形式,就像我們在數(shù)學證明中那樣,一步一步嚴謹?shù)貦z查答案是否合理。

要是遇到幾個候選答案得分很接近的情況,模型會把這些答案兩兩比較,每次比較都會重復多次(=100次),最后選出獲勝次數(shù)最多的答案作為最終輸出。

擴展趨勢

研究人員在探索基于采樣的搜索的擴展趨勢時,發(fā)現(xiàn)了一些有趣的現(xiàn)象。

他們通過實驗,觀察隨著搜索,也就是采樣的數(shù)量和驗證次數(shù)這兩個關(guān)鍵因素的變化,模型的推理性能會發(fā)生什么變化。

從實驗結(jié)果的熱圖中可以看出,當搜索和驗證同時擴展時,模型的性能提升最為明顯。


在一些基準測試中,比如AIME,即使測試時計算擴展到了自一致性方法性能飽和的程度,基于采樣的搜索的推理性能仍然在持續(xù)提高。

在AIME基準測試中,基于采樣的搜索的擴展趨勢最為顯著。

隨著采樣數(shù)量的增加,模型就能更大概率地找到正確答案。

而且,即使一致性方法(Consistency@k )在處理這些難題時已經(jīng)達到了極限,基于采樣的搜索(Verification@k )仍然能通過不斷擴展驗證能力,挖掘出那些隱藏在長尾中的正確答案。

研究人員還發(fā)現(xiàn)了一個很神奇的現(xiàn)象:隱式擴展。

按照常規(guī)想法,采樣的答案越多,驗證器要處理的信息就越多,驗證的準確性應該會下降。但實際情況卻恰恰相反!



當模型生成的答案數(shù)量增加時,驗證的準確性也跟著提高了。這是為什么呢?

原來,寫得好的答案更容易被驗證,而增加采樣數(shù)量就像是擴大了答案的「海選范圍」,讓更多高質(zhì)量的答案有機會被選出來。

在下圖中,將驗證嘗試次數(shù)固定為50后,Verification@k的擴展超越了Consistency@k的飽和點。

在AIME基準測試里,Consistency@k趨于平穩(wěn),Verification@k卻呈冪律擴展。在AIME上,Consistency@50和 Consistency@10,000準確率相同。


2024年AIME考試第二場第11題,Gemini v1.5模型從200個隨機采樣解決方案中,難以選定正確答案。

Consistency返回錯誤答案1,且該答案在超一半的響應中出現(xiàn),而Verification成功從響應分布長尾中識別出正確答案601,并對1和601分別給出了≤36%和98%的分數(shù)。


擴展驗證能力是推動搜索改進的關(guān)鍵,可以區(qū)分不同置信度的答案。

驗證能有效利用模型響應分布長尾,表明Pass@k應是搜索應用的關(guān)鍵性能指標,而現(xiàn)有針對Pass@1優(yōu)化的訓練后技術(shù)(如RLHF),可能犧牲Pass@k,抑制搜索能力。

有效自我驗證:提升推理的法寶

研究人員還總結(jié)出了兩個提升LLM自我驗證能力的重要原則。

第一個原則是對比答案以定位錯誤。

LLM在識別錯誤和幻覺方面一直不太擅長,就像一個視力不太好的人,很難發(fā)現(xiàn)遠處的小錯誤。但是,如果把不同的候選答案放在一起比較,模型就能更容易地發(fā)現(xiàn)錯誤的位置。

這種比較的方法,其實也是隱式擴展的一種體現(xiàn),通過提供更多的對比信息,幫助模型更好地判斷答案的正確性。

第二個原則是根據(jù)輸出風格適用性改寫答案。不同的任務需要不同風格的答案。

在生成答案時,思維鏈的方式很有效,它能幫助模型理清思路,找到正確的方向。

但這種方式生成的答案往往比較冗長復雜,驗證起來難度較大。

相反,嚴謹、分層和模塊化的寫作風格雖然在生成答案時可能不太靈活,但在驗證時卻更容易被模型理解和判斷。

所以,研究人員建議在驗證答案時,先把答案改寫成更規(guī)范的形式,比如像數(shù)學證明一樣,有定理、引理和證明過程,這樣模型就能更輕松地檢查答案是否正確了。

為了驗證這兩個原則的有效性,研究人員還進行了消融研究。他們分別去掉比較答案和改寫答案這兩個操作,看看會對模型的性能產(chǎn)生什么影響。


結(jié)果發(fā)現(xiàn),去掉比較答案的操作后,模型在一些基準測試中的性能明顯下降。去掉改寫答案的操作后,驗證的準確性也受到了很大影響。


這充分說明了這兩個原則對于提升模型自我驗證能力的重要性。

額外實驗,探索更多可能

研究人員還進行了一些額外的實驗,為我們揭示了更多有趣的發(fā)現(xiàn)。

在對較小模型的研究中,他們發(fā)現(xiàn)基于采樣的搜索同樣能為這些「小個子」模型帶來顯著的性能提升。


以Gemini v1.5 Flash模型為例,它的推理成本比Gemini v1.5 Pro低很多,但通過基于采樣的搜索,它的性能得到了大幅提升。

即使是用Flash模型來輔助Pro模型進行驗證(Pro+Flash),也能取得不錯的效果,甚至在某些情況下,Pro+Flash Verification@200的性能超過了Pro Consistency@200。

研究人員還對LiveBench基準測試中的不同子任務進行了分析。

他們發(fā)現(xiàn),基于采樣的搜索在不同子任務上的表現(xiàn)各有差異。


在AIME 2024、Web-of-Lies、Competition和Zebra Puzzle等任務上,Verification的提升效果非常明顯;但在LiveBench Math的Olympiad任務上,卻沒有看到明顯的提升。

這是因為Olympiad任務的問題設計比較特殊,它要求填寫預寫證明中的表達式選項,輸出特定的索引序列。

衡量模型的新驗證基準

前沿LLM雖然在解決問題方面表現(xiàn)得很厲害,但它們的開箱即用驗證能力卻有點拖后腿。

為了更準確地衡量這個問題,研究人員創(chuàng)建了一個新的驗證基準。

這個基準里包含了很多具有挑戰(zhàn)性的推理問題,每個問題都有一個正確答案和一個錯誤答案。



基準測試主要關(guān)注兩個任務:評分任務和比較任務。

在評分任務中,模型要判斷給定答案是否正確;在比較任務中,模型要從兩個答案中找出正確的那個。

這就好比讓模型當小老師,批改作業(yè)和比較不同學生的答案。

研究人員用這個基準測試了一些當前的模型,結(jié)果發(fā)現(xiàn)表現(xiàn)參差不齊。


有些模型在驗證方面的表現(xiàn)甚至比隨機猜測好不了多少,這說明它們在識別錯誤答案和判斷答案正確性方面還有很大的提升空間。

基于采樣的搜索展現(xiàn)出了巨大的潛力。

它不僅簡單有效,而且具有很強的擴展性,能在各種推理任務中發(fā)揮重要作用。

參考資料:

https://x.com/ericzhao28/status/1901704344506192365

https://techcrunch.com/2025/03/19/researchers-say-theyve-discovered-a-new-method-of-scaling-up-ai-but-theres-reason-to-be-skeptical/

https://eric-zhao.com/blog/sampling

https://arxiv.org/abs/2502.01839

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
零跑月銷破5萬,它憑什么穩(wěn)坐新勢力第一?

零跑月銷破5萬,它憑什么穩(wěn)坐新勢力第一?

牲產(chǎn)隊2024
2025-08-04 15:59:37
桑切斯剛當富豪妻,1個月不到,貝佐斯就砸71億捧27歲新寵

桑切斯剛當富豪妻,1個月不到,貝佐斯就砸71億捧27歲新寵

鋭娛之樂
2025-08-05 13:17:39
韓媒:在得知孫興慜要離隊后,比蘇馬在韓國的訓練場上落淚

韓媒:在得知孫興慜要離隊后,比蘇馬在韓國的訓練場上落淚

懂球帝
2025-08-05 19:27:17
中國磁流體潛艇技術(shù)獲得突破,海上戰(zhàn)力迎來質(zhì)變!

中國磁流體潛艇技術(shù)獲得突破,海上戰(zhàn)力迎來質(zhì)變!

楊風
2025-08-04 22:06:46
記者質(zhì)疑??怂勾蠛贤?,追夢回應:可以肯定未來兩年內(nèi)??怂共粫痊F(xiàn)在更差

記者質(zhì)疑??怂勾蠛贤穳艋貞嚎梢钥隙ㄎ磥韮赡陜?nèi)??怂共粫痊F(xiàn)在更差

雷速體育
2025-08-05 12:36:34
理想i8“版型瘦身”,一次遲到的果斷

理想i8“版型瘦身”,一次遲到的果斷

鈦媒體APP
2025-08-05 15:05:13
不到72小時,被調(diào)查的釋永信再迎3大噩耗,私生活亂只是冰山一角

不到72小時,被調(diào)查的釋永信再迎3大噩耗,私生活亂只是冰山一角

削桐作琴
2025-08-01 21:22:32
摩薩德:參與10月7日大屠殺的人簽署了自己的死刑令

摩薩德:參與10月7日大屠殺的人簽署了自己的死刑令

桂系007
2024-01-04 04:22:03
奇恥大辱,丹麥議會高票通過法案,格陵蘭島主權(quán)易主,美國接管!

奇恥大辱,丹麥議會高票通過法案,格陵蘭島主權(quán)易主,美國接管!

大道無形我有型
2025-07-18 15:20:21
《南京照相館》夢碎!票房斷崖式下跌,距離《唐探1900》還差19億

《南京照相館》夢碎!票房斷崖式下跌,距離《唐探1900》還差19億

影視高原說
2025-08-05 19:54:30
看看少林新方丈印樂法師的字,水平一流,網(wǎng)友:沒有一絲塵俗氣!

看看少林新方丈印樂法師的字,水平一流,網(wǎng)友:沒有一絲塵俗氣!

書法網(wǎng)
2025-08-05 18:25:55
天塌不下來,強制繳社保來了,很多人卻誤解了

天塌不下來,強制繳社保來了,很多人卻誤解了

財話連篇
2025-08-05 09:34:19
對巴鐵轉(zhuǎn)讓梟龍戰(zhàn)機生產(chǎn)線,惡果出現(xiàn):200億大單都被土耳其搶了

對巴鐵轉(zhuǎn)讓梟龍戰(zhàn)機生產(chǎn)線,惡果出現(xiàn):200億大單都被土耳其搶了

陳博世財經(jīng)
2025-08-05 14:12:26
郵儲銀行:正在扣劃郵儲銀行網(wǎng)商貸逾期客戶銀行賬戶款項償還欠款

郵儲銀行:正在扣劃郵儲銀行網(wǎng)商貸逾期客戶銀行賬戶款項償還欠款

界面新聞
2025-08-05 15:41:12
19元200GB套餐盛行,運營商自殺式降價,還用其他方式綁定用戶

19元200GB套餐盛行,運營商自殺式降價,還用其他方式綁定用戶

柏銘銳談
2025-08-04 23:37:53
都不對兩束光反向飛行,相對速度是多少?你肯定想不到!

都不對兩束光反向飛行,相對速度是多少?你肯定想不到!

宇宙時空
2025-08-04 22:45:03
王思聰罕見回國,疑和懶懶已分手!帶新女伴現(xiàn)身澳門像戴了假發(fā)

王思聰罕見回國,疑和懶懶已分手!帶新女伴現(xiàn)身澳門像戴了假發(fā)

娛樂團長
2025-08-05 15:30:30
賈玲露面不光更瘦,狀態(tài)也變更緊致了,是醫(yī)美了嗎?看腿就知道了

賈玲露面不光更瘦,狀態(tài)也變更緊致了,是醫(yī)美了嗎?看腿就知道了

娛樂故事
2025-08-02 23:24:56
夫妻吵架老公跳橋后續(xù):老公的后事已處理好,妻子離開傷心地!

夫妻吵架老公跳橋后續(xù):老公的后事已處理好,妻子離開傷心地!

行者聊官
2025-08-04 16:43:50
俄堪察加半島南部因地震移動了2米

俄堪察加半島南部因地震移動了2米

界面新聞
2025-08-05 15:28:42
2025-08-06 00:27:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代
13199文章數(shù) 66113關(guān)注度
往期回顧 全部

科技要聞

理想i8“版型瘦身”,一次遲到的果斷

頭條要聞

跳樓身亡醫(yī)生丈夫:事發(fā)前一天報警 我還說別不當回事

頭條要聞

跳樓身亡醫(yī)生丈夫:事發(fā)前一天報警 我還說別不當回事

體育要聞

“孫興慜就是熱刺,熱刺就是孫興慜”

娛樂要聞

吳倩張雨劍被曝已復合,是真是假?

財經(jīng)要聞

王貽芳院士:AI離人腦還有巨大差距

汽車要聞

續(xù)寫變革篇章,雷諾集團的福蘭時代來了

態(tài)度原創(chuàng)

游戲
本地
房產(chǎn)
家居
軍事航空

《黑夜君臨》新夜王公布!"黑夜霧霾"卡莉果本周降臨

本地新聞

非遺里的天津|掐絲凝彩,手藝人的指尖藏多少歲月匠心?

房產(chǎn)要聞

效果圖流出!海口頂流書包即將擴建!

家居要聞

通透大方 開放收納設計

軍事要聞

福建艦電磁彈射最新畫面公布 "飛鯊"劃破長空

無障礙瀏覽 進入關(guān)懷版 熟女有码视频专区| 又大又粗又爽少妇高潮ijzz| 人妻无码精品久久久久一区| 国产伦精品一区二区三区视频不卡| 国产精品99无码一区二区| 国产精品农村妇女157| 一本综合久久| 欧美伊人久久久久久久久影院| 樱桃视频在线观看网址入口| wwwxxxx在线免费观看| 亚洲AV高潮潮喷久久天堂| 亚洲欧洲日产国码无码AV一| 无码人妻21p| 黄色视频网受不了| 久久久久亚洲AⅤ无码专区动漫| 2014天堂网欧美无吗| 77777奇米影视| 波多野结衣吹箫| 亚洲成人无码综合| 日韩av在线一卡二卡三卡| 久热er国产| 亚洲熟女少妇精品| CHINASEX喷水VIDEOS中国少妇 | 中国丰满熟妇XXXXPPT| 综合亚洲网| 男人AV在线天堂| 99精品福利视频| 高清一区二区三区日本久| 成人综合伊人五月婷久久| 国产精品igao视频网| 欧美成人无码a区视频在线观看| 人妻少妇一区二区| 成人免费A级毛片无码片2022 | 一左一右乳房被吮了| 激情综合五月丁香欧美| 亚洲AV秘 无码一区二区三区一| 欧美熟妇另类久久久久久多毛| 中文字幕精品亚洲无线码二区| 免费高清毛片在线播放视频| 亚洲中文字幕无码久久2018| 东京热无码av一区二区|