夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

騰訊AI Lab首創(chuàng)RL框架Parallel-R1,教大模型學(xué)會「并行思維」

0
分享至



自從 Google Gemini 將數(shù)學(xué)奧賽的成功部分歸功于「并行思維」后,如何讓大模型掌握這種并行探索多種推理路徑的能力,成為了學(xué)界關(guān)注的焦點(diǎn)。

然而,現(xiàn)有方法多依賴于監(jiān)督微調(diào)(SFT),模型一來只能模仿預(yù)先構(gòu)造的 parallel thinking 數(shù)據(jù),難以泛化到真實(shí)的復(fù)雜任務(wù)中,其次這種方式對數(shù)據(jù)要求很高,往往需要復(fù)雜的 data pipeline 來構(gòu)造。

為解決這些難題,來自騰訊 AI Lab 西雅圖、馬里蘭大學(xué)、卡內(nèi)基梅隆大學(xué)、北卡教堂山分校、香港城市大學(xué)、圣路易斯華盛頓大學(xué)等機(jī)構(gòu)的研究者們(第一作者鄭童是馬里蘭大學(xué)博士生,本工作于其在騰訊 AI Lab 西雅圖實(shí)習(xí)期間完成)首創(chuàng)了 Parallel-R1 框架 ——這是第一個(gè)通過強(qiáng)化學(xué)習(xí)(RL)在通用數(shù)學(xué)推理任務(wù)上教會大模型進(jìn)行并行思維的框架。該框架通過創(chuàng)新的「漸進(jìn)式課程」與「交替式獎(jiǎng)勵(lì)」設(shè)計(jì),成功解決了 RL 訓(xùn)練中的冷啟動和獎(jiǎng)勵(lì)設(shè)計(jì)難題。

實(shí)驗(yàn)表明,Parallel-R1 不僅在多個(gè)數(shù)學(xué)基準(zhǔn)上帶來高達(dá) 8.4% 的平均準(zhǔn)確率提升,更通過一種 “中程訓(xùn)練腳手架” 的策略,在 AIME25 測試中實(shí)現(xiàn)了 42.9% 的性能飛躍。



  • 論文標(biāo)題:
  • Parallel-R1: Towards Parallel Thinking via Reinforcement Learning
  • 論文地址:https://arxiv.org/abs/2509.07980
  • 項(xiàng)目地址:https://github.com/zhengkid/Parallel-R1 (Coming Soon)
  • 項(xiàng)目主頁:https://zhengkid.github.io/Parallel_R1.github.io/

并行思維的挑戰(zhàn):為何注入并行思維如此困難?

并行思維,即同時(shí)探索多條推理路徑再進(jìn)行歸納總結(jié)。



圖 1:并行思考流程示意圖。

目前最主流的注入并行思維的范式是監(jiān)督微調(diào) (SFT),但這種方式本質(zhì)上是行為克隆,強(qiáng)迫模型模仿固定的、預(yù)先生成的數(shù)據(jù),導(dǎo)致模型只會進(jìn)行表面上的模式匹配,而無法真正習(xí)得和泛化并行思維這一內(nèi)在的推理能力。其次,這類方式對數(shù)據(jù)質(zhì)量和多樣性的要求非常高,只有非常高質(zhì)量的數(shù)據(jù)才能讓模型學(xué)習(xí)到很好的 parallel thinking 能力。然而,遺憾的是,在現(xiàn)實(shí)世界中,人們很難天然獲取高質(zhì)量的這類數(shù)據(jù),因此只能依賴于人工合成。而對于真實(shí)世界的推理任務(wù),構(gòu)造這些數(shù)據(jù)的難度很大,需要復(fù)雜的數(shù)據(jù)管道。

另一方面強(qiáng)化學(xué)習(xí)(RL)是一種更擴(kuò)展性強(qiáng)的,但在通用、真實(shí)的復(fù)雜任務(wù)中進(jìn)行并行思維訓(xùn)練卻面臨兩大核心挑戰(zhàn):

  1. 冷啟動問題(Cold-Start):由于預(yù)訓(xùn)練模型從未見過并行思維的特定格式(如同時(shí)生成多個(gè)解題路徑),在 RL 探索初期,它根本無法自發(fā)產(chǎn)生這類軌跡,導(dǎo)致學(xué)習(xí)無從下手。這時(shí)候就需要一個(gè)冷啟動階段。但是上文提到,對于真實(shí)世界的難題,這種數(shù)據(jù)很難構(gòu)造。
  2. 獎(jiǎng)勵(lì)設(shè)計(jì)困境(Reward Design):如何平衡「解題正確率」和「思維方式」是一個(gè)難題。如果只獎(jiǎng)勵(lì)最終答案的正確性,模型會傾向于走最簡單、最熟悉的單路徑「捷徑」,從而「遺忘」更復(fù)雜的并行思維;而如果強(qiáng)行要求使用平行格式,又可能導(dǎo)致模型為了格式而犧牲邏輯的嚴(yán)謹(jǐn)性,反而降低了準(zhǔn)確率。



圖 2:漸進(jìn)式課程訓(xùn)練示意圖

Parallel-R1 的解法:首個(gè)為真實(shí)世界推理任務(wù)打造的 RL 框架

為攻克上述難題,Parallel-R1 作為首個(gè)專為通用、復(fù)雜數(shù)學(xué)推理等真實(shí)世界任務(wù)設(shè)計(jì)的強(qiáng)化學(xué)習(xí)框架被提出。它通過一套精巧的組合拳,系統(tǒng)性地解決了訓(xùn)練困境。

漸進(jìn)式課程:從「學(xué)格式」到「學(xué)探索」

研究者的一個(gè)關(guān)鍵發(fā)現(xiàn)是:用簡單的提示工程,讓強(qiáng)大的模型為簡單數(shù)學(xué)題(如 GSM8K)生成高質(zhì)量的并行思維數(shù)據(jù)是可行的(成功率 83.7%),但對于復(fù)雜難題(如 DAPO)則完全無效(成功率 0.0%)。



基于這一洞察,他們巧妙的避開了復(fù)雜的數(shù)據(jù)管道依賴,并設(shè)計(jì)了一種漸進(jìn)式課程:



  • 第二階段(能力泛化):當(dāng)模型掌握了基本格式后,再將其置于更困難的數(shù)學(xué)任務(wù)中,通過 RL 進(jìn)行訓(xùn)練 。此時(shí),模型已經(jīng)具備了生成平行軌跡的 “火種”,可以在 RL 的驅(qū)動下自由探索、試錯(cuò),并最終將這一能力泛化到未知難題上。

交替式獎(jiǎng)勵(lì):在「準(zhǔn)確性」與「多樣性」間取得平衡

針對獎(jiǎng)勵(lì)設(shè)計(jì)的困境,研究團(tuán)隊(duì)試驗(yàn)了多種方案,最終提出了一種高效的交替式獎(jiǎng)勵(lì)策略。該策略在訓(xùn)練過程中,周期性地在兩種獎(jiǎng)勵(lì)模式間切換:

  • 80% 的時(shí)間使用「準(zhǔn)確率獎(jiǎng)勵(lì)」:只根據(jù)最終答案是否正確給予獎(jiǎng)勵(lì),確保模型的核心目標(biāo)始終是解決問題。
  • 20% 的時(shí)間使用「分層獎(jiǎng)勵(lì)」:在這一模式下,如果模型使用了并行思維并且答案正確,會獲得一個(gè)額外獎(jiǎng)勵(lì)(+1.2 分);如果未使用并行思維但答案正確,則獲得標(biāo)準(zhǔn)獎(jiǎng)勵(lì)(+1.0 分);否則將受到懲罰。

消融實(shí)驗(yàn)(見下表)證明了該策略的優(yōu)越性。單純獎(jiǎng)勵(lì)準(zhǔn)確率,模型的并行思維使用率極低(13.6%);單純獎(jiǎng)勵(lì)平行格式,模型性能會嚴(yán)重下滑。而交替式策略在將并行思維使用率提升至 63.0% 的同時(shí),還能在 AIME 等高難度測試上取得最佳性能,完美實(shí)現(xiàn)了「既要并行行為又要準(zhǔn)確率」的目標(biāo)。



并行思考模型超過單一思考模型

根據(jù)下面提供的性能對比表,注入了并行思維能力的模型在各項(xiàng)數(shù)學(xué)推理基準(zhǔn)測試中,其性能優(yōu)于傳統(tǒng)的單一(順序)思考模型。



打開「黑箱」:模型如何悄然改變思維策略?

除了提出高效的訓(xùn)練框架,該研究還深入分析了模型在學(xué)習(xí)過程中的動態(tài)變化,揭示了一個(gè)有趣現(xiàn)象:模型的并行思維策略會隨著訓(xùn)練的深入,從「探索」演變?yōu)?「驗(yàn)證」。





圖 3:訓(xùn)練過程中 < Parallel > 模塊相對位置的變化,曲線穩(wěn)步上升,表明其應(yīng)用從早期探索轉(zhuǎn)向后期驗(yàn)證。

意外之喜:作為「訓(xùn)練腳手架」的并行思維

研究還發(fā)現(xiàn)了一個(gè)更令人振奮的結(jié)論:并行思維本身可以作為一種臨時(shí)的「結(jié)構(gòu)化探索腳手架」,來幫助模型解鎖更高的性能上限。

研究者設(shè)計(jì)了一個(gè)兩階段訓(xùn)練實(shí)驗(yàn):

  1. 探索階段(0-200 步):采用交替式獎(jiǎng)勵(lì),強(qiáng)制模型高頻率地使用并行思維,進(jìn)行廣泛的策略空間探索。
  2. 利用階段(200 步后):切換為純粹的準(zhǔn)確率獎(jiǎng)勵(lì)。此時(shí),模型會逐漸減少對平行格式的依賴,轉(zhuǎn)而專注于提煉和利用在第一階段發(fā)現(xiàn)的最優(yōu)策略。

結(jié)果(見下圖)顯示,進(jìn)入第二階段后,盡管模型的并行思維使用率(綠線)驟降,但其在 AIME25 上的準(zhǔn)確率(紅線)卻持續(xù)攀升,最終達(dá)到了25.6% 的峰值。這一成績相較于從頭到尾只用標(biāo)準(zhǔn) RL 訓(xùn)練的基線模型,實(shí)現(xiàn)了高達(dá) 42.9% 的相對提升。這證明了,短暫地「強(qiáng)迫」模型進(jìn)行平行探索,能夠幫助它發(fā)現(xiàn)一個(gè)更優(yōu)的「能力區(qū)間」,即使后續(xù)不再使用這種形式,其學(xué)到的核心推理能力也得到了質(zhì)的飛躍。



圖 4:兩階段訓(xùn)練曲線。在探索階段后,并行思維使用率下降,但模型準(zhǔn)確率持續(xù)走高,超越基線。

總結(jié)

在這項(xiàng)工作中,研究者們提出了 Parallel-R1,這是首個(gè)能在真實(shí)的通用數(shù)學(xué)推理任務(wù)上,通過強(qiáng)化學(xué)習(xí)教會大模型進(jìn)行并行思維的框架。除此之外,研究者們進(jìn)一步對并行思考行為以及其潛在價(jià)值進(jìn)行了深入探討。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
十億換一命?47歲蔡磊現(xiàn)狀曝光,面色紅潤精神佳,6歲兒子犧牲大

十億換一命?47歲蔡磊現(xiàn)狀曝光,面色紅潤精神佳,6歲兒子犧牲大

以茶帶書
2025-09-11 11:45:09
開火了,美國擊沉了4艘委內(nèi)瑞拉船:俄羅斯掀桌子,拿出重要協(xié)議

開火了,美國擊沉了4艘委內(nèi)瑞拉船:俄羅斯掀桌子,拿出重要協(xié)議

史行途
2025-09-20 23:20:44
趙麗穎回應(yīng)“與兒子手拉手過馬路”話題上熱搜:以孩子母親的身份懇請,不要把鏡頭對準(zhǔn)未成年人

趙麗穎回應(yīng)“與兒子手拉手過馬路”話題上熱搜:以孩子母親的身份懇請,不要把鏡頭對準(zhǔn)未成年人

魯中晨報(bào)
2025-09-19 17:57:25
中方忍耐26年,馬科斯作最終選擇,向中國下挑戰(zhàn)書,美派兵菲律賓

中方忍耐26年,馬科斯作最終選擇,向中國下挑戰(zhàn)書,美派兵菲律賓

書中自有顏如玉
2025-09-21 06:21:52
新王加冕!連爆大冷世界第9第5被淘汰,周躍龍6-3塞爾比晉級決賽

新王加冕!連爆大冷世界第9第5被淘汰,周躍龍6-3塞爾比晉級決賽

求球不落諦
2025-09-21 01:41:31
爸爸送女兒上大學(xué),女兒穿搭時(shí)尚不讓家長擔(dān)心:怕黃毛盯上

爸爸送女兒上大學(xué),女兒穿搭時(shí)尚不讓家長擔(dān)心:怕黃毛盯上

唐小糖說情感
2025-09-17 08:26:38
倆盲人爬泰山后續(xù)-不是夫妻,眼不全瞎,導(dǎo)盲犬已被專車接回基地

倆盲人爬泰山后續(xù)-不是夫妻,眼不全瞎,導(dǎo)盲犬已被專車接回基地

調(diào)侃國際觀點(diǎn)
2025-09-20 22:52:35
一日英超動向:馬雷斯卡被阿莫林打懵了,曼城即將VS阿森納

一日英超動向:馬雷斯卡被阿莫林打懵了,曼城即將VS阿森納

里芃芃體育
2025-09-21 07:03:23
上海四大板塊正在“階層躍遷”,誰能成功暴漲?

上海四大板塊正在“階層躍遷”,誰能成功暴漲?

環(huán)線房產(chǎn)咨詢
2025-09-20 17:40:14
89歲謝賢生活近況曝光:四名工人24小時(shí)看護(hù),王菲謝霆鋒頻繁探望

89歲謝賢生活近況曝光:四名工人24小時(shí)看護(hù),王菲謝霆鋒頻繁探望

三公子娛樂丫
2025-09-20 18:54:36
回旋鏢?波蘭關(guān)閉與白俄羅斯邊境,中歐班列中斷上萬集裝箱滯留…

回旋鏢?波蘭關(guān)閉與白俄羅斯邊境,中歐班列中斷上萬集裝箱滯留…

翻開歷史和現(xiàn)實(shí)
2025-09-19 09:32:13
宋丹丹這手太絕了!別墅做公證,孫子全姓宋,英達(dá)想沾好處都沒門

宋丹丹這手太絕了!別墅做公證,孫子全姓宋,英達(dá)想沾好處都沒門

小楊侃事
2025-07-25 09:26:57
女子4×100米接力:中國隊(duì)跑出42秒94賽季最佳,小組第六無緣決賽

女子4×100米接力:中國隊(duì)跑出42秒94賽季最佳,小組第六無緣決賽

懂球帝
2025-09-20 20:12:15
英超最新積分戰(zhàn)報(bào):2場逆襲好戲,2大豪強(qiáng)丟分,曼聯(lián)利物浦險(xiǎn)勝

英超最新積分戰(zhàn)報(bào):2場逆襲好戲,2大豪強(qiáng)丟分,曼聯(lián)利物浦險(xiǎn)勝

足球狗說
2025-09-21 06:29:53
公開懸賞!賞金超1200萬

公開懸賞!賞金超1200萬

極目新聞
2025-09-19 22:14:45
對波蘭最好的回?fù)舨皇侨デ蠛?,而是?shí)質(zhì)性的對俄羅斯大規(guī)模支援

對波蘭最好的回?fù)舨皇侨デ蠛?,而是?shí)質(zhì)性的對俄羅斯大規(guī)模支援

小陸搞笑日常
2025-09-21 03:40:40
廣州男子度假回來,發(fā)現(xiàn)房間窗外被裝了4臺空調(diào)!“嗡嗡”噪聲不絕于耳…

廣州男子度假回來,發(fā)現(xiàn)房間窗外被裝了4臺空調(diào)!“嗡嗡”噪聲不絕于耳…

廣東活動
2025-09-20 12:10:36
弟弟6歲走失,20年后姐姐求職,看到老板戴父親遺物當(dāng)場痛哭

弟弟6歲走失,20年后姐姐求職,看到老板戴父親遺物當(dāng)場痛哭

蘭姐說故事
2025-08-29 17:40:03
第19輪制裁法案很給力!1700億歐元,歐盟準(zhǔn)備對俄羅斯下狠手

第19輪制裁法案很給力!1700億歐元,歐盟準(zhǔn)備對俄羅斯下狠手

鷹眼Defence
2025-09-20 16:51:22
長沙璽羅醫(yī)美突然閉店,員工和會員維權(quán)!醫(yī)美協(xié)會:老板是資產(chǎn)上億富婆,疑被騙去泰國

長沙璽羅醫(yī)美突然閉店,員工和會員維權(quán)!醫(yī)美協(xié)會:老板是資產(chǎn)上億富婆,疑被騙去泰國

極目新聞
2025-09-20 13:19:13
2025-09-21 07:35:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
11323文章數(shù) 142453關(guān)注度
往期回顧 全部

科技要聞

蔚來全新ES8正式上市:售價(jià)40.68萬元起

頭條要聞

特朗普稱將在韓與中國元首見面 并透露自己訪華的時(shí)間

頭條要聞

特朗普稱將在韓與中國元首見面 并透露自己訪華的時(shí)間

體育要聞

利物浦1.36億新援尷尬?0射1黃+7場仍0球

娛樂要聞

柯淳公開向關(guān)曉彤表白,鹿晗躺槍

財(cái)經(jīng)要聞

美聯(lián)儲降息,全球連鎖反應(yīng)來襲

汽車要聞

全系華為+寧德時(shí)代/增程版可選52度大電池 阿維塔07 2026款售21.99萬元起

態(tài)度原創(chuàng)

教育
時(shí)尚
親子
旅游
數(shù)碼

教育要聞

小學(xué)掉隊(duì),初中還能翻盤嗎?

伊姐周六熱推:電視劇《不眠日》;電視劇《照鏡辭》......

親子要聞

十年來,上海5歲兒童乳牙患齲率、12歲兒童恒牙患齲率下降11%、7%

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

數(shù)碼要聞

Meta發(fā)布全家桶,帶屏AI眼鏡登場

無障礙瀏覽 進(jìn)入關(guān)懷版 亚洲AV电影网| 国语精品一区二区三区| 亚洲高清黄色精品小说在线观看| 中文国产成人精品久久不卡| 十八岁以下免费毛片| 久久这里精品国产99丫e6| av香蕉大人| 狠狠色丁香久久综合频道日韩 | 欧美R级高清无删节整片在线观看| 真实国产乱视频国语| 精品成人免费视频在线观看| 国产在线看片网址你懂的| 在线精品亚洲第一区焦香| 少妇毛片一区二区| 玩弄少妇高潮ⅹxxxyw| 亚洲日韩欧美一区二区三区在线| 免费无码又爽又高潮视频| 人人妻人人爽人人澡玩乐视频| 亚洲国产精品久久久久婷婷图片| 久久久久久动漫| 天天av在线免费看| 亚欧AV无码乱码在线观看性色| 国产欧美日韩专区发布| 亚洲av综合久久成人网| 亚洲婷婷视频| 淫荡少妇AV| 色悠久久久久久久综合网伊人 | 99这里有精了久久| 岛国AV网站| 无码人妻丝袜在线视频| 日产亚洲一卡2卡3卡4卡网站| 无码人妻aⅴ一区二区三区蜜桃| 国内精品视频一区二区三区八戒| 亚洲av无码一区二区三区乱子伦 | 亚洲综合人成网免费视频| 久久快播视频| 日韩精品一区二区亚洲av观看 | 无码专区视频中文字幕| 久久亚洲AV成人片无码| 人人操人人舔人人妻| 中文字幕乱码亚洲精品一区|