夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

100種子題,數(shù)據(jù)質(zhì)量超GPT-5,阿里、上交提出Socratic-Zero框架

0
分享至



本文(共同)第一作者為王少博(上交 AI)、焦政博(上財(cái))。(共同)通訊作者為魏虎(阿里巴巴)和張林峰(上交 AI)。本文其他作者來自阿里巴巴、武大、浙大等。

最近一篇來自阿里巴巴和上交等單位的 Agent 自進(jìn)化工作得到了推特大佬們的關(guān)注。首先是 Rohan Paul 的兩次轉(zhuǎn)發(fā):





網(wǎng)友對此也高度評價:





讓我們看看這篇工作到底是怎么做的?

引言:從 “數(shù)據(jù)饑渴” 到 “自給自足”


當(dāng)前大語言模型在數(shù)學(xué)推理上的突破,高度依賴海量人工標(biāo)注數(shù)據(jù)。以 MetaMath 和 WizardMath 為代表的靜態(tài)增強(qiáng)方法,雖能通過提示工程合成訓(xùn)練樣本,但其生成的問題質(zhì)量不穩(wěn)定,且無法動態(tài)適配模型能力演進(jìn),導(dǎo)致訓(xùn)練信號效率低下。

為突破這一瓶頸,阿里巴巴與上海交通大學(xué) EPIC Lab聯(lián)合提出Socratic-Zero,一個完全無外部數(shù)據(jù)依賴的自主推理訓(xùn)練框架。該方法僅從100 個種子問題出發(fā),通過三個智能體的協(xié)同進(jìn)化,自動生成高質(zhì)量、難度自適應(yīng)的課程,并持續(xù)提升模型推理能力。



  • 論文鏈接:https://arxiv.org/pdf/2509.24726
  • GitHub 地址:https://github.com/Frostlinx/Socratic-Zero

蘇格拉底的 “助產(chǎn)術(shù)”:從哲學(xué)對話到智能體協(xié)同

兩千多年前,蘇格拉底在雅典街頭與青年對話,從不直接給出答案,而是通過一連串精準(zhǔn)的提問,引導(dǎo)對方暴露認(rèn)知盲區(qū)、修正錯誤信念,最終 “自己生出” 真知。他稱這種方法為 “精神助產(chǎn)術(shù)”(maieutics)—— 教師不是知識的灌輸者,而是思維的接生者。

這一古老智慧在今天的大模型時代煥發(fā)出驚人回響。當(dāng)現(xiàn)代 AI 面臨推理能力瓶頸,傳統(tǒng)路徑依賴海量標(biāo)注數(shù)據(jù) “喂養(yǎng)” 模型,而蘇格拉底卻啟示我們:真正的智能,或許不在于擁有多少答案,而在于能否通過高質(zhì)量的提問,激發(fā)自我修正與持續(xù)進(jìn)化的能力。

受此啟發(fā),阿里巴巴與上海交通大學(xué) EPIC Lab 將這一哲學(xué)理念轉(zhuǎn)化為可計(jì)算的協(xié)同機(jī)制,提出Socratic-Zero—— 一個由 Solver(學(xué)生)、Teacher(導(dǎo)師)與 Generator(學(xué)徒)構(gòu)成的三智能體自進(jìn)化系統(tǒng)。在這里,沒有外部數(shù)據(jù)的 “喂養(yǎng)”,只有智能體之間的 “詰問” 與 “反思”;沒有靜態(tài)課程的灌輸,只有動態(tài)生成的挑戰(zhàn)與反饋。正如蘇格拉底所言:“我不能教人任何東西,只能讓他們思考?!?Socratic-Zero 正是在這一精神下,讓大模型學(xué)會 “自己教自己推理”。



論文 Figure 1 (a) 蘇格拉底教學(xué)法展現(xiàn)的哲學(xué)根基:導(dǎo)師(蘇格拉底)如同思想助產(chǎn)士,通過探詢式提問引導(dǎo)理解;實(shí)踐者(亞里士多德)并非被動接受答案,而是循著理性探究之路獲得啟迪;學(xué)徒導(dǎo)師(柏拉圖)則通過觀察并內(nèi)化大師的方法來習(xí)得教學(xué)之道。(b) Socratic-Zero 框架將這一理念付諸實(shí)踐。在此框架中,教師 —— 一個強(qiáng)大的法律語言模型 —— 引導(dǎo)兩個智能體的協(xié)同進(jìn)化。解題器通過生成解決方案并借助教師反饋進(jìn)行優(yōu)化而不斷改進(jìn),生成器則通過策略性地提煉教師行為來進(jìn)化,從而為解題器生成日益適配的課程體系。

核心突破:在極簡啟動條件下,合成數(shù)據(jù)質(zhì)量全面超越 GPT-5、Gemini-2.5-Pro、Claude-4.1-Opus 等頂級閉源模型作為數(shù)據(jù)生成器時的表現(xiàn)。



方法詳解:三智能體 “蘇格拉底鐵三角”

Socratic-Zero 的核心是一個受蘇格拉底 “助產(chǎn)術(shù)” 啟發(fā)的多智能體系統(tǒng),包含三個角色:

  • Solver(學(xué)生):嘗試解答問題,并通過偏好學(xué)習(xí)(DPO)從成功與失敗軌跡中自我修正;
  • Teacher(導(dǎo)師):基于 Solver 的錯誤,動態(tài)生成更具針對性的新問題,精準(zhǔn)暴露其知識盲區(qū);
  • Generator(學(xué)徒):模仿 Teacher 的出題策略,通過價值加權(quán)監(jiān)督微調(diào)(WSFT)蒸餾其 “教學(xué)智慧”,實(shí)現(xiàn)課程的規(guī)?;?。

三者構(gòu)成一個閉環(huán)自進(jìn)化系統(tǒng):Solver 的弱點(diǎn)驅(qū)動 Teacher 出題,Teacher 的行為被 Generator 學(xué)習(xí),Generator 產(chǎn)出的新問題又反哺 Solver 訓(xùn)練 —— 全程無需人類干預(yù)。



1. Solver 的在線偏好優(yōu)化(Online DPO)

Solver 在當(dāng)前課程上對每個問題生成 ( k=8 ) 條推理軌跡。Teacher 的驗(yàn)證函數(shù)判斷每條軌跡是否正確,從而構(gòu)建偏好對:正確軌跡為 “勝”,錯誤軌跡為 “負(fù)”。

若 Solver 全部失敗,則使用課程中的參考答案作為唯一 “勝” 樣本,確保偏好信號始終存在。Solver 通過 Direct Preference Optimization (DPO) 更新策略。若 Solver 全部失敗,則使用課程中的參考答案作為唯一 “勝” 樣本,確保偏好信號始終存在。



2. Teacher 的自適應(yīng)出題機(jī)制

Teacher 是一個固定的大模型(Qwen3-235B-A22B),具備兩個確定性函數(shù):

  • 驗(yàn)證函數(shù):判斷解法是否正確;
  • 問題精煉函數(shù):基于 Solver 的錯誤解法,生成一個新問題及其參考答案。

新問題的設(shè)計(jì)原則是:保留原問題的數(shù)學(xué)本質(zhì),但針對性修復(fù) Solver 的推理漏洞。

關(guān)鍵保障機(jī)制:當(dāng) Solver 對某問題全錯時,Teacher 會啟動 Self-Verification Protocol—— 重新求解該問題,驗(yàn)證參考答案是否正確,防止低質(zhì)量問題污染課程

3. Generator 的價值加權(quán)蒸餾(WSFT)

為避免持續(xù)調(diào)用昂貴的 Teacher,Generator 通過 Weighted Supervised Fine-Tuning (WSFT) 學(xué)習(xí)其出題策略。關(guān)鍵創(chuàng)新在于引入價值函數(shù):



4. 為何僅需 100 個種子?

論文 Appendix F 詳細(xì)說明了種子選擇協(xié)議:

  • 難度對齊:種子來自 MATH 數(shù)據(jù)集 Level 2–4,確保 Solver 初始成功率 50% 上下,避免 “太易” 或 “全錯”;
  • 領(lǐng)域覆蓋:100 個問題均勻分布于代數(shù)、數(shù)論、幾何、組合等 7 個數(shù)學(xué)子領(lǐng)域;
  • 多樣性保障:通過嵌入聚類確保解法路徑多樣,避免同質(zhì)化;
  • 質(zhì)量控制:所有種子經(jīng) Teacher 多次驗(yàn)證,排除歧義或錯誤問題。

這一精心設(shè)計(jì)的啟動集,為后續(xù)自進(jìn)化提供了高質(zhì)量、高信息量的 “引信”。

實(shí)驗(yàn)結(jié)果:極簡啟動,極致性能

1. Solver 性能:+20.2 個百分點(diǎn)提升

在 7 個數(shù)學(xué)推理基準(zhǔn)(AMC23、AIME24/25、Olympiad、MATH-500、Minerva、GSM8K)上,Socratic-Solver-8B(基于 Qwen3-8B)平均準(zhǔn)確率達(dá) 56.1%,相比 MetaMath 和 WizardMath(平均 40.7%),絕對提升 +15.4 個百分點(diǎn);相比 LLM2LLM 提升 +15.2 個百分點(diǎn)。



在高難度競賽題上優(yōu)勢更顯著:

  • AIME-24:28.4% vs. 12.3%(+16.1)
  • Olympiad:55.1% vs. 35.9%(+19.2)

2. Generator 質(zhì)量:合成數(shù)據(jù)超越閉源大模型

研究團(tuán)隊(duì)用各模型生成 3,000 道數(shù)學(xué)題,微調(diào) DeepSeek-R1-Distill-Llama-8B 作為學(xué)生模型,測試其下游性能:

關(guān)鍵結(jié)論:僅用 100 個種子問題啟動的 Socratic-Generator-32B,其合成數(shù)據(jù)質(zhì)量已超越 GPT-5、Gemini-2.5-Pro 等閉源大模型作為數(shù)據(jù)生成器時的表現(xiàn)。

此外,Socratic-Generator-32B 的問題有效性達(dá) 95.6%,接近 GPT-5(95.8%),遠(yuǎn)超其基座模型 Qwen3-32B(89.1%)。



工程價值:輕量、可復(fù)現(xiàn)、高性價比

Socratic-Zero 的訓(xùn)練流程高度工程友好:

  • 硬件:Solver 訓(xùn)練僅需 8×NVIDIA H20 GPU,Teacher 推理使用 16×AMD MI308X;
  • 評估可靠性:采用 MathRule(規(guī)則提取) + LLM Judge(語義驗(yàn)證) 雙驗(yàn)證機(jī)制,確保結(jié)果可信;
  • 可遷移性:框架設(shè)計(jì)通用,可擴(kuò)展至代碼等其他推理領(lǐng)域。

結(jié)語

Socratic-Zero 證明:在推理能力構(gòu)建中,高質(zhì)量的教學(xué)策略可能比模型規(guī)模更重要。一個僅用 100 個種子問題啟動的 32B Generator,竟能產(chǎn)出優(yōu)于 GPT-5 的訓(xùn)練數(shù)據(jù) —— 這為資源受限的團(tuán)隊(duì)提供了新的可能性。

更重要的是,它開啟了一條零數(shù)據(jù)、自進(jìn)化的新路徑:無需人類標(biāo)注,僅靠智能體之間的協(xié)同演化,就能實(shí)現(xiàn)推理能力的螺旋式上升。

歡迎社區(qū)開發(fā)者與研究者試用、拓展,共同探索智能體協(xié)同進(jìn)化的邊界。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
今年南京學(xué)區(qū)大變動!多所學(xué)校施教區(qū)調(diào)整,這些小區(qū)躺贏!

今年南京學(xué)區(qū)大變動!多所學(xué)校施教區(qū)調(diào)整,這些小區(qū)躺贏!

南京擇校
2025-10-24 17:41:16
網(wǎng)傳男子380萬房子現(xiàn)跌至120萬,躺售樓部不愿離開,買房輸不起

網(wǎng)傳男子380萬房子現(xiàn)跌至120萬,躺售樓部不愿離開,買房輸不起

筆尖下的人生
2025-10-24 18:20:12
高市早苗稱將提高日本防衛(wèi)開支,中方表態(tài)

高市早苗稱將提高日本防衛(wèi)開支,中方表態(tài)

每日經(jīng)濟(jì)新聞
2025-10-23 16:59:29
浙江一男子到山東尋親,問路問到親叔叔!當(dāng)事人:聽到他說“我是你叔”時,手腳發(fā)麻,像做夢一樣

浙江一男子到山東尋親,問路問到親叔叔!當(dāng)事人:聽到他說“我是你叔”時,手腳發(fā)麻,像做夢一樣

極目新聞
2025-10-15 10:50:36
國足落后日本74名!孫繼海嘆息:跟隔壁的小國差距這么大,我不服

國足落后日本74名!孫繼海嘆息:跟隔壁的小國差距這么大,我不服

風(fēng)過鄉(xiāng)
2025-10-24 10:57:39
黃光裕:入獄了11年,銀行賬戶躺著225億,出獄后的他過得咋樣?

黃光裕:入獄了11年,銀行賬戶躺著225億,出獄后的他過得咋樣?

米果說識
2025-10-22 20:20:21
古代的通房丫鬟,就是主子行房時候的工具,一整晚都得守在床邊

古代的通房丫鬟,就是主子行房時候的工具,一整晚都得守在床邊

瑤卿文史
2025-10-22 09:22:18
沉默的榮耀大結(jié)局,讓人哭笑不得的穿幫鏡頭,快來看看

沉默的榮耀大結(jié)局,讓人哭笑不得的穿幫鏡頭,快來看看

小椰的奶奶
2025-10-23 14:13:41
演員張藝洋已執(zhí)行死刑!中國娛樂圈首例,倪大紅、李雪健被牽連

演員張藝洋已執(zhí)行死刑!中國娛樂圈首例,倪大紅、李雪健被牽連

阿纂看事
2025-07-25 17:12:19
解禁后的張雪峰改稱“文科大有可為” 可嘆、可笑、可悲

解禁后的張雪峰改稱“文科大有可為” 可嘆、可笑、可悲

冷觀互聯(lián)網(wǎng)
2025-10-24 12:02:16
東華大學(xué)43名新生放棄入學(xué)資格,招生辦:不存在浪費(fèi)錄取名額,理解學(xué)生的選擇

東華大學(xué)43名新生放棄入學(xué)資格,招生辦:不存在浪費(fèi)錄取名額,理解學(xué)生的選擇

極目新聞
2025-10-24 12:17:04
金晨穿這樣,自己不尷尬的嗎?不冷嗎?

金晨穿這樣,自己不尷尬的嗎?不冷嗎?

小椰的奶奶
2025-10-11 11:27:57
有人問安世破產(chǎn)誰損失大?損失的只有中企,荷蘭能有什么損失呢

有人問安世破產(chǎn)誰損失大?損失的只有中企,荷蘭能有什么損失呢

南權(quán)先生
2025-10-23 12:11:28
機(jī)關(guān)算盡太聰明!“千億兒媳”如今徹底成笑話,惡果已經(jīng)開始顯現(xiàn)

機(jī)關(guān)算盡太聰明!“千億兒媳”如今徹底成笑話,惡果已經(jīng)開始顯現(xiàn)

二妹扯娛
2025-10-19 10:24:02
大陸18份通緝令見效,臺獨(dú)分子天塌了,賣慘哭窮,金庫被一鍋端

大陸18份通緝令見效,臺獨(dú)分子天塌了,賣慘哭窮,金庫被一鍋端

Ck的蜜糖
2025-10-23 03:03:18
科斯塔回憶利物浦當(dāng)初天價簽下努涅斯:那感覺就像中了頭彩

科斯塔回憶利物浦當(dāng)初天價簽下努涅斯:那感覺就像中了頭彩

雷速體育
2025-10-24 17:32:20
同樣是37歲,威少年薪360萬,康利1077萬,杜蘭特樂福和庫里呢?

同樣是37歲,威少年薪360萬,康利1077萬,杜蘭特樂福和庫里呢?

大西體育
2025-10-24 19:25:42
“良心壞透”的5個生活用品,很多人每天用,卻不知其中危害

“良心壞透”的5個生活用品,很多人每天用,卻不知其中危害

家居美少女
2025-10-23 15:34:22
深一度|比盧普斯涉賭背后,NBA賭球案牽出一連串內(nèi)幕

深一度|比盧普斯涉賭背后,NBA賭球案牽出一連串內(nèi)幕

澎湃新聞
2025-10-24 08:42:28
陳可冀院士研究:他汀雖能降脂,卻可能帶來5個副作用,別吃過頭

陳可冀院士研究:他汀雖能降脂,卻可能帶來5個副作用,別吃過頭

小舟談歷史
2025-10-08 09:20:48
2025-10-24 20:23:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
11552文章數(shù) 142494關(guān)注度
往期回顧 全部

科技要聞

馬斯克“加倍下注”,再次挑戰(zhàn)特朗普手下

頭條要聞

全國人大常委會:將10月25日設(shè)立為臺灣光復(fù)紀(jì)念日

頭條要聞

全國人大常委會:將10月25日設(shè)立為臺灣光復(fù)紀(jì)念日

體育要聞

NBA反賭掃黑!楊瀚森一覺起來主教練沒了

娛樂要聞

VOGUE大合照太勢利:影后只能站角落?

財(cái)經(jīng)要聞

央行:維護(hù)股市等金融市場平穩(wěn)運(yùn)行

汽車要聞

精致實(shí)用還智能 試駕體驗(yàn)全新歐拉5

態(tài)度原創(chuàng)

教育
時尚
手機(jī)
本地
健康

教育要聞

場上踢球,場下辯論!這所學(xué)校為何讓足球賽與辯論會“神同步”

今年秋冬我一定要買這件衣服,越看越心動!

手機(jī)要聞

李楠推測iPhone17 Pro褪色原因:去中國化,換了不專業(yè)的供應(yīng)鏈

本地新聞

這個秋天,一起來粉上漓渚!所有風(fēng)景只為等你

骨頭"咔咔響"?肌骨超聲到底有何用

無障礙瀏覽 進(jìn)入關(guān)懷版 熟妇人妻中文字幕无码老熟妇| 国产精品亚洲片在线观看不卡| 亚洲色偷偷综合亚洲avyp | 亚洲18岁AV| 91精品人人妻人人做人人爱| 夜夜躁狠狠躁日日躁| 一线天无毛馒头逼| 精品国产免费一区二区三区| www.亚洲无码| 久久国产福利国产秒拍飘飘网| 日本午夜精品一区二区三区电影| 在线看一级无码毛片| 国产精品露脸国语对白| JDAV精品国产亚洲AV| 国产办公室AV| 福利视频在线一区二区| 西西裸体视频| 青青草久热这里只有精品| 欧美图片AⅤ在线| 亚洲人成色99999在线观看| 亚洲中文字幕精品久久久久久直播| 色yeye香蕉凹凸视频在线观看| GV无码免费无禁网站男男| 欧美大胆老熟妇乱子伦视频| 无码AV大香线蕉伊人久久| 五月天激情婷婷婷久久| 中国成熟妇女毛茸茸| 久久国产视频播放| 成年女人粗暴毛片免费观看| 偷久久久无码精品亚洲| AV区无码字幕中文色| 九九热在线视频观看这里只有精品 | 日本69AV| 国产成人MV视频在线观看| 日韩不卡AV| 动漫h欧美在线观看| 欧美精品一产区二产区| 无码一卡二卡| 亚洲gv在线| 亚洲AV丁香五月六月婷婷| 色一情一乱一伦一区二区三欧美|