夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網易首頁 > 網易號 > 正文 申請入駐

研究人員提出OThink-R1,讓大模型自行決定是否需要深度思考

0
分享至

近日,浙江大學碩士生張盛佳和所在團隊發(fā)現(xiàn):深度推理模型的部分推理過程是不必要的。一方面,目前的深度推理模型在面對一些例如“1+1=?”的簡單問題時,也需要大費周章地進行深度思考。而人類在面對諸如此類的簡單問題時,往往能夠憑直覺給出答案;另一方面,在一些簡單任務上(例如,常識問答和小學生數(shù)學題),即使不具有深度推理能力的大模型也能取得較好的效果。本次研究基于所觀察到的現(xiàn)象提出了一種解決方案,使得深度推理大模型在解決問題時,能夠自行決定是否進行深度思考,有利于計算資源更加合理的分配,提升大模型的推理效率。


圖 | 張盛佳(來源:張盛佳)

據(jù)介紹,受限于數(shù)據(jù)與算力的規(guī)模,預訓練以 Transformer 為基礎架構的大模型所帶來的收益正在不斷式微。那么,該如何進一步提升大模型的能力?近來,以 DeepSeek-R1、OpenAI o1 為代表的深度推理大模型突破了預訓練 Scaling Law 的限制,通過增加測試時計算資源的投入,在多種復雜任務上取得了優(yōu)異的效果。與非深度推理大模型相比,深度推理大模型通過模仿人類進行深度思考,能夠更加準確地理解用戶的需求,更加深入地分析用戶提出的問題。

然而,目前的深度推理大模型面臨嚴重的冗余思考問題:即使面對例如“1+1=?”這樣的簡單問題,深度推理大模型也需要進行長時間的思考,造成了計算資源的浪費。

實際上,人類的思考模式可以分為“根據(jù)直覺得出答案”的快思考和“進行深入分析得出答案”的慢思考。在面臨一些簡單的問題時,人類往往能夠通過直覺直接給出答案。


圖 | OThink-R1 主體框架(來源:張盛佳)

受到人類思考模式的啟發(fā),該團隊提出了這樣一個問題:如何賦予深度推理大模型自動切換快慢思考的能力,自行決定是否需要進行深度思考,從而更加合理地利用計算資源?

針對該問題,他們提出了一種創(chuàng)新性解決方案。具體來說,本研究首先對非推理模型(模仿人類快思考,直接給出答案)和深度推理模型在簡單任務(例如,常識問答和小學生數(shù)學題)上均成功解決的問題進行統(tǒng)計,收集這類問題上深度推理模型的推理思維鏈。通過大量比較推理思維鏈的異同,本研究總結出“必要推理”和“冗余推理”的多條特征,并根據(jù)此將深度推理思維鏈分類為必要推理和冗余推理,將冗余推理中的深度推理部分刪除,構成一批混合推理思維鏈數(shù)據(jù)集。最后,基于該數(shù)據(jù)集對深度推理模型進行監(jiān)督微調,賦予深度推理模型自動切換快慢思考的能力。

因此,本研究對實現(xiàn)“Test-time Scaling Law”具有十分重要的意義,其賦予了深度推理大模型自動切換快慢思考的能力,使得模型能夠更加合理的分配計算資源。因此,模型能夠通過內部知識直接給出一些簡單問題的答案,也能夠開啟深度思考,細致地分析一些困難的問題。

據(jù)介紹,本次研究項目是 OPPO 與浙江大學聯(lián)合攻關課題之一。受年初 DeepSeek-R1 一系列研究的啟發(fā),該團隊嘗試著來探索 DeepSeek-R1 模型的相關性質。如前所述,他們發(fā)現(xiàn)在使用 DeepSeek-R1 模型時,即使問很簡單的問題,例如“1+1=?”或者“請幫我修改我的作業(yè)”之類的問題,也會生成特別長的思維鏈。這實際上是不必要的,不僅增長用戶等待時間,還會浪費計算資源。

在研究初期,最困擾該團隊的是如何設計穩(wěn)定的模型輸出結果驗證器。一方面,他們發(fā)現(xiàn) DeepSeek-R1 這類模型,遵循指令的能力不夠優(yōu)秀。這就導致模型推理的結果不具有特定的格式,加大了提取模型結果的難度。

另一方面,該團隊自己構建了許多模型的輸出結果驗證器,但是這些結果驗證器沒有很好地考慮各種輸出結果的風格,十分不穩(wěn)定。有時會出現(xiàn)模型回答是正確的,但是并未正確地提取模型的答案?;蛘咛崛〉藉e誤的模型答案導致無法正確地評估各個模型的效果,以及無法正確地評估該團隊所提出方法的效果。

在這個問題解決之后,該團隊最初始的方案是想基于 GRPO 算法,利用強化學習的方式去激發(fā)出模型快慢思考的能力。然而,DeepSeek-R1 這一類模型指令遵循能力差,該團隊設計了許多 prompt,都無法在訓練的初期讓模型輸出跳過深度思考過程的回答。于是該團隊轉向設計獎勵函數(shù),期望能夠通過設計一類特殊的獎勵函數(shù),讓模型的思考過程長度首先降為 0,然后慢慢增長。經過該團隊多次嘗試,該團隊設計了一類在理論上能夠達到該效果的獎勵函數(shù),但是經過多次嘗試,該獎勵函數(shù)在實際中并未達到該團隊的目標效果。

這個時候該團隊嘗試著使用 DPO 算法,將快思考的回答作為正樣本,慢思考的回答作為負樣本,進行模型訓練。該團隊進行了許多實驗,DPO 效果極其不穩(wěn)定,訓練出的模型均表現(xiàn)出效果大幅下降。在閱讀相關文獻后,該團隊發(fā)現(xiàn),DPO 這類算法不適合分布劇烈變化的情況。于是最后該團隊嘗試使用監(jiān)督微調的方式,進行模型的訓練。具體做法是,收集訓練集上推理模型的正確回答,刪除這其中非推理模型也能解決的問題上推理模型的深度思考過程,使用監(jiān)督微調進行訓練。這個方案在初期取得了相比于之前兩個方案更優(yōu)的效果:模型性能不會大幅下降,同時模型能夠開始自行決定是否思考。

然而,該團隊發(fā)現(xiàn),這個方案仍然無法很好地遷移到其他場景下,仍然會造成模型性能的大幅降低。于是該團隊開始考慮,是否在非推理模型能夠解決的問題上,模型的一部分深度思考過程也是必要的。從這個想法出發(fā),該團隊開始利用大模型對深度思考過程進行分類,將其分類為有效思考和冗余思考,重新構造數(shù)據(jù)集進行監(jiān)督微調。最終,在這個方案下,該團隊做出了比較好的效果。盡管該團隊的研究已經賦予了推理大語言模型自動切換快慢思考的能力,但目前 OThink-R1 還依賴大模型 LLM-Judge 來判斷推理冗余。未來該團隊期望繼續(xù)深入研究,以端到端的方式來賦予模型自動切換快慢思考的能力。

參考資料:

標題:OThink-R1: Intrinsic Fast/Slow Thinking Mode Switching for Over-Reasoning Mitigation

作者:Shengjia Zhang (Zhejiang University), Junjie Wu (OPPO Research Institute), Jiawei Chen (Zhejiang University), Changwang Zhang (OPPO Research Institute), Xingyu Lou (OPPO Research Institute), Wangchunshu Zhou (OPPO Research Institute), Sheng Zhou (Zhejiang University), Can Wang (Zhejiang University), Jun Wang (OPPO Research Institute)

鏈接: https://arxiv.org/abs/2506.02397

運營/排版:何晨龍

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
特朗普:人還活著,要被印度氣死了

特朗普:人還活著,要被印度氣死了

百味朱砂
2025-09-02 11:45:26
陳剛履新上海外高橋造船黨委書記、董事長

陳剛履新上海外高橋造船黨委書記、董事長

NauticEdge
2025-09-02 11:36:20
住建部:即日起,全面啟用新標準!全國各地密集發(fā)文

住建部:即日起,全面啟用新標準!全國各地密集發(fā)文

新浪財經
2025-09-01 22:01:09
未來國足四小天鵝已就位!U23亞洲杯預選賽扛起大旗

未來國足四小天鵝已就位!U23亞洲杯預選賽扛起大旗

中山印象體育攝影師
2025-09-02 13:53:11
父母出鏡帶8歲外孫女住別墅,媽媽的三觀,是孫怡婚姻不幸的真相

父母出鏡帶8歲外孫女住別墅,媽媽的三觀,是孫怡婚姻不幸的真相

花心電影
2025-09-01 11:33:29
蘋果 iPhone 17 Pro 官方殼被曝背部有大面積白色

蘋果 iPhone 17 Pro 官方殼被曝背部有大面積白色

IT之家
2025-09-02 07:10:04
九三閱兵前夕,臺海上空發(fā)生激烈對峙,洪秀柱讓民進黨破大防了

九三閱兵前夕,臺海上空發(fā)生激烈對峙,洪秀柱讓民進黨破大防了

DS北風
2025-09-02 17:43:03
我的房子終于脫手了,300多萬的房子,最終賣了不到10萬塊。

我的房子終于脫手了,300多萬的房子,最終賣了不到10萬塊。

流蘇晚晴
2025-08-20 18:12:08
官宣!曼聯(lián)恥辱出局之戰(zhàn) 對手使用違規(guī)球員:5天之內可上訴

官宣!曼聯(lián)恥辱出局之戰(zhàn) 對手使用違規(guī)球員:5天之內可上訴

葉青足球世界
2025-09-02 21:27:38
青島發(fā)布重磅規(guī)劃,城市發(fā)展“一路向西”

青島發(fā)布重磅規(guī)劃,城市發(fā)展“一路向西”

小鹿姐姐情感說
2025-09-02 15:24:31
金正恩訪問越南,乘專列耗時65時40分,為什么不坐飛機?大有講究

金正恩訪問越南,乘專列耗時65時40分,為什么不坐飛機?大有講究

文史達觀
2025-07-05 06:45:03
郭臺銘一家外出!牽手嬌妻秀恩愛,老年斑明顯,大女兒打6個耳洞

郭臺銘一家外出!牽手嬌妻秀恩愛,老年斑明顯,大女兒打6個耳洞

裕豐娛間說
2025-09-02 15:27:45
張水華同事發(fā)聲透露更多細節(jié):沒想到我們醫(yī)院以這種方式上了熱搜

張水華同事發(fā)聲透露更多細節(jié):沒想到我們醫(yī)院以這種方式上了熱搜

魔都姐姐雜談
2025-09-02 19:50:22
項羽為何被評為千古無二?他創(chuàng)造了3個世界第一,至今無人能超越

項羽為何被評為千古無二?他創(chuàng)造了3個世界第一,至今無人能超越

老謝談史
2025-09-02 11:03:42
國家稅務總局青島市稅務局第二稽查局依法查處一起隱匿收入、騙取留抵退稅案件

國家稅務總局青島市稅務局第二稽查局依法查處一起隱匿收入、騙取留抵退稅案件

半島官網
2025-09-02 15:41:47
九三大閱兵將至,萬一下雨該怎么辦?沒事,咱們有“天氣外掛”

九三大閱兵將至,萬一下雨該怎么辦?沒事,咱們有“天氣外掛”

混沌錄
2025-08-31 22:54:59
iPhone17發(fā)布在即,鄭州富士康數(shù)十萬人迎生產高峰

iPhone17發(fā)布在即,鄭州富士康數(shù)十萬人迎生產高峰

觀察者網
2025-09-02 13:51:56
或有變故!臺島受邀93閱兵人士名單曝光,首位明確拒絕的人出現(xiàn)

或有變故!臺島受邀93閱兵人士名單曝光,首位明確拒絕的人出現(xiàn)

南宮一二
2025-09-02 04:52:26
你有過合租社死的經歷嗎?網友:大家心中默念,非禮勿視!

你有過合租社死的經歷嗎?網友:大家心中默念,非禮勿視!

解讀熱點事件
2025-07-16 00:15:03
滕哈格閃電下課,C羅昔日評價他的話被翻出:我對他0尊重!

滕哈格閃電下課,C羅昔日評價他的話被翻出:我對他0尊重!

星耀國際足壇
2025-09-02 10:34:39
2025-09-02 21:52:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨家合作
15591文章數(shù) 514041關注度
往期回顧 全部

科技要聞

宇樹科技稱將在四季度提交IPO申請

頭條要聞

"最快女護士"哭求調休 同事看不下去了:她休息夠多了

頭條要聞

"最快女護士"哭求調休 同事看不下去了:她休息夠多了

體育要聞

等了十年,石宇奇終于說出這句話

娛樂要聞

“廚神對決!”誰做的菜好吃?

財經要聞

假央企把真央企騙了?217億搞出大笑話

汽車要聞

12分鐘大訂破3000 "配齊"的全新嵐圖知音滿血華為

態(tài)度原創(chuàng)

藝術
健康
游戲
數(shù)碼
教育

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

內分泌科專家破解身高八大謠言

育碧好評新作PC端開啟免費試玩!此前國區(qū)價格永降

數(shù)碼要聞

威聯(lián)通新品NAS即將發(fā)布:最大8盤位 搶先支持希捷酷狼30TB硬盤

教育要聞

警惕學校教育演變?yōu)閷W科培訓

無障礙瀏覽 進入關懷版 91人妻人人澡人人爽人人精品。 | 国产精品久久久久久婷婷| 无码专区人妻少妇激情| 亚洲综合在线亚洲优优色| 乱熟女高潮一区二区三肖椒| 无码av最新高清无码专区| 成人综合区一区| 国产精品亚洲精品日韩已满| 人人妻人人上视频| 国产欧美日韩va另类在线播放| 欧洲高清无码在线| 日韩免费无码专区精品观看| 国内精品久久人妻朋友| 国产精品美女在线| 综合久久se| 日韩少妇激情一区二区| 免费人成视频在线播放| 久久久久久精品无码人妻| 国产无遮挡又黄又爽又色| 色九月亚洲综合网| 欧美无人区码卡二卡3卡2022| 欧美日本护士| 亚洲av永久无码精品三区在线| 色鬼综合久久| 最胖女人牲交视频| 视频网站无码专区遭暴露| 日本怡春院一区二区三区| 曰韩少妇内射免费播放| 亚洲午夜影院在线| 国产成人综合欧美精品久久| 国产av新搬来的白领女邻居| 色欲综合成人网站| 亚洲视频99| 国产精品久久久久久久久久小说 | 中文字幕人妻高清乱码| 亚洲AV成人片不卡无码| 肥沃小泬18p| 国产一区二区三区精品久久无码 | 国产精品一国产精品色欲| 超碰人妻小说| 双乳奶水饱满少妇视频|