近日,浙江大學碩士生張盛佳和所在團隊發(fā)現(xiàn):深度推理模型的部分推理過程是不必要的。一方面,目前的深度推理模型在面對一些例如“1+1=?”的簡單問題時,也需要大費周章地進行深度思考。而人類在面對諸如此類的簡單問題時,往往能夠憑直覺給出答案;另一方面,在一些簡單任務上(例如,常識問答和小學生數(shù)學題),即使不具有深度推理能力的大模型也能取得較好的效果。本次研究基于所觀察到的現(xiàn)象提出了一種解決方案,使得深度推理大模型在解決問題時,能夠自行決定是否進行深度思考,有利于計算資源更加合理的分配,提升大模型的推理效率。
圖 | 張盛佳(來源:張盛佳)
據(jù)介紹,受限于數(shù)據(jù)與算力的規(guī)模,預訓練以 Transformer 為基礎架構的大模型所帶來的收益正在不斷式微。那么,該如何進一步提升大模型的能力?近來,以 DeepSeek-R1、OpenAI o1 為代表的深度推理大模型突破了預訓練 Scaling Law 的限制,通過增加測試時計算資源的投入,在多種復雜任務上取得了優(yōu)異的效果。與非深度推理大模型相比,深度推理大模型通過模仿人類進行深度思考,能夠更加準確地理解用戶的需求,更加深入地分析用戶提出的問題。
然而,目前的深度推理大模型面臨嚴重的冗余思考問題:即使面對例如“1+1=?”這樣的簡單問題,深度推理大模型也需要進行長時間的思考,造成了計算資源的浪費。
實際上,人類的思考模式可以分為“根據(jù)直覺得出答案”的快思考和“進行深入分析得出答案”的慢思考。在面臨一些簡單的問題時,人類往往能夠通過直覺直接給出答案。
圖 | OThink-R1 主體框架(來源:張盛佳)
受到人類思考模式的啟發(fā),該團隊提出了這樣一個問題:如何賦予深度推理大模型自動切換快慢思考的能力,自行決定是否需要進行深度思考,從而更加合理地利用計算資源?
針對該問題,他們提出了一種創(chuàng)新性解決方案。具體來說,本研究首先對非推理模型(模仿人類快思考,直接給出答案)和深度推理模型在簡單任務(例如,常識問答和小學生數(shù)學題)上均成功解決的問題進行統(tǒng)計,收集這類問題上深度推理模型的推理思維鏈。通過大量比較推理思維鏈的異同,本研究總結出“必要推理”和“冗余推理”的多條特征,并根據(jù)此將深度推理思維鏈分類為必要推理和冗余推理,將冗余推理中的深度推理部分刪除,構成一批混合推理思維鏈數(shù)據(jù)集。最后,基于該數(shù)據(jù)集對深度推理模型進行監(jiān)督微調,賦予深度推理模型自動切換快慢思考的能力。
因此,本研究對實現(xiàn)“Test-time Scaling Law”具有十分重要的意義,其賦予了深度推理大模型自動切換快慢思考的能力,使得模型能夠更加合理的分配計算資源。因此,模型能夠通過內部知識直接給出一些簡單問題的答案,也能夠開啟深度思考,細致地分析一些困難的問題。
據(jù)介紹,本次研究項目是 OPPO 與浙江大學聯(lián)合攻關課題之一。受年初 DeepSeek-R1 一系列研究的啟發(fā),該團隊嘗試著來探索 DeepSeek-R1 模型的相關性質。如前所述,他們發(fā)現(xiàn)在使用 DeepSeek-R1 模型時,即使問很簡單的問題,例如“1+1=?”或者“請幫我修改我的作業(yè)”之類的問題,也會生成特別長的思維鏈。這實際上是不必要的,不僅增長用戶等待時間,還會浪費計算資源。
在研究初期,最困擾該團隊的是如何設計穩(wěn)定的模型輸出結果驗證器。一方面,他們發(fā)現(xiàn) DeepSeek-R1 這類模型,遵循指令的能力不夠優(yōu)秀。這就導致模型推理的結果不具有特定的格式,加大了提取模型結果的難度。
另一方面,該團隊自己構建了許多模型的輸出結果驗證器,但是這些結果驗證器沒有很好地考慮各種輸出結果的風格,十分不穩(wěn)定。有時會出現(xiàn)模型回答是正確的,但是并未正確地提取模型的答案?;蛘咛崛〉藉e誤的模型答案導致無法正確地評估各個模型的效果,以及無法正確地評估該團隊所提出方法的效果。
在這個問題解決之后,該團隊最初始的方案是想基于 GRPO 算法,利用強化學習的方式去激發(fā)出模型快慢思考的能力。然而,DeepSeek-R1 這一類模型指令遵循能力差,該團隊設計了許多 prompt,都無法在訓練的初期讓模型輸出跳過深度思考過程的回答。于是該團隊轉向設計獎勵函數(shù),期望能夠通過設計一類特殊的獎勵函數(shù),讓模型的思考過程長度首先降為 0,然后慢慢增長。經過該團隊多次嘗試,該團隊設計了一類在理論上能夠達到該效果的獎勵函數(shù),但是經過多次嘗試,該獎勵函數(shù)在實際中并未達到該團隊的目標效果。
這個時候該團隊嘗試著使用 DPO 算法,將快思考的回答作為正樣本,慢思考的回答作為負樣本,進行模型訓練。該團隊進行了許多實驗,DPO 效果極其不穩(wěn)定,訓練出的模型均表現(xiàn)出效果大幅下降。在閱讀相關文獻后,該團隊發(fā)現(xiàn),DPO 這類算法不適合分布劇烈變化的情況。于是最后該團隊嘗試使用監(jiān)督微調的方式,進行模型的訓練。具體做法是,收集訓練集上推理模型的正確回答,刪除這其中非推理模型也能解決的問題上推理模型的深度思考過程,使用監(jiān)督微調進行訓練。這個方案在初期取得了相比于之前兩個方案更優(yōu)的效果:模型性能不會大幅下降,同時模型能夠開始自行決定是否思考。
然而,該團隊發(fā)現(xiàn),這個方案仍然無法很好地遷移到其他場景下,仍然會造成模型性能的大幅降低。于是該團隊開始考慮,是否在非推理模型能夠解決的問題上,模型的一部分深度思考過程也是必要的。從這個想法出發(fā),該團隊開始利用大模型對深度思考過程進行分類,將其分類為有效思考和冗余思考,重新構造數(shù)據(jù)集進行監(jiān)督微調。最終,在這個方案下,該團隊做出了比較好的效果。盡管該團隊的研究已經賦予了推理大語言模型自動切換快慢思考的能力,但目前 OThink-R1 還依賴大模型 LLM-Judge 來判斷推理冗余。未來該團隊期望繼續(xù)深入研究,以端到端的方式來賦予模型自動切換快慢思考的能力。
參考資料:
標題:OThink-R1: Intrinsic Fast/Slow Thinking Mode Switching for Over-Reasoning Mitigation
作者:Shengjia Zhang (Zhejiang University), Junjie Wu (OPPO Research Institute), Jiawei Chen (Zhejiang University), Changwang Zhang (OPPO Research Institute), Xingyu Lou (OPPO Research Institute), Wangchunshu Zhou (OPPO Research Institute), Sheng Zhou (Zhejiang University), Can Wang (Zhejiang University), Jun Wang (OPPO Research Institute)
鏈接: https://arxiv.org/abs/2506.02397
運營/排版:何晨龍
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.