夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請入駐

Learn to Reason _ The way of Baichuan-M1-ClinicReasoning

0
分享至


演講嘉賓|閻棟

編輯 | Kitty

策劃 |QCon 全球軟件開發(fā)大會(huì)

自 2024 年 9 月以來,大語言模型在推理方面的展現(xiàn)出了驚人的進(jìn)展。在代碼、數(shù)學(xué)等結(jié)果可以被高效驗(yàn)證的領(lǐng)域,大語言模型已經(jīng)走出實(shí)驗(yàn)室走向?qū)嵺`。醫(yī)療領(lǐng)域中的臨床推理,要求模型基于強(qiáng)大推理能力,將艱深的醫(yī)學(xué)知識(shí)靈活的應(yīng)用到對(duì)病人病情的分析和檢驗(yàn)檢查結(jié)果的解讀上,從而最終獲得正確的診斷。在 InfoQ 舉辦的 QCon 全球軟件開發(fā)大會(huì)(北京站)上,前百川智能研究小組負(fù)責(zé)人閻棟分享了“Learn to Reason : The way of Baichuan-M1-ClinicReasoning”,他從介紹合情推理開始,首先回顧了強(qiáng)化學(xué)習(xí)視角下的大語言模型訓(xùn)練的各類損失函數(shù),然后以 Deepseek R1 為例,梳理了大語言模型推理技術(shù)的發(fā)展,并介紹了百川智能研究小組在訓(xùn)練大語言模型進(jìn)行臨床推理方面的實(shí)踐,最后就「如何繼續(xù)提升模型能力的可能方向」以及「大語言模型與人類在智能上的差異表現(xiàn)」做了思考和展望。

將于 10 月 23 - 25 召開的 QCon 上海站設(shè)計(jì)了「AI 搜索技術(shù)的深水區(qū)」專題,聚焦于 AI 搜索的基礎(chǔ)技術(shù)、前沿探索、工業(yè)界落地等方向,為聽眾帶來一場精彩的技術(shù)分享。通過本專題,期望聽眾能夠拓寬技術(shù)視野,從實(shí)踐案例中獲得啟發(fā),并在自己的業(yè)務(wù)場景中實(shí)現(xiàn)更智能的搜索體驗(yàn)。敬請關(guān)注。

以下是演講實(shí)錄(經(jīng) InfoQ 進(jìn)行不改變原意的編輯整理)。

1 推理:真實(shí)世界中的合情推理

我曾讓 GPT-4 根據(jù)一本名為《概論沉思錄》的書的開頭內(nèi)容繪制了一幅圖。這幅圖描繪了一個(gè)場景:一位警察在半夜巡邏時(shí),看到一個(gè)人戴著頭套從珠寶店破窗而出,背上滿是珠寶。在這種情況下,警察能否僅憑此情景就判斷這個(gè)人是賊,是他偷了珠寶呢?在 99% 的情況下,這樣的推斷可能是正確的。然而,書中提出了另一種可能性:這個(gè)人或許就是珠寶店的老板,他參加了一個(gè)晚上 8 點(diǎn)的化妝舞會(huì),化妝成賊的模樣。當(dāng)他回來時(shí),發(fā)現(xiàn)窗戶被大風(fēng)吹起的石頭砸碎,于是為了保護(hù)自己的財(cái)產(chǎn),他進(jìn)去把珠寶拿走了。這種可能性雖小,但并非不存在。這說明在現(xiàn)實(shí)生活中,推理時(shí)我們往往無法像數(shù)學(xué)證明那樣,通過確鑿的演繹推理得出結(jié)論。正如麥克斯韋在 1850 年所說:“the true logic for this world is the calculus of probabilities”,即真正的推理大多是基于概率的合理推斷,而非演繹推理。

之所以重提這個(gè)概念,是因?yàn)樵谌缃竦拇竽P皖I(lǐng)域,我們所做的推理工作本質(zhì)上沒有改變。在 Transformer 架構(gòu)中,我們依然在做的是預(yù)測下一個(gè) token,從 QKV 開始,最終計(jì)算出取 vocabulary 中每一項(xiàng)的概率。從條件概率的視角來看,預(yù)訓(xùn)練改變了條件概率本身的取值,即給定條件下各個(gè)事件發(fā)生的概率。而從去年 9 月開始到現(xiàn)在,我們在推理階段所做的工作,實(shí)際上是在改變條件(即如何填充上下文),本質(zhì)上依然是基于概率的合情推理。

以我們公司的一個(gè)案例為例。今年春節(jié)前,我們的第一個(gè)版本上線后,我們與內(nèi)蒙古的一家醫(yī)院進(jìn)行了交流。他們提供了一個(gè)病例:一位 61 歲的男性退休干部,進(jìn)行了多項(xiàng)檢查,癥狀復(fù)雜。我們將這些幾百上千字的描述輸入我們的小程序,它診斷出了三種較為復(fù)雜的疾病,如韋尼克腦病、藥物副作用以及代謝性疾病。這個(gè)診斷結(jié)果甚至比當(dāng)時(shí)巴彥淖爾人民醫(yī)院主任的診斷還要準(zhǔn)確一些,因?yàn)橹魅握J(rèn)為主要診斷是腦梗,而腦梗在眾多疑難雜癥中,其概率只是整體中的一部分。最終,該患者前往協(xié)和醫(yī)院進(jìn)行了診斷。雖然協(xié)和醫(yī)院的診斷結(jié)果并非絕對(duì)標(biāo)準(zhǔn),但依過往經(jīng)驗(yàn)來看是我們能獲得的最接近真正答案的診斷。百川的 clinic reasoning 診斷出了三種可能的疾病,覆蓋了協(xié)和醫(yī)院四種可能性的 75%。這也說明了,即使有眾多證據(jù)擺在面前,在面對(duì)復(fù)雜推理的情況時(shí),我們無法確診或確定某個(gè)結(jié)論,只能做出合理的推斷。

2 序章:強(qiáng)化學(xué)習(xí)視角下的大語言模型訓(xùn)練

我是從事強(qiáng)化學(xué)習(xí)研究的。接觸大語言模型訓(xùn)練是在加入百川之后的工作內(nèi)容。因此,我想從強(qiáng)化學(xué)習(xí)的視角為大家梳理一下整個(gè) LLM 模型訓(xùn)練的過程。我們不會(huì)深入到過于瑣碎的細(xì)節(jié),而是著重從損失函數(shù)的角度,快速串聯(lián)起整個(gè)技術(shù)脈絡(luò),讓大家對(duì) LLM 模型訓(xùn)練有一個(gè)初步的認(rèn)識(shí)。

從強(qiáng)化學(xué)習(xí)的視角來看,Pre train 階段和 SFT 階段本質(zhì)上屬于模仿學(xué)習(xí)。為什么這么說呢?我們可以看一下相關(guān)的公式。LLM 模型是針對(duì)句子進(jìn)行處理的,當(dāng)有了前面的 token(s1、s2……s_n)之后,模型如何計(jì)算下一個(gè) token 的概率呢?實(shí)際上,這是一個(gè)條件概率問題。在預(yù)訓(xùn)練階段,模型通過預(yù)測下一個(gè) token,其損失函數(shù)的目標(biāo)就是盡量減小模型當(dāng)前生成的下一個(gè) token 的概率與實(shí)際訓(xùn)練語料庫中下一個(gè) token 的概率之間的差異。簡單來說,就是模型通過學(xué)習(xí)語料庫中的表達(dá)方式,像鸚鵡學(xué)舌一樣模仿其語言風(fēng)格。監(jiān)督微調(diào)階段也是如此,其損失函數(shù)與預(yù)訓(xùn)練階段完全一致,唯一的區(qū)別在于 SFT 階段會(huì)對(duì)提示(prompt)進(jìn)行掩蔽,因此在這個(gè)階段,我們將其稱為模仿學(xué)習(xí)。

接下來是 RLHF 階段,這屬于偏好學(xué)習(xí)。在目前流行的三階段訓(xùn)練流程中,RLHF 部分首先需要進(jìn)行獎(jiǎng)勵(lì)模型訓(xùn)練。獎(jiǎng)勵(lì)模型訓(xùn)練的第一步是數(shù)據(jù)標(biāo)注。具體來說,我們有輸入 x(即 prompt),以及兩種不同的響應(yīng) a1 和 a2。我們先由人類專家判斷 a1 和 a2 哪個(gè)更好,建立一個(gè)偏序關(guān)系。然后,我們從這個(gè)偏序關(guān)系出發(fā),訓(xùn)練獎(jiǎng)勵(lì)模型。具體來說,損失函數(shù)是要盡量拉大 a1 和 a2 的分差。因?yàn)槲覀冋J(rèn)為 a1 比 a2 好,所以希望獎(jiǎng)勵(lì)模型給 a1 更高的分?jǐn)?shù),給 a2 更低的分?jǐn)?shù),從而最大化兩者之間的分差。如果成功訓(xùn)練了獎(jiǎng)勵(lì)模型,那么在 PPO 階段,我們的目標(biāo)就是盡量最大化模型獲得的分?jǐn)?shù),因?yàn)榉謹(jǐn)?shù)越高,代表生成好的回答的概率越大。

實(shí)際上,RLHF 本身并不是一個(gè)貨架產(chǎn)品,它的訓(xùn)練包含大量需要調(diào)試的細(xì)節(jié)。整個(gè)社區(qū)在復(fù)現(xiàn) RLHF 從而追趕 OpenAI 的過程中遇到了諸多困難。于是,大家開始尋找更容易實(shí)現(xiàn)的方法。從我的視角來看,這些方法就是所謂的示范學(xué)習(xí)。也就是說,直接給出一個(gè)偏好示例,而不是讓模型從頭開始學(xué)習(xí)。因?yàn)槿绻苯咏o出偏好,模型很難學(xué)到如何去做。但如果給出一些示例,模型就可以模仿這些示例進(jìn)行學(xué)習(xí),而不需要逐個(gè) token 地學(xué)習(xí)。示范學(xué)習(xí)的代表就是 Direct Preference Optimization(DPO)。一開始,大家的想法很簡單,就是拒絕采樣。因?yàn)榇蠹叶贾来笳Z言模型生成的回答具有隨機(jī)性,所以我們可以每次采樣 16 個(gè)回答,挑選出其中最好的回答,直接用 SFT 的方式對(duì)模型進(jìn)行訓(xùn)練。這樣,模型的水平就會(huì)從最低值穩(wěn)定地向“16 個(gè)鐘最好的那個(gè)”靠攏。然而,這種方法也帶來了第一個(gè)問題,即只能學(xué)好,不能學(xué)壞。也就是說,你只能說這個(gè)回答很好,從而強(qiáng)化這個(gè)回答的概率,但無法直接降低差回答的概率,比如各種涉黃、涉政等不良回答。拒絕采樣無法解決這個(gè)問題,它只能提升好回答的概率,把其他概率寄希望于均攤開。DPO 解決了這個(gè)問題。DPO 的損失函數(shù)中,a+ 部分代表好的響應(yīng),a- 部分代表壞的響應(yīng),與前面的獎(jiǎng)勵(lì)模型非常相似。DPO 的核心思想是提升好的回答 a+ 的概率,同時(shí)減小壞的回答 a- 的概率。

因?yàn)?DPO 所使用示例回答與模型自己產(chǎn)生的回答天然不同,所以應(yīng)用 DPO 有一個(gè)前置條件,即在開始訓(xùn)練之前,必須先進(jìn)行一次 SFT,用其 a+ 部分先對(duì)模型進(jìn)行預(yù)熱,將模型能夠生成的響應(yīng)分布與示范響應(yīng)分布拉近。而在線 DPO(online DPO)就是不斷重復(fù)這個(gè)拉近的過程。它希望將整個(gè) DPO 過程從版本零開始,從版本零到版本一,再到版本二,隨著數(shù)據(jù)的產(chǎn)生,標(biāo)注也相應(yīng)發(fā)生變化,從而實(shí)現(xiàn)在線更新。

后來,大家發(fā)現(xiàn) DPO 中存在一些不足之處。由于 DPO 比較容易調(diào)整和改進(jìn),所以出現(xiàn)了許多變體,如 IPO、序列似然優(yōu)化等。其中最值得一提的是 Reinforced Token Optimization(RTO)。它解決了 SFT 和 RLHF 之間最后一個(gè)重大差距。我們再回顧一下這三個(gè)重大差距:第一,只能學(xué)好不能學(xué)壞,DPO 解決了這個(gè)問題;第二,online DPO 解決了響應(yīng)分布之間的差距;最后一個(gè)差距是,SFT 的損失函數(shù)是基于響應(yīng)級(jí)別的。因?yàn)樵跀?shù)據(jù)標(biāo)注時(shí),標(biāo)注人員只能告訴模型 a1 比 a2 好,但無法具體到 a1 中哪個(gè) token 好、哪個(gè) token 壞。然而,在解決復(fù)雜任務(wù)時(shí),比如一道有 15 個(gè)步驟的數(shù)學(xué)題,可能只有第二、三個(gè)步驟是錯(cuò)的,其余的都是對(duì)的。如果只是簡單地標(biāo)注一個(gè)好一個(gè)壞,訓(xùn)練效率會(huì)比較低。RTO 解決了這個(gè)問題。它非常細(xì)致,h 表示 horizon,即在整個(gè)響應(yīng)中,如果有 100 個(gè) token 組成,h 就等于 100。RTO 會(huì)對(duì)每一個(gè) token 進(jìn)行評(píng)估,判斷其好壞。

當(dāng)這三個(gè)部分都完成后,我們最終從 SFT 開始,整個(gè)技術(shù)脈絡(luò)走向了 RTO,最終走向了 PPO。從強(qiáng)化學(xué)習(xí)的視角來看,我們可以將其分為三個(gè)階段:模仿學(xué)習(xí)、示范學(xué)習(xí)和偏好學(xué)習(xí)。雖然整個(gè)技術(shù)路線的發(fā)展脈絡(luò)是這樣的,但它們出現(xiàn)的時(shí)間順序卻有所不同。首先是模仿學(xué)習(xí),然后是偏好學(xué)習(xí),因?yàn)?OpenAI 率先提出了這個(gè)范式。而示范學(xué)習(xí)則是由于社區(qū)中沒有那么多天才和計(jì)算資源,但大家仍然需要進(jìn)行調(diào)優(yōu),所以才逐漸發(fā)展起來的。

從 2022 年 11 月底到 2024 年年初,國內(nèi)的大語言模型從業(yè)者逐漸跑通了整個(gè)過程。在 2024 年年初,我們基本調(diào)通并穩(wěn)定了整個(gè)流程。在 2023 年年底,我們進(jìn)行了一系列實(shí)驗(yàn)。在這些實(shí)驗(yàn)中,每個(gè)主分支代表了獎(jiǎng)勵(lì)模型的一個(gè)版本變化,每個(gè)從分支的分叉代表了一個(gè) PPO 超參數(shù)調(diào)試的變化。我們總共進(jìn)行了大約 300 到 500 個(gè)消融研究(ablation study),以確定整個(gè)訓(xùn)練過程中的超參數(shù),如學(xué)習(xí)率、Critic 預(yù)熱、Critic 窗口等。這些實(shí)驗(yàn)總計(jì)花費(fèi)了大概兩三千萬元的等值算力,最終獲得了比較穩(wěn)定的訓(xùn)練框架。

使用大模型進(jìn)行創(chuàng)作,我印象比較深刻的一個(gè)案例是關(guān)于蔡國強(qiáng)老師的。蔡國強(qiáng)老師是我國乃至世界上最好的煙花藝術(shù)家之一。他在去年訪問了我們百川之后,我們直接用我們的百川來描述蔡國強(qiáng)老師對(duì)當(dāng)代世界藝術(shù)的貢獻(xiàn)。我們使用搜索功能獲取了蔡國強(qiáng)老師的生平信息,然后希望為他寫一首詩。這首詩的開頭四個(gè)字“火藥丹青”寫得非常好。我特意在古詩詞庫中搜索了一下,這四個(gè)字在中國文學(xué)史上從未出現(xiàn)過。這四個(gè)字完美地描述了蔡老師的事業(yè),即他用火藥進(jìn)行繪畫創(chuàng)作。通過強(qiáng)化學(xué)習(xí)對(duì)模型進(jìn)行訓(xùn)練后,模型自己的作品在宋詞的歷史上留下自己的印記。

我直接讓它參考毛主席的《賀新郎·讀史》,然后讓它寫一首宋詞。結(jié)果它寫出了“《賀新郎?上線成功》:代碼如相揖。只數(shù)行宇符流轉(zhuǎn),編程時(shí)節(jié)。虛擬空間翻波浪,為問何時(shí)突破?不過幾番晝夜。夢想難逢真實(shí)現(xiàn),闖江湖彼此爭鋒銳。拼盡了,心血淚。一系統(tǒng)成頭飛雪,但記得點(diǎn)點(diǎn)滴滴,幾多痕跡。二進(jìn)制中藏奧秘,騙了無邊目光。有多少英才俊杰?李彥宏們流芳后,更馬云奮起揮金戟。歌未盡,曙光現(xiàn)。”有趣的是,我在提示中并沒有提及任何互聯(lián)網(wǎng)或互聯(lián)網(wǎng)大佬的提示,但“上線”這兩個(gè)字只有在互聯(lián)網(wǎng)語境下才是一個(gè)高頻詞匯,所以模型自動(dòng)聯(lián)想到了這個(gè)。這是我們在訓(xùn)練過程中發(fā)現(xiàn)的一個(gè)非常有趣的現(xiàn)象,即 RLHF 過程有能力將模型在預(yù)訓(xùn)練階段已經(jīng)具備的知識(shí)激發(fā)出來,使其成為一種可使用的能力。

我們回到 DPO。在沒有 OpenAI 那樣的財(cái)力和人才的情況下,大家都非常喜歡 DPO 算法。但實(shí)際上,DPO 算法只解決了從 SFT 到強(qiáng)化的三個(gè)重要挑戰(zhàn)中的第一個(gè)。后面兩個(gè)挑戰(zhàn)它并沒有很好地解決。我們在文章中仔細(xì)分析了 DPO。雖然 DPO 確實(shí)可以將差的回答的概率壓下去,但它的問題是壓得太快了,很快就會(huì)將差的回答的概率壓成 0,然后將其均攤到其他所有的 token 中。因此,如果大家在 DPO 上進(jìn)行過實(shí)踐,會(huì)發(fā)現(xiàn) DPO 其實(shí)很不穩(wěn)定,很容易訓(xùn)練崩潰。只要稍微調(diào)整一下,它就會(huì)崩潰。

3 脈絡(luò):大語言模型的推理技術(shù)的發(fā)展,以 Deepseek R1 為例

從去年到現(xiàn)在,我們把這段時(shí)間內(nèi)發(fā)生的一系列事情稱為“DeepSeek 狂潮”。DeepSeek 給國內(nèi)包括我們在內(nèi)的“六小龍”以及巨頭都帶來了巨大的沖擊,甚至連 OpenAI 也受到了影響。在這里,我回顧了 DeepSeek 在 2024 年期間發(fā)表的大約 15 篇文章。這些文章主要涉及高效架構(gòu)、注意力優(yōu)化、強(qiáng)化學(xué)習(xí)、動(dòng)態(tài)訓(xùn)練優(yōu)化等多個(gè)方向。

2024 年 1 月 5 日,DeepSeek 發(fā)布了 DeepSeek v1。在這篇文章中,DeepSeek 明確表示他們只進(jìn)行了 SFT 和 DPO,并沒有進(jìn)行強(qiáng)化學(xué)習(xí)。當(dāng)時(shí)我們看到這篇文章后,覺得 DeepSeek 的在 RLHF 上的認(rèn)知是落后于百川的,他們似乎還沒有調(diào)通。而我們內(nèi)部的 RLHF 框架在那時(shí)已經(jīng)基本調(diào)通,一旦調(diào)通之后,PPO 幾乎在任何情況下都比 DPO 要好。因此,DeepSeek 的這篇文章并沒有引起我們的重視,我們當(dāng)時(shí)覺得他們的工作并不出色,沒有什么值得特別關(guān)注的地方。

到了 2024 年 1 月 26 日,我們?nèi)匀粵]有把 Deepseek 當(dāng)做是一個(gè)強(qiáng)勁的競爭對(duì)手。但當(dāng)我們今天回頭來看時(shí),從這篇文章開始,DeepSeek 走上了與“六小龍”以及所有大廠不同的道路,至少與國內(nèi)的大廠不同。他們敢于把預(yù)訓(xùn)練語料中源代碼的占比提高到 87%,剩下的 10% 是與代碼相關(guān)的文本,如 Stack Overflow 等,只有 3% 是正常的語料。與此同時(shí),據(jù)我所知,國內(nèi)其他“六小龍”的主體仍然是自然語料,如因特網(wǎng)上的各種網(wǎng)頁 ,以及專利、PDF 書籍等,其中代碼的占比應(yīng)該不超過 5%。我們不敢冒這樣的險(xiǎn),不敢劍走偏鋒去嘗試這樣的方法。但在 2024 年 1 月,盡管 DeepSeek 當(dāng)時(shí)做得也不怎么樣,但他們敢于走出一條少有人走的路,這是他們成功的第一步。

有了代碼模型之后,去做數(shù)學(xué)相關(guān)的事情就變得非常自然。在 2024 年 4 月 27 日的 DeepSeek Math 這篇文章中,他們首次提出了 GRPO。從強(qiáng)化學(xué)習(xí)社區(qū)的研究者角度來看,這并沒有什么了不起的,因?yàn)樗皇?PPO 的眾多變種中并不起眼的一個(gè)。原因在于 GRPO 付出了一些代價(jià),它移除了 Critic 模型。我們回顧一下剛才提到的從 SFT 到 PPO 的三個(gè)重大挑戰(zhàn)中的最后一個(gè)挑戰(zhàn),即如何將獎(jiǎng)勵(lì)從響應(yīng)級(jí)別變?yōu)?token 級(jí)別,這個(gè)功能的具體實(shí)現(xiàn)是由 PPO 中的 Critic 模型完成的。然而,GRPO 移除了這個(gè)模型之后,它每次必須 sample 多個(gè)響應(yīng)并計(jì)算他們的 advantage,然后對(duì)其進(jìn)行求和,減去均值后再除以標(biāo)準(zhǔn)差來估算每個(gè)響應(yīng)的 advantage 是多少。即使經(jīng)過這樣的估算,你得到的仍然是響應(yīng)級(jí)別的優(yōu)勢。因此,在這種情況下,移除 critic 模型導(dǎo)致了訓(xùn)練效率的下降。這是我們當(dāng)時(shí)認(rèn)為 GRPO 不過是一個(gè)蹩腳的 PPO 變種的最重要原因。

但我們沒有料到的是,也許在 DeepSeek 之外的其他公司,比如我們百川,如果使用這種方法的話,將是得不償失的,因?yàn)槲覀儧]有在推理 Infra 上進(jìn)行大量的優(yōu)化。然而,DeepSeek 內(nèi)部對(duì)推理 Infra 的優(yōu)化做得非常好,使得他們在 GRPO 的采樣過程中,推理耗時(shí)進(jìn)行了大量優(yōu)化之后,把這個(gè)成本壓了下去。壓下去之后,他們就不需要再訓(xùn)練 Critic 模型了,從而減少了訓(xùn)練 + 推理的整體時(shí)間。而這種做法的基礎(chǔ)在其他公司是不存在的。因此,今天回過頭來看,GRPO 的成功是有道理的,因?yàn)?DeepSeek 內(nèi)部很好地完成了基礎(chǔ)設(shè)施團(tuán)隊(duì)與算法團(tuán)隊(duì)的整合,所以只有他們才能拿到這個(gè)優(yōu)勢,而我們拿不到。

然后是第二個(gè)重大更新,在 DeepSeek v2 里面,今天被大家津津樂道的基本上所有 DeepSeek 在基礎(chǔ)設(shè)施上的優(yōu)化都已經(jīng)完成,比如多緩存注意力(Multi-cache Attention)等。DeepSeek 用一個(gè) 236B 的模型就達(dá)到了一個(gè)比較好的效果,這些技術(shù)基本上在 v2 時(shí)候就已經(jīng)準(zhǔn)備好了。后面只是說他們把模型大小從 236B 擴(kuò)展到 671B 之后帶來的量變引起質(zhì)變的效果。接著就是 DeepSeek Code v2,這時(shí)候我們可以看到 Code v2 里面的預(yù)訓(xùn)練語料發(fā)生了變化,源代碼部分減小到了 60%,然后加入了 10% 的數(shù)學(xué)內(nèi)容以及 30% 的自然語言語料。這代表什么呢?今天我們回過頭來看,實(shí)際上是在說 DeepSeek 對(duì)預(yù)訓(xùn)練有了自己的見解,不需要那么激進(jìn)地去把預(yù)訓(xùn)練語料的比例全放到代碼上。Code v2 不僅具備寫代碼的能力,而且具備一定的與人類交互對(duì)話的能力,這個(gè)能力使得他后面可以很好地去做這些事情。

到 2024 年 8 月 15 號(hào)時(shí)候,正好他們放出來這個(gè) DeepSeek Cover 的 1.5 的東西,然后我就仔細(xì)的看了一下這篇文章,這篇文章寫的仍然不是特別好,里面有不少 Typo。而且它的主要性能提升來自于 SFT 而非強(qiáng)化,強(qiáng)化只有 25% 的性能提升。所以從這個(gè)時(shí)間來看的話,我們?nèi)匀挥X得 DeepSeek 在這個(gè)時(shí)期,我當(dāng)時(shí)判斷是關(guān)于強(qiáng)化方面,所有 DeepSeek 知道的東西我們都知道,然后我們還知道很多他們不知道的。而且這個(gè)工作是一個(gè)回應(yīng)式的工作,因?yàn)檫@個(gè)回應(yīng)是 DeepMind 在 7 月 25 號(hào)的時(shí)候放了一個(gè)已經(jīng)達(dá)到了奧林匹克銀牌水平的工作,而 DeepSeek 這個(gè)工作大概是半個(gè)月之后的,我們可以看出來,因?yàn)榇蠹叶荚诠纠锎糁砩隙級(jí)褐?KPI,我當(dāng)時(shí)就把這理解成一個(gè) KPI 的應(yīng)激行動(dòng),因?yàn)樗麄兊男Чh(yuǎn)遠(yuǎn)落后于 DeepMind 的結(jié)果,如果他們這個(gè)時(shí)候再不放一個(gè)這樣的文章出來的話,他們后面等于這小組這些工作,整個(gè)半年多一年的工作就白干了,所以他們就很急匆匆地把這個(gè)東西放出來。

V3 出來后的事情大家就基本上都知道了,到這個(gè) r1 出來,整個(gè)性能曲線拉起來,就毋庸多言了。然后那從這個(gè)時(shí)候開始我們就在復(fù)盤,為什么我們在這個(gè)歷史上沒有做好這件事情?其實(shí)我們在 2024 年 1 月份的時(shí)候,當(dāng)時(shí) DeepSeek 那邊跑 SFT 跟跑 DPO 跑得比較猛的時(shí)候,我們其實(shí)強(qiáng)化已經(jīng)基本上跑通了,而且我們在詩詞這件事情上面,其實(shí)在這個(gè)時(shí)候我們已經(jīng)見到了一次性能上的質(zhì)的飛躍,而且我們內(nèi)部對(duì)這個(gè)飛躍也非常重視,因?yàn)槲覀儼涯P蛯懰卧~的可用性從 3% 拉到了 80%。我們覺得這件事非常有意思,然后我們就在內(nèi)部提了一個(gè)口號(hào),說我們要把強(qiáng)化學(xué)習(xí)的步數(shù)拉到 10 萬去,因?yàn)楫?dāng)時(shí)宋詞這個(gè)部分拉了總共三個(gè)版本,每個(gè)版本 800 個(gè) step,大概在 2400 個(gè)左右可用性基本已經(jīng)到頭了。所以我們說那是不是以后在另外的一些更困難的領(lǐng)域,如果我們能夠把它拉到一萬步,是不是會(huì)有一些更有意思的結(jié)果出現(xiàn)?我們在內(nèi)部這個(gè)指標(biāo)已經(jīng)提出來了,但是這個(gè)出于公司競爭方面的考慮,很快我們就去打榜了,跟其他的“六小龍”的這些小公司各種榜上面比拼,去搞那些今天看起來可能不是那么本質(zhì)的東西,當(dāng)時(shí)來說還是覺得打榜更重要,就把把強(qiáng)化學(xué)習(xí)拉到一萬步這件事放下去了。

為什么我們沒有做到這件事呢?有好幾個(gè)關(guān)鍵的因素。一個(gè)是我們當(dāng)時(shí)的模型已經(jīng)非常強(qiáng)了,我們這個(gè)模型當(dāng)時(shí)已經(jīng)接近 200B 了,在 Benchmark 效果非常好,所以小模型增長的很多 trick 被我們忽略掉了。但從另外一個(gè)方面去講的話,我們的模型不夠強(qiáng),為了打榜導(dǎo)致它的可塑性很差。今天已經(jīng)有很多實(shí)驗(yàn)在說了 MoE 的整套 DeepSeek 這些在 V3 上面做的這些效果,DeepSeek 的基座模型擁有如此之強(qiáng)的泛化性是有決定性意義的。

2024 年 1 月份我們試圖把 RLHF 的訓(xùn)練步數(shù)拉到一萬的時(shí)候,起點(diǎn)不是 Pre-Train model,而是 SFT model,因?yàn)槲覀兪菫榱诉_(dá)到百川內(nèi)部的上線標(biāo)準(zhǔn),一上線之后就要給終端的用戶去用,所以我們沒有去做 DeepSeek v1 Zero 這樣的工作,因?yàn)槟銦o法忍受它的中間的過程是不可讀、不可理解的,這個(gè)你不能給用戶去用的,所以我們雖然想過從 Pre Train 開始也做了一些實(shí)驗(yàn),但是發(fā)現(xiàn)其實(shí)效果差不多,沒有拉那么大的資源上去,沒有敢拉 8000 個(gè) step。再就是因?yàn)楫?dāng)時(shí)是為了上線,始終沒有敢把獎(jiǎng)勵(lì)模型拋掉,只有在詩詞訓(xùn)練中敢把獎(jiǎng)勵(lì)模型拋掉,去做基于規(guī)則的方法。但是一旦回到文本創(chuàng)作,信息處理這些沒有辦法寫一個(gè)規(guī)則系統(tǒng)的去打分的領(lǐng)域,就不能拋掉獎(jiǎng)勵(lì)模型,那么始終需要面臨獎(jiǎng)勵(lì)模型 Hacking 的問題。

當(dāng)時(shí)的實(shí)驗(yàn)也沒有把數(shù)學(xué)單獨(dú)拎出來,而是跟通用混在一起。還有一點(diǎn)是數(shù)學(xué)性能拉起來時(shí)候其實(shí)重復(fù)了很多遍,比如說 11 個(gè) epoch 過 15 遍。這就就相當(dāng)于同一道題,學(xué) 15 遍。但是當(dāng)時(shí)我們?yōu)榱松暇€其實(shí)選了非常多的中小學(xué)的題庫,因?yàn)橛写罅康拇竽P偷挠脩?,就是中小學(xué)的學(xué)生他來做題,你這個(gè)時(shí)候甚至你不用去拉出來什么很好的能力,只要能把這個(gè)題幫他做對(duì)的,就他就覺得很好,他就過來用你的模型。

4 臨床:醫(yī)療的內(nèi)生復(fù)雜性,推理能力 + 領(lǐng)域知識(shí)的臨床推理范式

在百川涉及醫(yī)療領(lǐng)域的工作中,我們有了一些初步的思考。我們認(rèn)識(shí)到,數(shù)學(xué)推理、通用推理與醫(yī)學(xué)推理在本質(zhì)上存在顯著差異。這種差異主要體現(xiàn)在推理范式上。我們認(rèn)為,推理能力需要結(jié)合領(lǐng)域知識(shí),但推理范式并非僅僅是兩者的簡單結(jié)合。在現(xiàn)有的技術(shù)條件下,推理范式難以在不同領(lǐng)域之間實(shí)現(xiàn)低成本的遷移。這一結(jié)論是在 2024 年九、十月份得出的。當(dāng)時(shí),我們對(duì)內(nèi)部各種規(guī)模的模型進(jìn)行了全面測試,并且也研究了外部開源的模型。由于當(dāng)時(shí)市場上缺乏出色的 MoE 模型,我們才得出了這樣的判斷。隨著 DeepSeek 的出現(xiàn),這一結(jié)論實(shí)際上已經(jīng)被推翻了。當(dāng) MoE 模型做得足夠好,且規(guī)模達(dá)到 600B 以上時(shí),模型確實(shí)能夠?qū)崿F(xiàn)泛化。當(dāng)然,大家可能還記得,2024 年 11 月時(shí),許多友商推出了他們的模型,但我們在內(nèi)部評(píng)估中發(fā)現(xiàn),這些模型的泛化性并不理想。

當(dāng)患者就醫(yī)時(shí),從醫(yī)生的角度來看,他們會(huì)將患者的信息分為幾個(gè)部分。首先是患者的主訴,即患者感到最痛苦、最不舒服的地方,這是患者就醫(yī)的主要原因。醫(yī)生還會(huì)考慮患者的既往病史、家族史、個(gè)人史、婚育史等?;卺t(yī)生的思維方式,我們對(duì)患者的信息進(jìn)行了聚類和因果分析,然而實(shí)際效果并不理想。因此,我們回過頭來研究具體的病例。舉個(gè)例子,張某的主訴是關(guān)節(jié)痛,經(jīng)過一系列檢查后,發(fā)現(xiàn)這是一個(gè)疑難雜癥?;颊咭呀?jīng)為此困擾了兩年,多次就醫(yī)卻未能確診。在這個(gè)過程中,醫(yī)生對(duì)整個(gè)診斷過程進(jìn)行了三階段提煉。最初,醫(yī)生分析病例時(shí)認(rèn)為患者最有可能患的是系統(tǒng)性紅斑狼瘡。但一項(xiàng)名為抗 u1RP 的輔助檢查呈陽性,這一結(jié)果直接排除了系統(tǒng)性紅斑狼瘡的可能性,而混合性結(jié)締組織病這種較為罕見的疾病的發(fā)病概率立刻上升到第一位。隨后,醫(yī)生又進(jìn)行了一系列檢查。整個(gè)診斷過程非常像偵探破案,醫(yī)生需要關(guān)注那些最關(guān)鍵的線索,并將這些線索串聯(lián)起來,最終確定患者的疾病。

從醫(yī)生的角度來看,大模型在進(jìn)行臨床推理時(shí)究竟在做什么呢?我們觀察到,在醫(yī)療推理中,某些行動(dòng)會(huì)導(dǎo)致概率急劇上升。例如,提問“世界上第二高峰是誰”時(shí),正確答案是喬戈里峰,而不是珠穆朗瑪峰。然而,一旦說出“珠穆朗瑪”的“珠”字,接下來“穆朗瑪峰”這幾個(gè)字的概率幾乎達(dá)到 100%,模型很難反思糾正自己。我們將這種熵急劇下降 token 的前一個(gè) token 定義為 Vital Point(穆之前的珠字),并對(duì)其進(jìn)行了可視化。但這種定義僅限于 token 級(jí)別。后來,我們發(fā)現(xiàn)有其他學(xué)者發(fā)表了很好的文章,將 token 級(jí)別擴(kuò)展到語義級(jí)別,并進(jìn)行了進(jìn)一步的聚類。因此,在整個(gè)診斷過程中,我們使用 Vital Point 來定義 COT 的結(jié)構(gòu)。如果大家看過 r1 的論文,會(huì)發(fā)現(xiàn) r1 論文提出類似了一個(gè)概念,即 Reasoning Pattern(推理模式)。

有了 Vital Point 和模型生成的初始響應(yīng)之后,該如何生成數(shù)據(jù)呢?我們定義了一個(gè)三階干預(yù)策略,包括重采樣、引導(dǎo)注意力和直接具體化。首先是重采樣,因?yàn)榇竽P捅旧砭哂幸欢ǖ碾S機(jī)性,例如,每次模型出現(xiàn)錯(cuò)誤時(shí),我們給予它三次機(jī)會(huì)重新生成。如果它能夠自己生成正確的答案,我們就不會(huì)對(duì)其進(jìn)行干預(yù)。其次是引導(dǎo)注意力,我們會(huì)給它一些提示。例如,在一個(gè)病例中,患者提到腰部及腹部疼痛,左大腿、右大腿和軀干疼痛。在這種情況下,膀胱破裂的可能性更大,我們就會(huì)在上下文中插入“請注意這些癥狀”。這就是我們的二階干預(yù),即提醒模型注意偵探破案中最重要的線索是什么,希望它自己能夠得出結(jié)論。這一干預(yù)措施的效果比前面的重采樣要好得多,大約有 30% 到 40% 的概率能夠糾正模型的錯(cuò)誤。但仍然有一些部分無法糾正。在這種情況下,我們只能直接干預(yù)。盡管我們給模型提示,但它仍然傾向于診斷為尿道斷裂。這時(shí),我們直接告訴它,不是尿道斷裂,而是膀胱破裂。這里有一個(gè)有趣的觀察:一旦模型說出了“尿道斷裂”這四個(gè)字,它以后就很難再糾正過來。現(xiàn)在有很多人說 Reflection(反思)是有效的,但實(shí)際上大家可以自己體驗(yàn)一下,無論你們使用 o3 還是 r1,模型基本沒有反思。因?yàn)榉此夹Ч⒉幻黠@,真正有效的是 Planning(規(guī)劃)。

最終,我們的模型大概達(dá)到了三甲醫(yī)院主治醫(yī)生的水平,但與協(xié)和等頂尖醫(yī)院相比,仍存在較大差距。我們的兒科醫(yī)生模型也做得不錯(cuò)。有興趣的朋友可以搜索小程序《百方醫(yī)生》,其中的專家模式是由我們團(tuán)隊(duì)開發(fā)的臨床推理模型。

5 展望

大語言模型不是一個(gè)典型的互聯(lián)網(wǎng)產(chǎn)品,它的訓(xùn)練需要強(qiáng)大的資金支持。你需要一個(gè) GPU 集群來完成這些復(fù)雜的計(jì)算任務(wù)。要么像阿里巴巴本身就為這類項(xiàng)目提供了大量的資金支持;要么像梁文峰那樣,擁有幻方量化這樣的資金后盾,能夠持續(xù)不斷地提供資金。對(duì)于我們這樣的小公司來說,就不得不面對(duì)外部的競爭壓力,無法進(jìn)行長期的探索。因?yàn)槟繕?biāo)對(duì)象也發(fā)生了巨大的變化。

過去,軟件公司的主要產(chǎn)出是代碼,工程師討論的焦點(diǎn)是如何編寫代碼、如何寫出高質(zhì)量的代碼以及如何避免代碼中的錯(cuò)誤。然而,如今在大模型調(diào)優(yōu)的過程中,工作對(duì)象根本不是代碼,你編寫的代碼量很少。你的調(diào)整對(duì)象是權(quán)重(weights),而權(quán)重本身的訓(xùn)練與編寫代碼不同。我以前在大學(xué)時(shí)參加 ACM 競賽,我們甚至不用計(jì)算機(jī),直接在紙上編寫代碼,然后拿著紙上的代碼去提交。因?yàn)槲曳浅G宄刂?,我編寫的代碼運(yùn)行后的結(jié)果是什么。然而,今天誰敢說自己訓(xùn)練一個(gè)模型,無論是大模型還是小模型,訓(xùn)練完成后它會(huì)是什么結(jié)果?你根本無法預(yù)測。大模型訓(xùn)練就像煉鋼一樣,在出爐之前,你根本不知道這爐鋼是否會(huì)成功,只能依賴一些經(jīng)驗(yàn)公式。

在大模型時(shí)代,如果你的計(jì)算資源不足,你很難觸及真正的問題。這里舉個(gè)例子,Google 的兩位創(chuàng)始人 Larry 和 Sergey 在車庫中寫下 Google 第一行代碼。車庫中寫的代碼與 Google 總部中寫的代碼,兩者的運(yùn)行結(jié)果不會(huì)有絲毫差異。再一個(gè)例子,如果你想制造一架能以 5 馬赫速度飛行的飛機(jī),你必須建造 5 馬赫的風(fēng)洞,否則你根本無法了解實(shí)際情況。只進(jìn)行過 1 馬赫的風(fēng)洞試驗(yàn),你根本無法制造出高速飛機(jī)。這就是說,雖然代碼是相同的,但如果你沒有在如此大規(guī)模的集群、運(yùn)行大的模型,你的代碼表現(xiàn)的效果是完全不同的。因此,在許多情況下,小模型根本無法觸及真正的問題。

2023 年,極客公園采訪楊植麟時(shí),他說 AGI 時(shí)代最重要的是場景的摩爾定律。然而,到了 2025 年 1 月 17 日,閆俊杰的在采訪中的一個(gè)說法是:更好的模型會(huì)帶來更多的用戶,但更多的用戶并不一定會(huì)帶來更好的模型。這似乎暗示了一點(diǎn),即更多的用戶似乎意味著你的場景更多了,模型的水平會(huì)提高嗎?并不會(huì)。如今,ChatGPT 的日活躍用戶是 Claude 的 50 到 100 倍,但他們的模型水平卻差不多。這與互聯(lián)網(wǎng)時(shí)代的情況不同。如果你是抖音,擁有 10 億用戶,與一個(gè)只有 1000 萬用戶的小平臺(tái)相比,你能想象兩者是一致的嗎?不可能的,推薦系統(tǒng)一定會(huì)存在很大差距。然而,今天我們看到 Claude 3.7,甚至比 OpenAI 最好的模型還要厲害。

我們回顧一下柏拉圖著名的“洞穴隱喻”。柏拉圖認(rèn)為,作為人類,我們并沒有真正觀察到世界的本源。外面世界的本源陽光太過刺眼,我們沒有能力去觀察到世界的本源。我們對(duì)世界的觀察僅限于一面墻背后的流動(dòng)的木馬投影在世界上的這些影子。柏拉圖非常天才地在 2000 多年前就提出了這個(gè)觀點(diǎn),它背后其實(shí)有非常深厚的生物學(xué)證據(jù)。這里列出了一種生物——皮皮蝦。皮皮蝦的眼睛里有 20 多個(gè)光錐,而我們?nèi)祟愔挥腥齻€(gè)光錐。皮皮蝦能看到 20 多種原色。也就是說,即使我們最強(qiáng)的感官——眼睛,與其他生物相比也有很大的差距。就好比我們看到的只不過是黑白影像,而皮皮蝦看到的才是外面真實(shí)的世界,因?yàn)槲覀儧]有長著它們那樣的眼睛。

為什么要提到這個(gè)呢?是因?yàn)槿ツ晡易钕矚g的一篇文章,名為 The Platonic Representation Hypothesis。這篇文章認(rèn)為大模型就像皮皮蝦,我們?nèi)祟惪吹降臇|西比它少。這篇文章指出,大模型可以同意圖像和文本這兩個(gè)模態(tài)。文章中還有許多非常有趣的實(shí)驗(yàn),最終得出的結(jié)論是:大模型比人類更接近柏拉圖所描述的那個(gè)彼岸世界。這個(gè)結(jié)論其實(shí)非常驚人,因?yàn)檫@意味著大模型可能比你更聰明。那么,當(dāng)一個(gè)比你更聰明的智能體告訴你如何解決當(dāng)今人類面臨的重大問題時(shí),你敢不敢相信它呢?

我們再舉一個(gè)例子。洪武八年,剛剛經(jīng)歷了元末的戰(zhàn)亂,朱元璋想進(jìn)行很多基礎(chǔ)設(shè)施建設(shè),但他面臨一個(gè)兩難的境地:如果他去收稅,下面的人會(huì)受不了;如果不收稅,他就無法完成這些基礎(chǔ)設(shè)施建設(shè)。于是,有人告訴他可以發(fā)行大明通行寶鈔,這樣既不用收稅,又有錢可以做這些事情。當(dāng)時(shí)是洪武八年,200 多年后《國富論》才發(fā)表。在明初,整個(gè)精英集團(tuán),人類最頂級(jí)的水平,沒有人知道任何現(xiàn)代經(jīng)濟(jì)學(xué)的原理。他們認(rèn)為發(fā)行寶鈔這件事沒有任何問題,憑空變出了錢。然而,這實(shí)際上引起了巨大的通貨膨脹,明朝財(cái)政在初期就差點(diǎn)崩潰。但幸運(yùn)的是,西班牙人發(fā)現(xiàn)了白銀,然后白銀大量流入中國,重塑了國家的運(yùn)行機(jī)制,挽救了大明。這是一個(gè)非常有趣的歷史事件。但今天,我們回顧一下,如果今天我們面臨貿(mào)易戰(zhàn),然后我們訓(xùn)練出了一個(gè)聰明的大模型,它告訴我們有一個(gè)辦法可以解決這些問題,你敢不敢用?因?yàn)榻忉屵@些操作底層機(jī)理的理論可能 200 年后才會(huì)出現(xiàn)。所以這是一個(gè)非常現(xiàn)實(shí)的威脅。

嘉賓介紹

閻棟,前百川智能研究小組負(fù)責(zé)人。博士畢業(yè)于清華大學(xué)計(jì)算機(jī)系。主要從事決策算法 / 系統(tǒng)和大語言模型對(duì)齊 / 推理方面的研究。在 ICLR、ICML、IJCAI、AAAI、JMLR、Pattern Recognition 等會(huì)議 / 期刊發(fā)表論文數(shù)十篇。帶領(lǐng)團(tuán)隊(duì)基于 RLHF 增強(qiáng)的大語言模型 Baichuan3,在 2024 年 4 月份的 Superclue 評(píng)測中榮獲國內(nèi)第一。開發(fā)的深度診斷模型 Baichuan-M1-ClinicReasoning,已上線百小應(yīng) APP 和百方醫(yī)生小程序。以小于 Deepseek R1 一個(gè)數(shù)量級(jí)的模型大小,在臨床推理場景下達(dá)到與 R1 相當(dāng)?shù)男阅堋?/p>

會(huì)議推薦

QCon 上海站(10.23-25)干貨拉滿:Agentic AI、具身智能等前沿方向,疊加可觀測、AI 中間件等經(jīng)典領(lǐng)域,熱點(diǎn)技術(shù) + 落地難點(diǎn)一次性搞定!9 折優(yōu)惠倒計(jì)時(shí),單張立省 680 元,掃碼還可以免費(fèi)領(lǐng)資料包,咨詢票務(wù)經(jīng)理 18514549229 了解更多。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
鬧劇結(jié)束!庫明加2年4850萬美元續(xù)約勇士 第二年合同為球隊(duì)選項(xiàng)

鬧劇結(jié)束!庫明加2年4850萬美元續(xù)約勇士 第二年合同為球隊(duì)選項(xiàng)

羅說NBA
2025-10-01 07:42:50
聽完美戰(zhàn)爭部長赫格塞思對(duì)800將領(lǐng)的講話,感覺中國網(wǎng)民小瞧了他

聽完美戰(zhàn)爭部長赫格塞思對(duì)800將領(lǐng)的講話,感覺中國網(wǎng)民小瞧了他

標(biāo)體
2025-10-01 00:33:09
WTO的規(guī)矩是怎么沒了的?有網(wǎng)友講了這樣兩個(gè)故事

WTO的規(guī)矩是怎么沒了的?有網(wǎng)友講了這樣兩個(gè)故事

清暉有墨
2025-09-30 13:53:30
極度罕見!一例“鉆石血”被發(fā)現(xiàn)

極度罕見!一例“鉆石血”被發(fā)現(xiàn)

魯中晨報(bào)
2025-10-01 07:43:03
體檢報(bào)告上的10大“紙老虎”:看著嚇人,其實(shí)不用治!一文教你一眼看穿

體檢報(bào)告上的10大“紙老虎”:看著嚇人,其實(shí)不用治!一文教你一眼看穿

鶴立煙雨
2025-09-30 17:46:23
賈躍亭展示的FF91起火爆炸 法拉第未來總部被燒

賈躍亭展示的FF91起火爆炸 法拉第未來總部被燒

3DM游戲
2025-09-30 12:11:06
網(wǎng)友稱因跛腳在入職當(dāng)天被得力集團(tuán)辭退,得力CEO留言致歉,公司回應(yīng)

網(wǎng)友稱因跛腳在入職當(dāng)天被得力集團(tuán)辭退,得力CEO留言致歉,公司回應(yīng)

極目新聞
2025-09-30 11:07:02
菲律賓發(fā)生6.9級(jí)地震,第二大城市震感強(qiáng)烈,中國游客:雷暴雨特別大,目前還在停電

菲律賓發(fā)生6.9級(jí)地震,第二大城市震感強(qiáng)烈,中國游客:雷暴雨特別大,目前還在停電

紅星新聞
2025-10-01 00:21:33
0-1!穆帥重返切爾西夢斷藍(lán)橋 鐵腰爆射送烏龍 本菲卡歐冠2連敗

0-1!穆帥重返切爾西夢斷藍(lán)橋 鐵腰爆射送烏龍 本菲卡歐冠2連敗

狍子歪解體壇
2025-10-01 04:56:15
曝方媛早產(chǎn)誕下兒子,體重6.5斤!郭富城如愿以償打破天王魔咒!

曝方媛早產(chǎn)誕下兒子,體重6.5斤!郭富城如愿以償打破天王魔咒!

娛樂團(tuán)長
2025-09-30 23:42:32
擠破頭出道!星二代搞“世襲”,比資本家丑孩子還可怕,個(gè)個(gè)離譜

擠破頭出道!星二代搞“世襲”,比資本家丑孩子還可怕,個(gè)個(gè)離譜

尋墨閣
2025-09-30 11:52:21
男子被索要2000萬停車費(fèi)!僅停車不到5小時(shí),當(dāng)?shù)鼐皡^(qū)稱沒法干預(yù)

男子被索要2000萬停車費(fèi)!僅停車不到5小時(shí),當(dāng)?shù)鼐皡^(qū)稱沒法干預(yù)

奇思妙想草葉君
2025-09-30 21:07:47
得力員工辭退跛腳員工,HR倒霉了,HR也很無辜

得力員工辭退跛腳員工,HR倒霉了,HR也很無辜

林中木白
2025-09-30 14:22:41
淚目!穆帥回切爾西獲全場起立鼓掌致敬 霸氣阻止客隊(duì)球迷噓恩佐

淚目!穆帥回切爾西獲全場起立鼓掌致敬 霸氣阻止客隊(duì)球迷噓恩佐

我愛英超
2025-10-01 06:17:34
遼寧省召開全省領(lǐng)導(dǎo)干部會(huì)議,郝鵬、許昆林、王新偉講話

遼寧省召開全省領(lǐng)導(dǎo)干部會(huì)議,郝鵬、許昆林、王新偉講話

政知新媒體
2025-09-30 23:49:00
差12倍,小米對(duì)標(biāo)不了蘋果特斯拉,吐槽雷軍是因?yàn)楸划?dāng)成理工傻子

差12倍,小米對(duì)標(biāo)不了蘋果特斯拉,吐槽雷軍是因?yàn)楸划?dāng)成理工傻子

小小河
2025-10-01 00:24:19
突發(fā)!朝鮮半島凌晨交火,五角大樓高層緊急集合,韓國動(dòng)真格了?

突發(fā)!朝鮮半島凌晨交火,五角大樓高層緊急集合,韓國動(dòng)真格了?

阿芒娛樂說
2025-10-01 02:08:46
全部死刑!明家集團(tuán)11人赴死,中國首次境外斬魔,震撼世界!

全部死刑!明家集團(tuán)11人赴死,中國首次境外斬魔,震撼世界!

思如哲思
2025-09-30 06:32:28
新能源汽車購置稅優(yōu)惠延續(xù)至2027年

新能源汽車購置稅優(yōu)惠延續(xù)至2027年

大象新聞
2025-09-30 16:31:06
美國政府又有新“點(diǎn)子”,臺(tái)灣輿論炸鍋:怎么不去搶!

美國政府又有新“點(diǎn)子”,臺(tái)灣輿論炸鍋:怎么不去搶!

每日經(jīng)濟(jì)新聞
2025-09-30 19:58:04
2025-10-01 08:19:00
InfoQ incentive-icons
InfoQ
有內(nèi)容的技術(shù)社區(qū)媒體
11551文章數(shù) 51493關(guān)注度
往期回顧 全部

科技要聞

宇樹回應(yīng)機(jī)器人安全漏洞:已完成大部分修復(fù)

頭條要聞

美軍將領(lǐng)大會(huì)召開 美防長提出10項(xiàng)新指令

頭條要聞

美軍將領(lǐng)大會(huì)召開 美防長提出10項(xiàng)新指令

體育要聞

詹姆斯:愿為東契奇調(diào)整打法 失去熱愛時(shí)就會(huì)退役

娛樂要聞

和張藝謀離婚后,前妻肖華現(xiàn)狀

財(cái)經(jīng)要聞

洽洽凈利暴跌73% 經(jīng)銷商遭壓貨被迫清盤

汽車要聞

升級(jí)端到端高快NOA 上汽大眾Pro家族2026款上市

態(tài)度原創(chuàng)

藝術(shù)
家居
手機(jī)
本地
健康

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

家居要聞

市區(qū)綠洲 鏈接社區(qū)商業(yè)

手機(jī)要聞

消息稱榮耀正測試1.5K 165Hz超高刷直屏新機(jī),還有超大電池

本地新聞

讀港校想省錢,社恐輸在起跑線

內(nèi)分泌科專家破解身高八大謠言

無障礙瀏覽 進(jìn)入關(guān)懷版 Av片激情综合网| 精品无码68区| 国产亚洲精品久久久久久彩霞| 亚洲AV九九九精品| 极品婬荡少妇XXXXX78| 老子影院午夜精品无码| 久久精品青草社区| 国产一精品一av一免费爽爽| 操日本人妻超爽| 色av综合六月婷婷综合六月 | 精品无码av不卡一区二区三区 | 无码日韩精品一区二区人妻| 撕开奶罩揉吮奶头高潮av| 少妇疯狂高潮| 亚韩精品中文字幕无码视频| 好大好硬好深好爽想要av| 密桃传煤天美免费在线| 狠狠色丁香婷婷综合潮喷| 乱人伦人妻中文字幕不卡| 一区二区三区四区电影| 你懂的亚洲一区二区三区| 久久久这里只有精品9| 韩日视频一区| 男女啪啪抽搐呻吟高潮动态图| 欧美激情DVD| 富婆三级理论电影| 日韩AV资源| 久久久国产精品VA麻豆| 国乒女团1比3日本获亚军| 德国性猛交XXX富婆| 久久精品国产88精品久久| av熟女乱伦一区| 欧美free性一区二区三区| av天堂东京热无码专区| 女人与牲口性恔配视频免费 | 中文字幕国产精品自拍| 国产美女精品久久蜜柚| 奶头好大揉着好爽视频午夜院| 久久天天躁夜夜躁狠狠综合 | 无码国产成人午夜电影在线观看| 都市激情校园春色亚洲天堂|