夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

DeepSeek R1詳解詞條+DeepSeek真人解讀!

0
分享至


導(dǎo)語(yǔ)

DeepSeek-R1 是 DeepSeek 團(tuán)隊(duì)推出的第一代推理模型,通過強(qiáng)化學(xué)習(xí)(RL)和蒸餾技術(shù)顯著提升了語(yǔ)言模型的推理能力。DeepSeek-R1-Zero模型在沒有監(jiān)督微調(diào)(SFT)的情況下,通過大規(guī)模強(qiáng)化學(xué)習(xí)訓(xùn)練展現(xiàn)出強(qiáng)大的推理能力,但存在可讀性和語(yǔ)言混合問題。為了解決這些問題,DeepSeek-R1引入了冷啟動(dòng)數(shù)據(jù)和多階段訓(xùn)練,推理性能與OpenAI的GPT o1-1217相當(dāng)。此外,團(tuán)隊(duì)還開源了六個(gè)基于Qwen和Llama的蒸餾模型,幫助小型模型提升推理能力。


集智百科團(tuán)隊(duì)在2024年底發(fā)布了關(guān)于DeepSeek-R1的百科詞條,梳理了DeepSeek的發(fā)展歷史與技術(shù)路線。集智俱樂部「大模型2.0: 融合學(xué)習(xí)與推理的大模型新范式」讀書會(huì)也邀請(qǐng)了當(dāng)時(shí)正在 DeepSeek 團(tuán)隊(duì)做 Student Researcher 的劉博進(jìn)行了一次以“揭秘AGI新突破!深度解讀DeepSeek-R1”為主題的分享。現(xiàn)將 DeepSeek-R1 的百科詞條發(fā)布,并免費(fèi)開放相關(guān)視頻與圖文學(xué)習(xí)資料(見文末)。在集智斑圖的學(xué)習(xí)平臺(tái)接入了 DeepSeek ,你也可以在學(xué)習(xí)過程中與其進(jìn)行對(duì)話交流。

關(guān)鍵詞:大模型語(yǔ)言,強(qiáng)化學(xué)習(xí),蒸餾模型,組相對(duì)策略優(yōu)化,規(guī)則化獎(jiǎng)勵(lì)

冉天樞、范卓?jī)x、寧定揚(yáng)、王志鵬、Ricky、潘琳莉、袁冰、張江 | 作者

視頻解讀

圖文稿

百科詞條

目錄

1. 背景

1.1 DeepSeek系列模型

2. 技術(shù)特點(diǎn)

2.1 DeepSeek-R1-Zero與強(qiáng)化學(xué)習(xí)

2.2 DeepSeek-R1-Zero 的頓悟時(shí)刻

2.3 冷啟動(dòng)數(shù)據(jù)與多階段訓(xùn)練

2.3.1 冷啟動(dòng)數(shù)據(jù)

2.3.2 多階段訓(xùn)練

2.4 蒸餾技術(shù)

2.5 性能表現(xiàn)

2.5.1 教育領(lǐng)域任務(wù)

2.5.2 長(zhǎng)上下文任務(wù)

2.5.3 事實(shí)性問答

2.5.4 指令執(zhí)行與規(guī)范化輸出

2.5.5 寫作和開放問答任務(wù)

2.5.6 數(shù)學(xué)和編程任務(wù)

2.5.7 蒸餾模型的性能評(píng)價(jià)

2.6 開源貢獻(xiàn)

2.7 應(yīng)用場(chǎng)景

2.8 未來展望

3. DeepSeek-R1發(fā)布帶來的社會(huì)影響

3.1 社會(huì)影響

3.2 相關(guān)事件

1. 背景

該模型的開發(fā)背景源于傳統(tǒng)語(yǔ)言模型在復(fù)雜推理任務(wù)中的局限性,尤其是在需要多步邏輯推理的場(chǎng)景中。盡管現(xiàn)有的語(yǔ)言模型在生成文本和理解語(yǔ)言方面表現(xiàn)出色,但在數(shù)學(xué)推理、代碼生成等需要精確邏輯推理的任務(wù)中,表現(xiàn)仍然有限。

為了解決這一問題,DeepSeek團(tuán)隊(duì)提出了基于強(qiáng)化學(xué)習(xí)的訓(xùn)練方法,開發(fā)了DeepSeek-R1系列模型。該模型的核心目標(biāo)是通過強(qiáng)化學(xué)習(xí)和大規(guī)模訓(xùn)練,提升模型在復(fù)雜推理任務(wù)中的表現(xiàn)。DeepSeek-R1-Zero是這一系列中的第一個(gè)模型,它通過純強(qiáng)化學(xué)習(xí)訓(xùn)練,無需監(jiān)督微調(diào) (SFT) ,展現(xiàn)出強(qiáng)大的推理能力。然而,DeepSeek-R1-Zero 在訓(xùn)練過程中也暴露出一些問題,如可讀性差、語(yǔ)言混合等。

為了進(jìn)一步優(yōu)化模型,DeepSeek團(tuán)隊(duì)引入了冷啟動(dòng)數(shù)據(jù)和多階段訓(xùn)練方法,開發(fā)了DeepSeek-R1。冷啟動(dòng)數(shù)據(jù)的使用使得模型在訓(xùn)練初期能夠更快地收斂,并且通過多階段訓(xùn)練,模型的推理能力和可讀性得到了顯著提升。此外,團(tuán)隊(duì)還探索了蒸餾技術(shù),將大型模型的推理能力傳遞到小型模型,使得小型模型在推理任務(wù)中也能表現(xiàn)出色。

總的來說,DeepSeek-R1 的開發(fā)背景是為了解決傳統(tǒng)語(yǔ)言模型在復(fù)雜推理任務(wù)中的不足,通過強(qiáng)化學(xué)習(xí)和蒸餾技術(shù),提升模型在數(shù)學(xué)推理、代碼生成等任務(wù)中的表現(xiàn),并為研究社區(qū)提供開源的推理模型資源。

1.1 DeepSeek系列模型

2023年7月,國(guó)內(nèi)大型私募基金幻方量化成立了子公司深度求索,他們儲(chǔ)備了過萬張A100和H800計(jì)算顯卡,開啟了半年迭代一版大模型的探索歷程:

  • 2024年1月,深度求索發(fā)布了第一代模型,DeepSeekMoE系列,最大的版本有67B參數(shù),確立了混合專家模型 (MoE) 架構(gòu)路線,能大幅減少訓(xùn)練和生成期間的成本。另外,DeepSeekMoE發(fā)現(xiàn)了細(xì)粒度多數(shù)量Expert模塊以及設(shè)立獨(dú)立的共享Expert模塊能獲得更加穩(wěn)定且更好的效果。

  • 2024年5月,深度求索發(fā)布了第二代模型,DeepSeek-v2,最大的版本有273B參數(shù)。其中最重要的創(chuàng)新是多頭潛在注意力機(jī)制 (Multi-head Latent Attention,MLA)。MLA能大幅降低模型在生成(推理)階段的顯卡緩存占用,據(jù)報(bào)告可降到原先的5%-13%,因而可以大大提高其在生成階段的效率。這一創(chuàng)新,配合其他創(chuàng)新使得DeepSeek-v2的生成文字的成本降到只有每百萬token一塊錢。

  • 2024年12月,深度求索發(fā)布了第三代模型,DeepSeek-v3,最大的版本有671B參數(shù)。v3采用了多token預(yù)測(cè)訓(xùn)練 (Multi-Token Prediction, MTP) 技術(shù)以及無損負(fù)載均衡技術(shù),在訓(xùn)練過程大幅提高模型能力,最終使得其模型能力比肩GPT-4o的最新版本。此外,DeepSeek-v3還第一次證明了大規(guī)模fp8混合精度訓(xùn)練的可行性,提出了DualPipe算法來重疊集群間計(jì)算和通信的開銷,以及針對(duì)MoE架構(gòu)的PD分離策略等各種技術(shù)。


2. 技術(shù)特點(diǎn)

2.1 DeepSeek-R1-Zero與強(qiáng)化學(xué)習(xí)

DeepSeek-R1-Zero模型通過純強(qiáng)化學(xué)習(xí)訓(xùn)練,無需監(jiān)督微調(diào) (SFT) ,展現(xiàn)出強(qiáng)大的推理能力。且模型在訓(xùn)練過程中表現(xiàn)出“頓悟時(shí)刻”,即自發(fā)地重新評(píng)估和優(yōu)化推理步驟。

在以往的研究中,模型的性能提升主要依賴于大量的監(jiān)督數(shù)據(jù),或者在預(yù)訓(xùn)練模型的基礎(chǔ)上通過監(jiān)督微調(diào) (SFT) 來實(shí)現(xiàn)。監(jiān)督微調(diào)是指在預(yù)訓(xùn)練模型的基礎(chǔ)上,使用帶有標(biāo)注的數(shù)據(jù)進(jìn)行進(jìn)一步訓(xùn)練,使模型更好地適應(yīng)特定任務(wù) (如文本分類、圖像識(shí)別等) ,從而提升其在該任務(wù)上的性能。然而,DeepSeek-R1-Zero模型的出現(xiàn)打破了這一傳統(tǒng)模式,證明了即使不使用監(jiān)督微調(diào)作為冷啟動(dòng),也能通過大規(guī)模強(qiáng)化學(xué)習(xí) (RL) 顯著提高推理能力。這一方法可以類比DeepMind的Alpha-Zero,后者通過自我對(duì)弈生成數(shù)據(jù),在圍棋對(duì)弈中實(shí)現(xiàn)了無需人類先驗(yàn)知識(shí)的強(qiáng)大決策能力。

DeepSeek-R1-Zero模型的創(chuàng)新主要體現(xiàn)在兩個(gè)方面:組相對(duì)策略優(yōu)化 (GRPO) 和規(guī)則化獎(jiǎng)勵(lì) (Rule-based reward) 。

- 組相對(duì)策略優(yōu)化(GRPO):GRPO方法放棄了通常與策略模型大小相同的批評(píng)者模型,而是通過組得分來估計(jì)基線。這種方法類似于多個(gè)科研小組共同攻關(guān)同一個(gè)課題,當(dāng)某個(gè)小組取得領(lǐng)先時(shí),其他小組會(huì)復(fù)制其方法,從而節(jié)省強(qiáng)化學(xué)習(xí)的訓(xùn)練成本。

- 基于規(guī)則的獎(jiǎng)勵(lì)(Rule-based reward):即訓(xùn)練過程中的獎(jiǎng)勵(lì)由一個(gè)規(guī)則系統(tǒng)給出 (而非神經(jīng)網(wǎng)絡(luò)) 。例如,確定性的數(shù)學(xué)題答案可以和事先給定的標(biāo)準(zhǔn)答案對(duì)比,確定獎(jiǎng)懲信號(hào),而代碼題的答案還可以直接丟進(jìn)編譯器,由編譯器給出通過與否的獎(jiǎng)懲信號(hào)。除了此答案正確與否的獎(jiǎng)懲信號(hào),獎(jiǎng)勵(lì)系統(tǒng)中還引入了格式的獎(jiǎng)懲信號(hào),即希望模型輸出遵守給定的格式,即整個(gè)思考過程并放在“ ... ”里,而最終答案放在“ ... ”?;谝?guī)則的獎(jiǎng)勵(lì)實(shí)現(xiàn)起來簡(jiǎn)單高效,也避免了基于神經(jīng)網(wǎng)絡(luò)的獎(jiǎng)勵(lì)系統(tǒng)在大規(guī)模強(qiáng)化學(xué)習(xí)過程中可能出現(xiàn)的“獎(jiǎng)勵(lì)操縱” (reward hacking) 。

基于上述策略,DeepSeek-R1-Zero的訓(xùn)練展示了兩個(gè)顯著效果。首先,模型自然而然地學(xué)會(huì)了用更多的思考時(shí)間來解決推理任務(wù)。這一變化并非通過外部壓力實(shí)現(xiàn),而是模型內(nèi)在發(fā)展的結(jié)果。其次,模型進(jìn)化出了復(fù)雜性,并產(chǎn)生了引人注目的“頓悟時(shí)刻”。這些結(jié)果表明,DeepSeek-R1-Zero在推理能力上取得了重要突破。


推理過程中DeepSeek-R1-Zero在訓(xùn)練集上的平均響應(yīng)時(shí)間。DeepSeek-R1-Zero?然?然地學(xué)會(huì)了?更多的思考時(shí)間來解決推理任務(wù)

然而,DeepSeek-R1-Zero也面臨一些挑戰(zhàn)。由于在預(yù)訓(xùn)練階段完全放棄了對(duì)計(jì)算資源消耗巨大的監(jiān)督學(xué)習(xí),模型具有明顯的成本優(yōu)勢(shì)。但與此同時(shí),完全放棄監(jiān)督學(xué)習(xí)也導(dǎo)致輸出結(jié)果不穩(wěn)定,且可讀性較差。這一問題的存在引發(fā)了DeepSeek團(tuán)隊(duì)對(duì)模型優(yōu)化的進(jìn)一步思考。

受到DeepSeek-R1-Zero成果的啟發(fā),研究人員提出了兩個(gè)未來研究方向。首先,作為冷啟動(dòng),納入少量高質(zhì)量數(shù)據(jù)能否進(jìn)一步提高推理性能或加速收斂?其次,如何才能訓(xùn)練出一個(gè)用戶友好型模型,不僅能生成清晰連貫的思維鏈 (CoT) ,還能展示強(qiáng)大的通用能力?這些問題的探索將為模型的發(fā)展提供新的思路和可能性。


2.2 DeepSeek-R1-Zero 的頓悟時(shí)刻

頓悟時(shí)刻 (Aha Moment) 體現(xiàn)了模型能自發(fā)地重新評(píng)估和優(yōu)化推理步驟的能力。如下圖所示。模型重新評(píng)估了其初始解題方法,并學(xué)會(huì)了為解題分配更多的思考時(shí)間。使用強(qiáng)化學(xué)習(xí)方法,人們不需要明確教導(dǎo)模型解決問題方法,只需要提供適當(dāng)?shù)募?lì),即可讓模型自主發(fā)展出問題解決策略。這種自主性不僅展示了模型推理能力的提升,還顯示了強(qiáng)化學(xué)習(xí)在解鎖AI智能水平方面的潛力。


2.3 冷啟動(dòng)數(shù)據(jù)與多階段訓(xùn)練

為了解決可讀性和語(yǔ)言混合問題,DeepSeek-R1引入了冷啟動(dòng)數(shù)據(jù)和多階段訓(xùn)練方法。這些改進(jìn)使得模型在推理任務(wù)中的表現(xiàn)與OpenAI的o1-1217模型相當(dāng)。

盡管DeepSeek-R1-Zero顯示出了強(qiáng)大的推理能力,但其輸出不符合人類的閱讀習(xí)慣,且會(huì)混雜中英文甚至代碼和數(shù)學(xué)符號(hào),所以人類的閱讀體驗(yàn)并不好。而要使模型的輸出符合人類習(xí)慣,人們使用微調(diào)技術(shù)就會(huì)比較適合。于是DeepSeek團(tuán)隊(duì)在一定程度上又把監(jiān)督微調(diào) (SFT) 技術(shù)請(qǐng)了回來,在最初使用少量標(biāo)注數(shù)據(jù)對(duì)基模進(jìn)行監(jiān)督微調(diào),作為模型的冷啟動(dòng),然后再進(jìn)行DeepSeek-R1-Zero所經(jīng)歷的大規(guī)模強(qiáng)化學(xué)習(xí)。

2.3.1 冷啟動(dòng)數(shù)據(jù)

“冷啟動(dòng)”是人工智能領(lǐng)域的一個(gè)術(shù)語(yǔ),用于描述人工智能模型在沒有任何先前訓(xùn)練數(shù)據(jù)的情況下從頭開始學(xué)習(xí)的情況。與DeepSeek-R1-Zero不同,為了避免從基礎(chǔ)模型開始的強(qiáng)化學(xué)習(xí)訓(xùn)練早期不穩(wěn)定的冷啟動(dòng)階段,DeepSeek-R1構(gòu)建和收集了少量長(zhǎng)思維鏈數(shù)據(jù),收集的過程主要注重過濾掉不易讀的結(jié)果。

這次冷啟動(dòng)階段的監(jiān)督微調(diào)和以往的“先監(jiān)督微調(diào)后強(qiáng)化學(xué)習(xí)”訓(xùn)練過程有顯著區(qū)別,最大的區(qū)別在于二者的數(shù)量上。比如DeepseekMath在RL前的監(jiān)督微調(diào)階段使用了77.6萬個(gè)樣本,而這次的冷啟動(dòng)階段只使用了幾千個(gè)。也正因?yàn)槔鋯?dòng)階段用于微調(diào)的樣本量相對(duì)較少,所以工程人員可以精心挑選這些樣本,因此它們的質(zhì)量也比以往監(jiān)督微調(diào)階段用到的數(shù)據(jù)要高得多。事先使用高質(zhì)量數(shù)據(jù)微調(diào)后,模型在開始就會(huì)使用人類偏好的語(yǔ)言和思維風(fēng)格進(jìn)行思考,并輸出對(duì)人類閱讀體驗(yàn)友好的結(jié)果。且由于這些微調(diào)數(shù)據(jù)一般都有高質(zhì)量的思維鏈 (Chain of Thoughts) ,在后續(xù)的強(qiáng)化學(xué)習(xí)之始可以跳過不斷隨機(jī)摸索的階段,快速發(fā)展出使用思維鏈進(jìn)行復(fù)雜推理的能力。因此,少批量高質(zhì)量數(shù)據(jù)的冷啟動(dòng)不僅能使模型輸出符合人類的閱讀偏好,還能使模型更快收斂,獲得更強(qiáng)的推理能力。不過即便經(jīng)過了冷啟動(dòng),大模型在第二階段的在大規(guī)模強(qiáng)化學(xué)習(xí)過程中還是顯示出了語(yǔ)言混雜的現(xiàn)象。為了解決這一問題,Deepseek團(tuán)隊(duì)還在訓(xùn)練過程中加入了“語(yǔ)言一致性獎(jiǎng)勵(lì)”,即獎(jiǎng)勵(lì)模型盡可能使用一致的語(yǔ)言來思考和回答。


2.3.2 多階段訓(xùn)練

經(jīng)過第一階段的冷啟動(dòng)和第二階段的大規(guī)模強(qiáng)化學(xué)習(xí)后,第三和第四階段的訓(xùn)練分別是提高模型各方面能力的大規(guī)模微調(diào)和增強(qiáng)模型有用性及無害性的進(jìn)一步的強(qiáng)化學(xué)習(xí)。

第三階段和第一階段雖然都是微調(diào),但在目的和規(guī)模上都不一樣。第一階段的冷啟動(dòng)微調(diào)是為了使模型的輸出更具可讀性和激發(fā)其后續(xù)的思維推理潛力,而第三階段的微調(diào)是為了提升模型的其他的通用能力,比如寫作,問答、翻譯、角色扮演、自我反思等。為此,相比于冷啟動(dòng)所需的幾千個(gè)數(shù)據(jù)樣本,第三階段的微調(diào)使用了80多萬個(gè)樣本數(shù)據(jù)。這里面包括各種來源的數(shù)據(jù),比如說訓(xùn)練Deepseek-v3時(shí)用到的監(jiān)督微調(diào)數(shù)據(jù)集。

有趣的是,這80多萬個(gè)樣本中,有60多萬個(gè)是從之前R1的訓(xùn)練過程中所得的checkpoints中得來。團(tuán)隊(duì)人員使用prompt去讓checkpoint模型做出回答,然后使用一個(gè)訓(xùn)練好的獎(jiǎng)勵(lì)模型來判斷哪些回答質(zhì)量高可以保留,哪些質(zhì)量差要被拒絕、丟棄掉,如此獲得一個(gè)由這些checkpoint生成的,但質(zhì)量又高于這些checkpoint平均水平的數(shù)據(jù)集,從而繼續(xù)訓(xùn)練。這個(gè)過程也被稱為拒絕采樣 (Rejection Sampling) 。

使用這80多萬個(gè)數(shù)據(jù)樣本對(duì)模型進(jìn)一步微調(diào)后,模型不僅有了強(qiáng)大的思維推理能力,還具備了其它各方面的能力?,F(xiàn)在最后一步就是要進(jìn)一步提高模型的推理能力以及有用性,并使其輸出無害。這也是第四階段的進(jìn)一步強(qiáng)化學(xué)習(xí)要做的事情。對(duì)用于提升其推理能力的數(shù)據(jù),可以遵循DeepSeek-R1-Zero的方法獲得,而用于提升有用性和無害性的數(shù)據(jù),就需要收集模型對(duì)于prompt的回答并人工分析,標(biāo)注出有害部分的數(shù)據(jù),使用這些標(biāo)注好的數(shù)據(jù)去做強(qiáng)化學(xué)習(xí)。這也被稱作從人類反饋中的強(qiáng)化學(xué)習(xí) (Reinforcement Learning from Human Feedback) 。

總的來說,Deepseek-R1的訓(xùn)練分為四階段,兩個(gè)監(jiān)督式微調(diào)階段,兩個(gè)RL階段:

  • 第一階段:冷啟動(dòng)監(jiān)督微調(diào),培養(yǎng)正確(符合人類偏好)的語(yǔ)言習(xí)慣、激發(fā)模型的推理潛能。

  • 第二階段:大規(guī)模強(qiáng)化學(xué)習(xí),本階段專注于提升模型的推理密集任務(wù)的能力,并訓(xùn)練模型在回答問題時(shí)應(yīng)保持語(yǔ)言一致。

  • 第三階段:大規(guī)模監(jiān)督微調(diào),結(jié)合更廣闊領(lǐng)域的數(shù)據(jù),提高模型其他方面的通用能力。本階段還對(duì)推理任務(wù)和非推理任務(wù)進(jìn)行分開訓(xùn)練。

  • 第四階段:進(jìn)一步強(qiáng)化學(xué)習(xí),從而進(jìn)一步提高推理能力和響應(yīng)的有效性,并減少其輸出的有害內(nèi)容。

可見模型的主要推理能力涌現(xiàn)自第一和第二階段,第三第四階段更像都是后訓(xùn)練 (post-training) 。理論上還可以有第五階段監(jiān)督微調(diào)、第六階段強(qiáng)化學(xué)習(xí),第七階段監(jiān)督微調(diào)、第八階段強(qiáng)化學(xué)習(xí)……,從而不斷迭代提高模型的能力。


2.4 蒸餾技術(shù)

DeepSeek團(tuán)隊(duì)開源了六個(gè)基于Qwen和Llama的蒸餾模型,幫助小型模型提升推理能力。蒸餾技術(shù)將大型模型的推理能力傳遞到小型模型,使得小型模型在推理任務(wù)中表現(xiàn)優(yōu)異。

2015年,Geoffrey Hinton、Oriol Vinyals 和Jeff Dean等學(xué)者[1]提出了在AI領(lǐng)域的知識(shí)蒸餾技術(shù),即將大型、復(fù)雜模型 (教師模型) 的知識(shí)轉(zhuǎn)移到小型、簡(jiǎn)單模型 (學(xué)生模型) 上去的技術(shù)。DeepSeek團(tuán)隊(duì)發(fā)現(xiàn),不僅僅是知識(shí),推理能力也可以從大模型蒸餾傳遞到小模型。

DeepSeek團(tuán)隊(duì)用DeepSeek-R1第三階段整理得到的80萬個(gè)樣本對(duì)一些開源模型如Qwen2.5和Llama3.3的小模型版本進(jìn)行了直接微調(diào)。它們發(fā)現(xiàn),僅僅是如此簡(jiǎn)單的微調(diào)就能大大提升小模型的推理能力,而且這種提升的幅度是僅憑大規(guī)模強(qiáng)化學(xué)習(xí)所不能得到的。為此,它們使用Qwen-32B-Base做了一個(gè)實(shí)驗(yàn),對(duì)其分別做了與Deepseek-R1-Zero相同大規(guī)模的強(qiáng)化學(xué)習(xí)[2],以及從Deepseek-R1做蒸餾。實(shí)驗(yàn)結(jié)果是,大規(guī)模強(qiáng)化學(xué)習(xí)后得到的版本,DeepSeek-R1-Zero-Qwen-32B,與目前32B最強(qiáng)的推理模型QwQ-32B-Preview能力相似,然而從Deepseek-R1蒸餾得到的DeepSeek-R1-Distill-Qwen-32B表現(xiàn)卻遠(yuǎn)超前兩者。

至此我們也能暫且得出結(jié)論:模型蒸餾技術(shù)非常有用,相比之下,小模型做大規(guī)模強(qiáng)化學(xué)習(xí)不僅消耗大量算力,而且結(jié)果還不如從大模型蒸餾所得。然而,這一切的前提是有這么一個(gè)有強(qiáng)能力的大模型。因此,要獲得更強(qiáng)的推理能力,還是需要更強(qiáng)的大模型和更大規(guī)模的強(qiáng)化學(xué)習(xí)。

2.5 性能表現(xiàn)

下圖顯示了 DeepSeek 進(jìn)行的測(cè)試結(jié)果,該測(cè)試針對(duì) OpenAI 的 o1 模型在數(shù)學(xué)、編碼和推理任務(wù)上測(cè)試了其大型語(yǔ)言模型的三個(gè)版本。DeepSeek-R1 在數(shù)學(xué)和編碼基準(zhǔn)測(cè)試中擊敗或與o1相媲美。[3]


2.5.1 教育領(lǐng)域任務(wù)

在MMLU、MMLU-Pro和GPQA Diamond等知識(shí)基準(zhǔn)測(cè)試表明,DeepSeek-R1 在STEM(科學(xué)、技術(shù)、工程和數(shù)學(xué))相關(guān)問題上相比 DeepSeek-V3 具有顯著的改進(jìn)。研究者將其歸因于大規(guī)模強(qiáng)化學(xué)習(xí)(reinforcement learning, RL)的使用。

  • MMLU (Massive Multitask Language Understanding) 是一項(xiàng)涵蓋多學(xué)科、多領(lǐng)域的大規(guī)模基準(zhǔn)測(cè)試,旨在評(píng)估語(yǔ)言模型在不同任務(wù)和學(xué)科中的表現(xiàn)。這些任務(wù)包括人文、科學(xué)、社會(huì)科學(xué)和數(shù)學(xué)等多個(gè)領(lǐng)域的高中至專業(yè)水平的問題。DeepSeek-R1在MMLU基準(zhǔn)測(cè)試中取得了 90.8% 的Pass@1準(zhǔn)確率,顯著優(yōu)于 DeepSeek-V3,展示了其強(qiáng)大的知識(shí)處理和推理能力。

  • MMLU-Pro是一個(gè)更加復(fù)雜和魯棒的多任務(wù)語(yǔ)言理解基準(zhǔn),設(shè)計(jì)用于挑戰(zhàn)模型在更高難度任務(wù)中的表現(xiàn)。與MMLU相比,MMLU-Pro更強(qiáng)調(diào)推理能力和跨領(lǐng)域的綜合性。DeepSeek-R1 在這一基準(zhǔn)中取得了 84.0% 的準(zhǔn)確率,超越了 DeepSeek-V3,并在挑戰(zhàn)性更高的任務(wù)中展現(xiàn)了卓越的推理能力。

  • GPQA Diamond (Graduate-Level Google-Proof Q&A Benchmark) 是一個(gè)針對(duì)研究級(jí)問答任務(wù)設(shè)計(jì)的基準(zhǔn),問題往往需要復(fù)雜的推理和深度分析才能回答。DeepSeek-R1 在這一基準(zhǔn)中的表現(xiàn)達(dá)到 71.5% 的 Pass@1 準(zhǔn)確率,顯著高于 DeepSeek-V3,進(jìn)一步證明了其在處理復(fù)雜問題上的潛力。


2.5.2 長(zhǎng)上下文任務(wù)

DeepSeek-R1 在FRAMES(依賴長(zhǎng)上下文的問答任務(wù))基準(zhǔn)測(cè)試中展現(xiàn)了強(qiáng)大的文檔分析能力。

  • FRAMES 是一項(xiàng)評(píng)估模型在長(zhǎng)上下文環(huán)境中問答能力的基準(zhǔn)測(cè)試,旨在檢測(cè)其文檔分析和信息提取能力。DeepSeek-R1 在該測(cè)試中取得了 82.5% 的準(zhǔn)確率,遠(yuǎn)超 DeepSeek-V3,展現(xiàn)了其在復(fù)雜文檔分析任務(wù)中的顯著優(yōu)勢(shì)。


2.5.3 事實(shí)性問答

在SimpleQA基準(zhǔn)測(cè)試中,DeepSeek-R1 超越了 DeepSeek-V3,證明了其處理基于事實(shí)查詢的能力。但是在中文 SimpleQA 基準(zhǔn)上,DeepSeek-R1 的表現(xiàn)不如 DeepSeek-V3,主要由于安全強(qiáng)化學(xué)習(xí) (safety RL) 導(dǎo)致模型拒絕回答某些問題。


2.5.4 指令執(zhí)行與規(guī)范化輸出

DeepSeek-R1 在IF-Eval基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異。這個(gè)測(cè)試專注于評(píng)估模型遵循格式指令(format instructions)的能力。這些改進(jìn)主要?dú)w因于監(jiān)督微調(diào)(supervised fine-tuning, SFT)和強(qiáng)化學(xué)習(xí)(RL)后期階段中指令遵循數(shù)據(jù)的引入:

  • IF-Eval (Instruction Following Evaluation) 旨在評(píng)估模型遵循格式化指令的能力,是衡量其在嚴(yán)格指令執(zhí)行中的表現(xiàn)的重要基準(zhǔn)。DeepSeek-R1 在 IF-Eval 中表現(xiàn)卓越,得益于訓(xùn)練過程中加入了指令遵循數(shù)據(jù)。這種改進(jìn)顯示出 DeepSeek-R1 在格式化和結(jié)構(gòu)化任務(wù)中的顯著優(yōu)勢(shì)。


2.5.5 寫作和開放問答任務(wù)

在AlpacaEval2.0和ArenaHard基準(zhǔn)測(cè)試中,DeepSeek-R1 表現(xiàn)出色,進(jìn)一步表明其在寫作任務(wù)和開放問答(open-domain question answering)中的優(yōu)勢(shì),強(qiáng)調(diào)了大規(guī)模強(qiáng)化學(xué)習(xí)的泛化優(yōu)勢(shì),不僅增強(qiáng)了推理能力,還提升了跨領(lǐng)域的表現(xiàn)能力。此外,DeepSeek-R1 生成的摘要長(zhǎng)度簡(jiǎn)潔,表明 DeepSeek-R1 在基于 GPT 的評(píng)估中避免了引入長(zhǎng)度偏差(length bias),進(jìn)一步鞏固了其在多任務(wù)中的穩(wěn)健性。

  • AlpacaEval 2.0 是一個(gè)評(píng)估模型在開放式問答任務(wù)中能力的基準(zhǔn),測(cè)試模型在非考試導(dǎo)向任務(wù)(如寫作和回答復(fù)雜問題)中的表現(xiàn)。DeepSeek-R1 在這一基準(zhǔn)中實(shí)現(xiàn)了 87.6% 的勝率(win-rate),顯著優(yōu)于 DeepSeek-V3,證明了其強(qiáng)大的寫作能力和開放域問答能力。

  • ArenaHard 是一個(gè)以對(duì)話評(píng)估為主的高難度基準(zhǔn)測(cè)試,使用 GPT-4 作為裁判來比較模型在復(fù)雜對(duì)話中的表現(xiàn)。DeepSeek-R1 在該基準(zhǔn)中實(shí)現(xiàn)了 92.3% 的勝率,展現(xiàn)了其在復(fù)雜對(duì)話任務(wù)中的優(yōu)越性能,同時(shí)避免了由于輸出長(zhǎng)度導(dǎo)致的偏差。


2.5.6 數(shù)學(xué)和編程任務(wù)

在數(shù)學(xué)(如AIME 2024 和MATH-500)和編程任務(wù)(如LiveCodeBench和Codeforces)中,DeepSeek-R1 的表現(xiàn)顯著優(yōu)于其他模型,并與OpenAI-o1-1217 相當(dāng)。

  • AIME,全稱 American Invitational Mathematics Examination,是一項(xiàng)面向中學(xué)生的高水平數(shù)學(xué)競(jìng)賽,其難度介于 AMC(美國(guó)數(shù)學(xué)競(jìng)賽)和 IMO(國(guó)際數(shù)學(xué)奧林匹克競(jìng)賽)之間,享有極高的聲譽(yù)與含金量。與 AMC 相比,AIME 的試題更具挑戰(zhàn)性,需要參賽者具備更強(qiáng)的數(shù)學(xué)推理能力和問題解決技巧。同時(shí),AIME 也是選拔美國(guó)數(shù)學(xué)奧林匹克競(jìng)賽(USAMO)和國(guó)際數(shù)學(xué)奧林匹克競(jìng)賽(IMO)國(guó)家隊(duì)的重要環(huán)節(jié)之一。在這一測(cè)試中,DeepSeek-R1 達(dá)到了 79.8% 的 Pass@1 準(zhǔn)確率,略高于 OpenAI o1-1217 模型的 79.2%。這一結(jié)果表明,DeepSeek-R1 具備以較高準(zhǔn)確率解決高中生水平復(fù)雜數(shù)學(xué)問題的能力。

  • MATH-500 數(shù)據(jù)集收錄了 500 道難度極高的數(shù)學(xué)競(jìng)賽題,涵蓋代數(shù)、幾何、數(shù)論、組合數(shù)學(xué)等多個(gè)領(lǐng)域。這些題目要求深厚的數(shù)學(xué)知識(shí)儲(chǔ)備以及復(fù)雜的推理步驟才能解答。在這一測(cè)試中,DeepSeek-R1 以 97.3% 的驚人成績(jī)表現(xiàn)出色,與 OpenAI 的 o1-1217 模型持平,并顯著超越了其他對(duì)比模型。這一表現(xiàn)表明,DeepSeek-R1 已經(jīng)能夠勝任大學(xué)水平的數(shù)學(xué)競(jìng)賽題解答,展現(xiàn)了其卓越的數(shù)學(xué)推理能力。

  • Codeforces 是全球知名的編程競(jìng)賽平臺(tái),以高難度和強(qiáng)競(jìng)爭(zhēng)性聞名,吸引了來自世界各地的頂尖程序員參賽。其競(jìng)賽題目通常需要選手具備扎實(shí)的算法和數(shù)據(jù)結(jié)構(gòu)知識(shí),以及優(yōu)秀的編程能力。在 Codeforces 平臺(tái)上,DeepSeek-R1 獲得了 2029 的 Elo 評(píng)分,超過了 96.3% 的人類程序員。這一結(jié)果表明,DeepSeek-R1 的編程能力已經(jīng)超越了絕大多數(shù)人類程序員,成為算法和編程領(lǐng)域的強(qiáng)大競(jìng)爭(zhēng)者。


2.5.7 蒸餾模型的性能評(píng)價(jià)

蒸餾 DeepSeek-R1 的輸出使小型模型 (如 DeepSeek-R1-Distill-Qwen-7B 和 DeepSeek-R1-Distill-Qwen-32B) 在多個(gè)基準(zhǔn)上超越了 GPT-4o-0513 等非推理模型和其他對(duì)比模型。這表明蒸餾技術(shù)的有效性。


2.6 開源貢獻(xiàn)

DeepSeek團(tuán)隊(duì)開源了以下模型,可以在 GitHub 主頁(yè)下載:

  • DeepSeek-R1-Zero

  • DeepSeek-R1

  • 六個(gè)基于Qwen和Llama的蒸餾模型

這些開源模型為研究社區(qū)提供了寶貴的資源,幫助進(jìn)一步探索語(yǔ)言模型的推理能力。


2.7 應(yīng)用場(chǎng)景

  • 推理密集型任務(wù):例如編程任務(wù)中的代碼生成、算法設(shè)計(jì),以及數(shù)學(xué)問題求解、科學(xué)推理和邏輯分析等需要復(fù)雜推理的場(chǎng)景。

  • 教育與知識(shí)應(yīng)用:可用于解決教育領(lǐng)域的問題,支持知識(shí)理解與解答。

  • 文檔分析與長(zhǎng)上下文理解:適合處理需要深入文檔分析和理解長(zhǎng)上下文的任務(wù),例如復(fù)雜信息提取與整合。

  • 開放領(lǐng)域問答與寫作:在內(nèi)容生成、問題回答以及創(chuàng)造性寫作中具有廣泛應(yīng)用,例如生成高質(zhì)量文本或進(jìn)行內(nèi)容編輯。

  • 數(shù)據(jù)分析與搜索:在數(shù)據(jù)處理與智能搜索中展現(xiàn)出應(yīng)用潛力,能夠高效解析復(fù)雜信息。


2.8 未來展望

DeepSeek團(tuán)隊(duì)計(jì)劃進(jìn)一步優(yōu)化強(qiáng)化學(xué)習(xí)在推理任務(wù)中的應(yīng)用,并探索更多蒸餾技術(shù)的潛力,以提升小型模型的推理能力。

3. DeepSeek-R1發(fā)布帶來的社會(huì)影響

DeepSeek-R1 模型的發(fā)布確實(shí)引發(fā)了廣泛關(guān)注,尤其是在中美科技競(jìng)爭(zhēng)背景下,其影響不僅限于技術(shù)層面,還涉及經(jīng)濟(jì)、政治和國(guó)際關(guān)系等多個(gè)領(lǐng)域。


3.1 社會(huì)影響

以下是該模型發(fā)布所產(chǎn)生的主要社會(huì)影響:

  • 中國(guó)科技創(chuàng)新的標(biāo)志性事件

  • 技術(shù)突破的象征:DeepSeek-R1 的發(fā)布被視為中國(guó)在人工智能領(lǐng)域取得重大突破的標(biāo)志,尤其是在推理能力方面,展示了中國(guó)在高端技術(shù)研發(fā)上的實(shí)力。

  • 國(guó)際影響力的提升:該模型的成功發(fā)布進(jìn)一步鞏固了中國(guó)在全球人工智能領(lǐng)域的地位,被視為中國(guó)科技創(chuàng)新崛起的重要里程碑。

  • 對(duì)美國(guó)科技行業(yè)的影響

  • 科技股票波動(dòng):DeepSeek-R1 的發(fā)布引發(fā)了美國(guó)科技股票市場(chǎng)的震蕩,尤其是英偉達(dá)等公司的股價(jià)出現(xiàn)下跌。市場(chǎng)擔(dān)憂中國(guó)在人工智能領(lǐng)域的快速進(jìn)步可能削弱美國(guó)企業(yè)的競(jìng)爭(zhēng)優(yōu)勢(shì)。

  • 企業(yè)調(diào)查與競(jìng)爭(zhēng)壓力:OpenAI 等美國(guó)科技公司對(duì) DeepSeek-R1 的技術(shù)細(xì)節(jié)展開調(diào)查,試圖了解其技術(shù)優(yōu)勢(shì)并制定應(yīng)對(duì)策略。這加劇了中美科技企業(yè)之間的競(jìng)爭(zhēng)。

  • 美國(guó)政府與政策反應(yīng)

  • 技術(shù)封禁的討論:有報(bào)道稱,美國(guó)政府正在考慮對(duì) DeepSeek-R1 模型實(shí)施封禁或限制,以防止其技術(shù)在美國(guó)的廣泛應(yīng)用。這一舉措反映了美國(guó)對(duì)中國(guó)技術(shù)崛起的警惕。

  • 出口管制與制裁:美國(guó)政府可能進(jìn)一步加強(qiáng)對(duì)人工智能相關(guān)技術(shù)的出口管制,限制中國(guó)獲取高端芯片和關(guān)鍵技術(shù),以遏制中國(guó)在人工智能領(lǐng)域的發(fā)展。

  • 對(duì)全球科技格局的影響

  • 技術(shù)競(jìng)爭(zhēng)加?。篋eepSeek-R1 的發(fā)布加劇了中美兩國(guó)在人工智能領(lǐng)域的技術(shù)競(jìng)爭(zhēng),促使其他國(guó)家加快相關(guān)技術(shù)的研發(fā)和投資。

3.2 相關(guān)事件

  • 2025年1月27日,DeepSeek超越ChatGPT,登頂蘋果App Store美國(guó)區(qū)免費(fèi)APP下載排行榜。[4]

  • 2025年1月27日起,DeepSeek的服務(wù)器受到大規(guī)模網(wǎng)絡(luò)攻擊,許多用戶無法登錄或注冊(cè),或者進(jìn)行對(duì)話。[5]

  • 2025年1月28日,DeepSeek表示,為持續(xù)提供服務(wù),暫時(shí)限制中國(guó)以外號(hào)碼的注冊(cè)。[5][6]

  • OpenAI表示,其有證據(jù)表明DeepSeek使用OpenAI的專有模型來訓(xùn)練自己的開源模型,這違反了OpenAI的服務(wù)條款。[7]

參考文獻(xiàn)

1. HINTON G, VINYALS O, DEAN J. Distilling the Knowledge in a Neural Network[J/OL]. 2015. DOI:10.48550/arxiv.1503.02531. https://arxiv.org/pdf/1503.02531

2. 這里有點(diǎn)微妙。原文是“we conduct large-scale RL training on Qwen-32B-Base using math, code, and STEM data, training for over 10K steps”。很難說1萬步的訓(xùn)練到底夠不夠大規(guī)模,也許對(duì)于671B的模型來說足夠了,但對(duì)于32B的模型就不知道了。

3. DeepSeek-AI, Guo, D., Yang, D., Zhang, H., Song, J., Zhang, R., Xu, R., Zhu, Q., Ma, S., Wang, P., Bi, X., Zhang, X., Yu, X., Wu, Y., Wu, Z. F., Gou, Z., Shao, Z., Li, Z., Gao, Z., … Zhang, Z. (2025). DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning (No. arXiv:2501.12948). arXiv. https://doi.org/10.48550/arXiv.2501.12948

4. 李瀟瀟, 胡含嫣 (2025-01-27). "DeepSeek超越ChatGPT,登頂蘋果美國(guó)區(qū)免費(fèi)APP下載排行榜". 澎湃新聞. Retrieved 2025-01-29.

5. "攻擊DeepSeek數(shù)量激增 中國(guó)網(wǎng)安專家:IP均來自美國(guó)". 聯(lián)合早報(bào). 2025-01-28. Retrieved 2025-01-29.

6. "360宣布無償為DeepSeek提供安全服務(wù)". 齊魯晚報(bào). 2025-01-28. Retrieved 2025-01-29.

7. "OpenAI稱有證據(jù)表明DeepSeek利用其模型訓(xùn)練競(jìng)爭(zhēng)對(duì)手". RFI - 法國(guó)國(guó)際廣播電臺(tái). 2025-01-29. Retrieved 2025-01-29.

作者簡(jiǎn)介(以下排序不區(qū)分貢獻(xiàn))

冉天樞,清華大學(xué)社會(huì)學(xué)系本科畢業(yè)、哥大教師學(xué)院國(guó)際比較教育碩士畢業(yè),現(xiàn)從事AI素養(yǎng)企業(yè)培訓(xùn)課程開發(fā)。

范卓?jī)x,浙江大學(xué)數(shù)學(xué)心理學(xué)在讀博士生,在自己的幻想世界里游蕩的呆瓜,沒有sci,喜歡精神分析。

寧定揚(yáng),就讀于上海交通大學(xué),對(duì)神經(jīng)科學(xué)和復(fù)雜系統(tǒng)等領(lǐng)域有興趣。

王志鵬,北京師范大學(xué)在讀博士,研究興趣包括復(fù)雜系統(tǒng)多尺度建模、因果涌現(xiàn)等。

Ricky,愛丁堡大學(xué)博士,研究人工智能,知識(shí)圖譜,和復(fù)雜網(wǎng)絡(luò)。

潘琳莉,北京師范大學(xué)系統(tǒng)科學(xué)學(xué)院系統(tǒng)科學(xué)專業(yè)碩士研究生,研究興趣為人工智能,因果涌現(xiàn)。

袁冰,集智科學(xué)研究中心技術(shù)與產(chǎn)品顧問。研究興趣包括因果推斷,復(fù)雜科學(xué),以及人工智能相關(guān)領(lǐng)域。

張江,北京師范大學(xué)系統(tǒng)科學(xué)學(xué)院教授,集智俱樂部、集智學(xué)園創(chuàng)始人,集智科學(xué)研究中心理事長(zhǎng),主要研究領(lǐng)域包括因果涌現(xiàn)、復(fù)雜系統(tǒng)分析與建模、規(guī)模理論等。

本詞條由集智俱樂部眾包生產(chǎn),難免存在紕漏和問題,歡迎大家留言反饋或者前往對(duì)應(yīng)的百科詞條頁(yè)面進(jìn)行修改,一經(jīng)修改,可以獲得對(duì)應(yīng)的積分獎(jiǎng)勵(lì)噢!

親愛的社區(qū)成員和知識(shí)愛好者:

我們正在尋找對(duì)知識(shí)分享充滿熱情的志愿者,加入我們的集智百科詞條編寫團(tuán)隊(duì)!無論你是某個(gè)領(lǐng)域的專家,還是對(duì)某一主題有濃厚興趣,我們都?xì)g迎你的加入。通過編寫和編輯百科詞條,你將有機(jī)會(huì)為全球讀者提供準(zhǔn)確、權(quán)威的信息,同時(shí)提升自己的寫作和研究能力。

我們需要的幫助

編寫新的集智百科詞條,涵蓋復(fù)雜系統(tǒng)、人工智能等多個(gè)領(lǐng)域

更新和完善現(xiàn)有詞條,確保信息的準(zhǔn)確性和時(shí)效性

校對(duì)和審核其他志愿者提交的內(nèi)容,確保詞條質(zhì)量

我們希望你具備

良好的寫作能力,能夠清晰、簡(jiǎn)潔地表達(dá)復(fù)雜的概念

對(duì)某一領(lǐng)域有深入了解或濃厚興趣

具備基本的網(wǎng)絡(luò)搜索和信息整理能力

有責(zé)任心和團(tuán)隊(duì)合作精神,愿意為知識(shí)共享貢獻(xiàn)力量

如果你對(duì)知識(shí)分享充滿熱情,愿意為全球讀者提供有價(jià)值的信息,請(qǐng)立即加入我們!

掃碼填表,添加負(fù)責(zé)人微信

讓我們一起,用知識(shí)連接世界!

大模型2.0讀書會(huì)啟動(dòng)

o1模型代表大語(yǔ)言模型融合學(xué)習(xí)與推理的新范式。集智俱樂部聯(lián)合北京師范大學(xué)系統(tǒng)科學(xué)學(xué)院教授張江、Google DeepMind研究科學(xué)家馮熙棟、阿里巴巴強(qiáng)化學(xué)習(xí)研究員王維塤和中科院信工所張杰共同發(fā)起,本次讀書會(huì)關(guān)注大模型推理范式的演進(jìn)、基于搜索與蒙特卡洛樹的推理優(yōu)化、基于強(qiáng)化學(xué)習(xí)的大模型優(yōu)化、思維鏈方法與內(nèi)化機(jī)制、自我改進(jìn)與推理驗(yàn)證。希望通過讀書會(huì)探索o1具體實(shí)現(xiàn)的技術(shù)路徑,幫助我們更好地理解機(jī)器推理和人工智能的本質(zhì)。

讀書會(huì)詳情請(qǐng)見:

1.

2.

3.

4.

5.

6.

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
湖北十堰一老師實(shí)名建議:五方聯(lián)防嚴(yán)控機(jī)動(dòng)車,確保學(xué)生放學(xué)安全

湖北十堰一老師實(shí)名建議:五方聯(lián)防嚴(yán)控機(jī)動(dòng)車,確保學(xué)生放學(xué)安全

恪守原則和底線
2025-10-25 10:06:42
方媛生下小女兒后,最難過的應(yīng)該不是郭富城,而是二女兒郭詠萱

方媛生下小女兒后,最難過的應(yīng)該不是郭富城,而是二女兒郭詠萱

阿廢冷眼觀察所
2025-10-25 13:40:08
蘇聯(lián)曾經(jīng)有多強(qiáng)?軍委估計(jì)一旦入侵七天就能殺到北京,怎么應(yīng)對(duì)?

蘇聯(lián)曾經(jīng)有多強(qiáng)?軍委估計(jì)一旦入侵七天就能殺到北京,怎么應(yīng)對(duì)?

花仙歷史說
2025-10-23 07:16:32
當(dāng)?shù)匾褜?duì)男童奶茶噎死一事多次調(diào)解,父親要求三方均承擔(dān)責(zé)任

當(dāng)?shù)匾褜?duì)男童奶茶噎死一事多次調(diào)解,父親要求三方均承擔(dān)責(zé)任

映射生活的身影
2025-10-25 12:55:25
超級(jí)心上人!經(jīng)紀(jì)人:阿隆索愿為伊爾迪茲放走除姆巴佩外皇馬所有人

超級(jí)心上人!經(jīng)紀(jì)人:阿隆索愿為伊爾迪茲放走除姆巴佩外皇馬所有人

愛奇藝體育
2025-10-25 15:54:21
3-3,西甲倒數(shù)第一連扳3球都不勝,第97分鐘遭絕平,太可惜了

3-3,西甲倒數(shù)第一連扳3球都不勝,第97分鐘遭絕平,太可惜了

側(cè)身凌空斬
2025-10-25 22:00:35
西安警方通報(bào):潘某樂、吳某華、王某被查處

西安警方通報(bào):潘某樂、吳某華、王某被查處

環(huán)球網(wǎng)資訊
2025-10-25 15:30:05
萬萬沒有想到,吳學(xué)成的晚年生活是這樣,她做了讓人意想不到的事

萬萬沒有想到,吳學(xué)成的晚年生活是這樣,她做了讓人意想不到的事

小椰的奶奶
2025-10-25 00:46:00
你看不起的零跑,終于打響第一槍!致命子彈射出

你看不起的零跑,終于打響第一槍!致命子彈射出

象視汽車
2025-10-25 07:00:03
FM2016 老玩家破防!6 位曾被吹爆的神童,如今全銷聲匿跡

FM2016 老玩家破防!6 位曾被吹爆的神童,如今全銷聲匿跡

慕承
2025-10-25 11:29:25
石榴立大功!研究發(fā)現(xiàn):糖尿病患者常吃石榴,或能降低2種并發(fā)癥

石榴立大功!研究發(fā)現(xiàn):糖尿病患者常吃石榴,或能降低2種并發(fā)癥

小舟談歷史
2025-10-18 09:25:25
百事可樂是康師傅代工?最新回應(yīng)

百事可樂是康師傅代工?最新回應(yīng)

中國(guó)能源網(wǎng)
2025-10-25 11:26:07
表面風(fēng)光,實(shí)際“無戲可拍”的5位明星,他們還能靠演技翻紅嗎?

表面風(fēng)光,實(shí)際“無戲可拍”的5位明星,他們還能靠演技翻紅嗎?

奧字侃劇
2025-10-17 16:21:34
中國(guó)四艘艦艇抵達(dá)美國(guó)家門口,俄方:全世界只有中國(guó)能讓美國(guó)閉嘴

中國(guó)四艘艦艇抵達(dá)美國(guó)家門口,俄方:全世界只有中國(guó)能讓美國(guó)閉嘴

墨蘭史書
2025-10-25 05:05:02
年僅28歲的徐志摩是如何看穿蘇俄“一切都是演戲”的?

年僅28歲的徐志摩是如何看穿蘇俄“一切都是演戲”的?

霹靂炮
2025-10-20 23:21:24
場(chǎng)均30+6,帶隊(duì)從西部第一變?yōu)閴|底!奪冠熱門倒下,因?yàn)槟闾珡?qiáng)了

場(chǎng)均30+6,帶隊(duì)從西部第一變?yōu)閴|底!奪冠熱門倒下,因?yàn)槟闾珡?qiáng)了

老梁體育漫談
2025-10-25 22:42:07
唐智杰,調(diào)職安徽

唐智杰,調(diào)職安徽

上觀新聞
2025-10-25 21:08:02
福建富豪陳志,滿手沾滿中國(guó)人血淚

福建富豪陳志,滿手沾滿中國(guó)人血淚

城市局
2025-10-16 22:58:41
郭富城喜迎三女兒,女兒眼睛成焦點(diǎn)引發(fā)熱議

郭富城喜迎三女兒,女兒眼睛成焦點(diǎn)引發(fā)熱議

一娛三分地
2025-10-23 19:34:05
朱珠竟然真空出行邊走邊喝飲料 這厚度這粗度還有腰身 這樣穿舒服嗎

朱珠竟然真空出行邊走邊喝飲料 這厚度這粗度還有腰身 這樣穿舒服嗎

TVB的四小花
2025-10-25 13:55:10
2025-10-26 00:55:00
集智俱樂部 incentive-icons
集智俱樂部
科普人工智能相關(guān)知識(shí)技能
5428文章數(shù) 4656關(guān)注度
往期回顧 全部

科技要聞

傳特斯拉人形機(jī)器人再延期,雙手只能用6周

頭條要聞

普京態(tài)度180度大轉(zhuǎn)彎警告特朗普 流露出相當(dāng)強(qiáng)硬的威脅

頭條要聞

普京態(tài)度180度大轉(zhuǎn)彎警告特朗普 流露出相當(dāng)強(qiáng)硬的威脅

體育要聞

從2400人小島打進(jìn)NBA 他才是"上喬下科"?

娛樂要聞

《水龍吟》《天地劍心》一棄一追

財(cái)經(jīng)要聞

貴州茅臺(tái)換帥!70后陳華接任新掌門

汽車要聞

插混皮卡爭(zhēng)霸戰(zhàn),誰(shuí)能笑到最后?

態(tài)度原創(chuàng)

手機(jī)
教育
家居
親子
公開課

手機(jī)要聞

曝榮耀500系列入網(wǎng),或年底發(fā)布

教育要聞

沒有家教的家庭,比貧窮更可怕!

家居要聞

寵物友好 溫馨社交空間

親子要聞

我表哥過生日,晚上一起吃了個(gè)飯,吹蠟燭許了個(gè)愿望

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版 日日噜噜噜夜夜爽爽狠狠视频| 亚洲精品成人国产| 国产亚洲精品久久久久久久| 狠狠色狠狠色综合久久| 亚洲做受 高潮蜜| 国产福利高颜值在线观看| 亚洲人妻自拍视频| 亚洲女欲精品久久久久久禁18| 国产在线看片网址你懂的| 99re 视频在线| 免费看午夜福利在线观看| 欧美最大胆的西西人体44| 无码少妇一区二区性色av| 又大又粗又硬黄色视频网站| 国偷自产一区二区免费视频| 国产人妻人伦精品1国产盗摄| 日本无码视频在线观看| 亚洲妓女综合网99| 亚州精品国产精品乱码不99按摩| 让我狠狠爱你狠狠想你| 日韩无套无码精品| 麻豆成人久久精品二区三区免费| 亚洲国产精品综合久久网各| 丁香综合五月| 很很鲁很很搞很很操视频播放| 亚洲裸男gv网站| 日韩 色 结衣| 国产成人无码8X| 你懂的视频国产| 亚洲老熟女αV| 99久久久免费| 久久精品国产亚洲AV麻豆王友容 | 国产免国产免‘费| 天天做,夜夜坐| 亚洲va欧美在线观看| 亚洲国产一区在线观看| 伊人情人色综合网站| 天堂www中文在线| 91亚洲精品国产自在现线| 城中村快餐嫖妇女对白| 成人福利短视频在线观看|