我們找到3位大學(xué)教授，聊了聊越來越嚴(yán)重的AI幻覺

2025-07-14 16:06:34　來源: 知危

浙江舉報(bào)

分享至

最近，網(wǎng)上出現(xiàn)了一個(gè) AI 幻覺引發(fā)的鬧劇。

7 月 2 日，網(wǎng)上突然出現(xiàn)大量 “ DeepSeek 就 AI 模型違規(guī)關(guān)聯(lián)向王一博道歉 ” 相關(guān)內(nèi)容，最終被發(fā)現(xiàn)其實(shí)是 DeepSeek 在對話中虛構(gòu)了事件甚至引用了一份在中國裁判文書網(wǎng)上完全查不到的判決書。

而這場鬧劇，源于 DeepSeek 在與用戶對話過程中產(chǎn)生的幻覺。借此，知危編輯部認(rèn)為有必要探討一下 AI 大模型們激增的幻覺率了。

前段時(shí)間，OpenAI o3 模型剛發(fā)布不久，也因?yàn)榛糜X率 “ 不降反升 ” 的現(xiàn)象引發(fā)了廣泛關(guān)注。

OpenAI o3 模型會犯很多匪夷所思的錯(cuò)誤。比如，捏造從未運(yùn)行過的代碼，在編碼設(shè)置中使用無效的非 ASCII 破折號，甚至還會假裝自己在調(diào)用工具。

在 PersonQA 基準(zhǔn)測試中，o3 會在 33% 的問答中出現(xiàn)幻覺，幾乎是o1（ 16% ）的 2 倍，o4-mini 的幻覺率更是高達(dá) 48%，遠(yuǎn)高于此前發(fā)布的推理模型。

近期發(fā)布的其他深度思考模型也出現(xiàn)了類似的規(guī)律，即隨著推理能力增強(qiáng)，其幻覺率也反而更高。

艾倫人工智能研究所科學(xué)家 Nathan Lambert 曾發(fā)文評論 o3 的推理幻覺，表示這一問題的出現(xiàn)是由于 RL（強(qiáng)化學(xué)習(xí) ）過度優(yōu)化。

比如典型的“ 獎(jiǎng)勵(lì)黑客 ” 現(xiàn)象，Nathan Lambert 舉了一個(gè)例子，他們曾在 MuJoCo 環(huán)境中讓一只獵豹學(xué)會快速奔跑，最終獵豹通過側(cè)手翻動(dòng)作而不是跑步實(shí)現(xiàn)了最大的前進(jìn)速度。類似地，o3 假裝使用工具很可能是由于 o3 在訓(xùn)練時(shí)若成功調(diào)用工具能使其獲得獎(jiǎng)勵(lì)。

對應(yīng)到推理模型，則表現(xiàn)為答案是正確的，但推理過程卻是錯(cuò)誤的，或者和答案無嚴(yán)密的邏輯關(guān)系。（這是一種更新型的幻覺，和 DeepSeek 造謠給王一博道歉事件中的事實(shí)性幻覺有區(qū)別）

斯坦福大學(xué)團(tuán)隊(duì)[1]總結(jié)了這些怪異行為的類型，包括跳過中間關(guān)鍵步驟，代入特殊數(shù)值來猜測一般規(guī)律，數(shù)值近似粗糙，邏輯推導(dǎo)沒有閉合，甚至未使用真正的數(shù)學(xué)語言等。研究團(tuán)隊(duì)通過系統(tǒng)評估還發(fā)現(xiàn)，Grok3 mini 最終答案正確率達(dá) 71.5%，但推理過程正確率僅為 6.0% 。

上海交通大學(xué)計(jì)算機(jī)系教授、博士生導(dǎo)師、副系主任張偉楠（主要研究方向?yàn)閺?qiáng)化學(xué)習(xí)、決策大模型等）告訴知危，“ 說 o3 是被強(qiáng)化學(xué)習(xí)過度優(yōu)化導(dǎo)致幻覺增加，其實(shí)說明人類不知道自己想要什么。”

“發(fā)展到這一階段其實(shí)很正常。強(qiáng)化學(xué)習(xí)可以優(yōu)化大模型在某些任務(wù)（例如數(shù)學(xué)和代碼）的性能。而這些能力提升后，人們又開始關(guān)注它的幻覺問題，覺得大模型吐出來的話不正常。這樣的情況在其它強(qiáng)化學(xué)習(xí)應(yīng)用場景中也經(jīng)常發(fā)現(xiàn)，例如人們首先訓(xùn)練機(jī)器人要走得快，但后來又覺得機(jī)器人走得不漂亮。”

天津大學(xué)智算學(xué)部教授、華為諾亞決策推理實(shí)驗(yàn)室主任郝建業(yè)（主要研究方向?yàn)樯疃葟?qiáng)化學(xué)習(xí)、多智能體系統(tǒng)等）也同意問題根源在于強(qiáng)化學(xué)習(xí)，他向知危表示：“ 強(qiáng)化學(xué)習(xí)的學(xué)習(xí)范式，主要的監(jiān)督信號就是最終結(jié)果是否正確。而大模型本身的推理過程，尤其是數(shù)學(xué)題那種多步推理，是一個(gè)非常長的多步?jīng)Q策過程。但強(qiáng)化學(xué)習(xí)比如 GRPO（一種強(qiáng)化學(xué)習(xí)算法）只在最后一步給出獎(jiǎng)勵(lì)，就可能導(dǎo)致模型學(xué)到的最終結(jié)果是正確的，但中間的推理過程是錯(cuò)誤的。模型可能會發(fā)展出一些錯(cuò)誤但高效的策略，這就是所謂的 ‘ 幻覺 ’ 現(xiàn)象的來源。”

“ 整體來看，現(xiàn)在大家用強(qiáng)化學(xué)習(xí)訓(xùn)練大模型來實(shí)現(xiàn)慢思考，其實(shí)還處于一個(gè)比較初級階段，基本上還是用比較標(biāo)準(zhǔn)的強(qiáng)化學(xué)習(xí)方法。特別是在線的訓(xùn)練方法，包括 GRPO 也只是 PPO 的一個(gè)變種，本質(zhì)上和 PPO 沒有區(qū)別。”

倫敦大學(xué)學(xué)院計(jì)算機(jī)系教授汪軍（主要研究方向?yàn)閺?qiáng)化學(xué)習(xí)、多智能體等）對此進(jìn)行了深入的實(shí)驗(yàn)研究，他向知危表示 “ 現(xiàn)在主流的強(qiáng)化學(xué)習(xí)方法比如 GRPO 等，或者通過提示來鼓勵(lì)模型在輸出結(jié)果之前先思考的方法，都有很多問題，其中一個(gè)問題是模型的思考過程沒有被 regularized（正則化）或規(guī)整、規(guī)范，這就導(dǎo)致它所謂的思考過程可能并不符合人的邏輯。”

“ 具體來說，我們使用 DeepSeek R1 等模型在 AIME 基準(zhǔn)測試上進(jìn)行測試，并對所有 AIME 中的數(shù)學(xué)難題的錯(cuò)誤和正確案例都進(jìn)行了分析，發(fā)現(xiàn)當(dāng)模型嘗試最大化獎(jiǎng)勵(lì)而忽略思考過程的規(guī)范性時(shí)，其推理的邏輯不一定是對的，存在大量的重復(fù)或冗余，但最后還是能給出正確答案。這類現(xiàn)象可以理解為走捷徑。”

“ 對此我是比較失望的。所以盡管人們相繼提出了 GRPO 等各種強(qiáng)化學(xué)習(xí)算法，但沒有一個(gè)算法真正抓住了問題的關(guān)鍵?！?/strong>

“ 人們也嘗試突破 GRPO 等算法的局限性。比如我們有一個(gè)方法是這樣的：假設(shè) x 是輸入，y 是輸出，我們讓模型具備這樣的能力 —— 在已知 x 的情況下，給定之前的 y，反過來推出 x。經(jīng)過這樣的訓(xùn)練，模型就可以不斷地提高它的輸出能力，對強(qiáng)化學(xué)習(xí)有很大的提升?！?/p>

“ 目前人們并沒有關(guān)注如何對思考過程做 regularized。我們會關(guān)注這個(gè)方向，是因?yàn)楸举|(zhì)上，大多數(shù)在線強(qiáng)化學(xué)習(xí)訓(xùn)練中，thinking（推理）階段是沒有正確答案的。因?yàn)闆]有任何事實(shí)來告訴模型思考過程應(yīng)該是怎樣的，所以本質(zhì)上它是隱性的。如果只在輸出結(jié)果的時(shí)候提供一個(gè)獎(jiǎng)勵(lì)，那對于中間這個(gè)隱性的過程，如果不加 regularized，就可能是任何東西。”

“ 從另外一個(gè)維度，無論思維鏈?zhǔn)怯?token 的形式（包含在輸出中），還是 latent 的形式（不包含在輸出中），只是不同的方法。latent 形式可能效率更高或更快，在有實(shí)時(shí)性要求的任務(wù)中更合適，但可解釋性不強(qiáng)。當(dāng)然也可以做成混合的方式，訓(xùn)練時(shí)用顯式的 token 形式，但在執(zhí)行時(shí)如果不需要輸出這些 token，則用 latent 的形式執(zhí)行就可以。還有一個(gè)可能，在大模型和小模型之間，用 latent 的方式來傳遞信息，也是可以實(shí)現(xiàn)的?！?/p>

“當(dāng)然，將這種現(xiàn)象稱作幻覺，不一定準(zhǔn)確，有一定誤導(dǎo)性。過去討論的大語言模型的幻覺主要屬于事實(shí)性錯(cuò)誤，是由于 AI 生成的概率性而導(dǎo)致的必然結(jié)果。而 AI 的推理過程和人類不同，答案卻是正確的，只是 GRPO 等算法的獎(jiǎng)勵(lì)設(shè)置對中間過程缺乏約束的結(jié)果。”

張偉楠教授進(jìn)一步解釋道，“ 這類推理模型的訓(xùn)練中使用的數(shù)據(jù)，可能已經(jīng)包含了相當(dāng)一部分大模型（或者智能體）通過強(qiáng)化學(xué)習(xí)與環(huán)境交互得出的 CoT（ Chain of Thought，思維鏈）數(shù)據(jù)。也就是說，交互數(shù)據(jù)本身就是憑空生成的，不是完全來自人類的數(shù)據(jù)。”

“ 這些 CoT 數(shù)據(jù)一般會經(jīng)過校驗(yàn)，也就是通過校驗(yàn)器判斷思考過程最終確實(shí)導(dǎo)致了任務(wù)的完成，然后這條思維鏈就會被用作訓(xùn)練數(shù)據(jù)。”

“但是這些思維鏈鏈的具體過程，在語句、語法、自然語言層面是否標(biāo)準(zhǔn)或優(yōu)雅，人們其實(shí)并不關(guān)注。于是，這勢必會讓后訓(xùn)練之后的大語言模型 ‘ 說人話 ’ 的能力出現(xiàn)一定偏移。但它在解決專業(yè)任務(wù)的能力上，比如解題，比如智能體的規(guī)劃、決策等，整體是變強(qiáng)了?！?/p>

“ 再深入一層，就涉及強(qiáng)化學(xué)習(xí)的核心組成 ‘ 獎(jiǎng)勵(lì)函數(shù) ’ 了。其實(shí)人類目前還不知道正確、完美的獎(jiǎng)勵(lì)函數(shù)該怎么設(shè)計(jì)。更本質(zhì)的原因則是上面說的，人類不知道自己真正要什么。”

郝建業(yè)教授也強(qiáng)調(diào)，“ 設(shè)計(jì)合理的獎(jiǎng)勵(lì)函數(shù)是強(qiáng)化學(xué)習(xí)方法中最關(guān)鍵的一點(diǎn)，同時(shí)也是最痛的一個(gè)點(diǎn)。”

獎(jiǎng)勵(lì)模型可分為結(jié)果級（ ORM ）和過程級（ PRM ），ORM 容易讓模型通過錯(cuò)誤的推理路徑得到正確答案，因此有必要引入 PRM 來監(jiān)督推理過程。但 PRM 方法本身實(shí)現(xiàn)很困難，比如訓(xùn)練數(shù)據(jù)收集成本高。

“ 不只是數(shù)據(jù)成本高，中間過程的 PRM 定義本身就非常困難。因此一種解決方式是通過手動(dòng)或者半自動(dòng)的方法，更好地定義中間過程的獎(jiǎng)勵(lì)，用來引導(dǎo)模型，盡量減少中間推理過程中的幻覺問題?！?/p>

“ 另外也可以考慮借鑒過去強(qiáng)化學(xué)習(xí)中的一些技術(shù)，比如如何進(jìn)行獎(jiǎng)勵(lì)分配——也就是說，怎么把最終的獎(jiǎng)勵(lì)合理地分配到中間的每一個(gè)步驟，從而為中間過程自動(dòng)設(shè)計(jì)出更準(zhǔn)確的獎(jiǎng)勵(lì)值。”

然而問及近兩年獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)方面的發(fā)展情況，張偉楠教授向知危直言道，“ 沒什么像樣的發(fā)展。”

獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)難在哪里？其實(shí)是源于大模型作為智能體，要實(shí)現(xiàn)持續(xù)進(jìn)步，甚至超越人類，需要與復(fù)雜度越來越大的環(huán)境進(jìn)行交互。

張偉楠教授解釋道，“ 將強(qiáng)化學(xué)習(xí)應(yīng)用到大模型，推動(dòng)了大模型和智能體之間邊界逐漸模糊的趨勢。比如 OpenAI 的 DeepResearch 也是一個(gè)模型，在 pretrain 階段完全用 next token 的方式，直接輸出調(diào)工具的命令（憑空生成一個(gè)工具 token，這個(gè)工具 token 對應(yīng)的是一個(gè)可被調(diào)用的 API ），根本不需要像智能體那樣從 prompt 去選擇調(diào)用工具?！?/p>

“ 以前讓智能體模型能夠和環(huán)境交互的是可執(zhí)行框架，作用是把環(huán)境給的感知信號轉(zhuǎn)換成大語言模型能理解的語言 token，大語言模型輸出的 token 又可以轉(zhuǎn)化成對環(huán)境下達(dá)任務(wù)、下達(dá)動(dòng)作的控制指令。但這其實(shí)就是一層框架?，F(xiàn)在智能體模型本身就可以去做這件事。但問題在于，你就得把這些任務(wù)相關(guān)的數(shù)據(jù)在預(yù)訓(xùn)練的時(shí)候全都輸入大語言模型里?！?/p>

“ 可是這樣的任務(wù)種類是成千上萬種，不可窮盡的。不可能在一次訓(xùn)練中，對于每一種任務(wù)，人們都能交互出適合完成它的數(shù)據(jù)，然后再讓大語言模型用 next token decision 的方法統(tǒng)一進(jìn)行訓(xùn)練?！?/strong>

“ 所以，這是一個(gè)永遠(yuǎn)存在的主流任務(wù)和 outlier 或者數(shù)量多、范圍窄的邊緣任務(wù)之間的權(quán)衡關(guān)系。比如 DeepResearch 重點(diǎn)挑選的是一些專業(yè)任務(wù)，比如調(diào)研、科學(xué)研究、市場調(diào)研、數(shù)學(xué)、編程等任務(wù)。但前提是，你必須在訓(xùn)練階段就選好這幾類任務(wù)。但如果我突然有一天想用大模型處理點(diǎn)外賣這種任務(wù)，它可能就做不了，因?yàn)樗鼔焊鶝]見過點(diǎn)外賣的 API。”

“ 所以要提高推理模型的泛化性，還是需要更多從外部去強(qiáng)化交互。接下來的發(fā)展，無論是智能體還是大模型，都需要和動(dòng)態(tài)環(huán)境進(jìn)行交互，產(chǎn)生出超越人類的數(shù)據(jù)。一個(gè)是數(shù)量上超越人類沉淀下來的所有文本數(shù)據(jù)，另一個(gè)是從數(shù)據(jù)性能指標(biāo)上超越人類?！?/p>

“如果永遠(yuǎn)只是模仿人類，比如模仿人類怎么寫文字，它最多只能在融會貫通這個(gè)維度上超過人類。而確實(shí)，大語言模型在融會貫通上已經(jīng)超過人類了。”

“如果它的發(fā)展上限被 ‘ 老師 ’（也就是人類本身）限制住了，那它的成長空間就很有限。比如 AlphaGo ，它必須通過與環(huán)境的交互，生成完成任務(wù)的數(shù)據(jù)，再基于這些數(shù)據(jù)調(diào)整自身參數(shù)，才能讓它真正擁有比人類更強(qiáng)的能力。AlphaGo 能通過自我博弈提升，主要是因?yàn)榄h(huán)境太簡單，可以用之前的某個(gè)版本作為對手。但現(xiàn)在的智能體需要和整個(gè)開放的互聯(lián)網(wǎng)中進(jìn)行交互，環(huán)境就是互聯(lián)網(wǎng)，這個(gè)問題復(fù)雜得多。”

隨著模型的強(qiáng)化，為了防止過度優(yōu)化，獎(jiǎng)勵(lì)模型一般也需要跟著進(jìn)步。所以這不僅要求交互環(huán)境要越來越開放和復(fù)雜，獎(jiǎng)勵(lì)模型也要越來越強(qiáng)大。

學(xué)界對獎(jiǎng)勵(lì)模型的研究發(fā)展緩慢。目前將獎(jiǎng)勵(lì)函數(shù)引入大模型甚至深度思考大模型只是非常初步的進(jìn)展，獎(jiǎng)勵(lì)模型長期以來都是標(biāo)量形式的輸出，這其實(shí)極大限制了其表達(dá)能力和場景適用性。

“ 實(shí)際上，強(qiáng)化學(xué)習(xí)并沒有真正地約束算法必須在一個(gè)標(biāo)量式的獎(jiǎng)勵(lì)信號上進(jìn)行最大化。強(qiáng)化學(xué)習(xí)真正的定義是：只要智能體能夠和環(huán)境進(jìn)行動(dòng)態(tài)交互，并且基于這些交互經(jīng)驗(yàn)數(shù)據(jù)來提升自己的策略性，就可以了。并沒有說一定要用 MDP（ Markov decision process，馬爾可夫決策過程），一定要有 reward function，一定要用標(biāo)量式的 reward 等等，只需要環(huán)境的變化反饋。所以這種反饋完全可以是非標(biāo)量式的數(shù)據(jù)，比如說一個(gè)視覺信號，或者自然語言、多模態(tài)數(shù)據(jù)等。就像人類一樣，人類的學(xué)習(xí)從來沒有完全明確的數(shù)值反饋。”

“所以，未來訓(xùn)練一個(gè)大語言模型，最終的獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)，可能更像一個(gè)評論家，來給出相關(guān)的文字性、非結(jié)構(gòu)化的反饋。那么我們需要提出一種方法，讓模型能夠基于這些文字型的反饋繼續(xù)優(yōu)化，比如教練說：‘ 你剛剛那個(gè)球打得不是特別好，以后揮拍的時(shí)候右手上肢的力量要更足一點(diǎn) ’，基于這樣的 language feedback 來調(diào)整策略，是完全可以做到的，而且已經(jīng)有一些工作在做了?！?/p>

張偉楠教授補(bǔ)充道，“ 從商業(yè)競爭角度來說，現(xiàn)在大語言模型如果基于人類的真實(shí)數(shù)據(jù)做 next token prediction 訓(xùn)練，其實(shí)互相拉不開差距，只能比誰的模型更大或者在執(zhí)行上更細(xì)致等。這源于數(shù)據(jù)層面的差距非常有限，因?yàn)榇蠹沂褂玫娜祟悢?shù)據(jù)基本一樣。但是如果能夠自我生成全新的數(shù)據(jù)，是可以持續(xù)推動(dòng)模型進(jìn)步的?！?/p>

另一方面，這也反映出，目前業(yè)內(nèi)測試大模型推理能力的基準(zhǔn)，其實(shí)存在很大的局限。

“ 現(xiàn)在的基準(zhǔn)沒有辦法真正評估模型的能力。說白了，人們還是傾向在一些基于規(guī)則、基于固定數(shù)據(jù)的前提下，去評測一個(gè)非常靈活的大語言模型。這就像我們想用一張?jiān)嚲砣ピu判一個(gè)人的能力，這永遠(yuǎn)只能是片面的評判。真正判斷一個(gè)人靠不靠譜、各方面能力怎么樣，其實(shí)是需要通過合作，通過持續(xù)的、多維度的交流來評估?！?/strong>

從對獎(jiǎng)勵(lì)函數(shù)的探討中可以發(fā)現(xiàn)，大模型的思維鏈在強(qiáng)化學(xué)習(xí)的框架下，更多被看作一種環(huán)境探索路徑，這提醒我們需要重新思考推理模型的本質(zhì)。

實(shí)際上，從實(shí)際效用層面，大模型的推理能力就一直受到不少質(zhì)疑。

不少學(xué)者都曾表示，AI 看起來像是在推理，但其實(shí)是依靠記憶力在 “ 套模板 ”。最重要的一個(gè)依據(jù)，是它們的泛化能力非常脆弱。斯坦福大學(xué)團(tuán)隊(duì)[2]發(fā)現(xiàn)只是變換原題目的變量名、變量取值范圍，許多推理模型的成績就大幅下降。

Anthropic 團(tuán)隊(duì)還發(fā)現(xiàn)思維鏈可能不是給模型提供上下文，也不一定和最終答案完全相關(guān) [3]。比如，在提示中加入關(guān)于最終答案（可能是正確的，也可能是錯(cuò)誤的）的線索。結(jié)果模型接受了這樣的 “ 作弊小紙條 ”，并給出了正確（或錯(cuò)誤）的答案，卻在大多數(shù)情況下，其推理思維鏈中絲毫不提使用了這個(gè)線索。

這些種種怪象更加激發(fā)了人們探索大模型推理本質(zhì)的愿望。

近期，清華大學(xué)團(tuán)隊(duì)[4]提出了這樣的發(fā)現(xiàn)：在足夠多的采樣次數(shù)下，深度思考模型和基礎(chǔ)模型的表現(xiàn)沒有區(qū)別。RLVR（可驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí) ）并沒有給模型引入新知識，只是相比基礎(chǔ)模型，深度思考模型通過更少的采樣獲取正確的答案。但增加了采樣效率的同時(shí)，模型的多樣性探索能力也相應(yīng)下降。這其實(shí)也契合了深度思考模型的用途，即直接解答專業(yè)問題，而不是探索型研究。

汪軍教授表示，“本質(zhì)上，推理可能只是提高了模型單次采樣的計(jì)算量。有點(diǎn)類似于一個(gè) Best of N 的過程，模型內(nèi)部采樣了很多次，反復(fù)嘗試，最后就提高了解題的概率?！?/p>

人們甚至能用更精巧的方式，從內(nèi)部機(jī)制來激發(fā)大模型的推理能力，而不需要外部獎(jiǎng)勵(lì)。

UC Berkeley 團(tuán)隊(duì)[5]指出通過鼓勵(lì)模型生成自認(rèn)為 “ 更有把握 ” 的回答，就能激發(fā)模型的推理能力。

通俗來說，在訓(xùn)練過程中，進(jìn)行多次采樣，每次采樣生成一串 token，對整串 token 計(jì)算每個(gè) token 預(yù)測下一個(gè) token 時(shí)的自我確定度（下一個(gè) token 的所有候選詞的概率分布越不均勻，越集中在少量詞，自我確定度越大）。

最后將每個(gè) token 的自我確定度相加，就是這串 token 的自我確定度，選擇自我確定度最大的采樣輸出，即可激發(fā)或強(qiáng)化模型的推理能力。

他們的方法借鑒了熵的思想。熵是衡量一個(gè)系統(tǒng)狀態(tài)的無序或均勻程度的變量，自我確定度越大，熵越小，系統(tǒng)狀態(tài)越有序，相當(dāng)于說，這個(gè)方法就是在 token 世界里尋找堅(jiān)實(shí)的高速公路來達(dá)到目的地，而不是在混沌的大海里盲目探索。

張偉楠教授解釋道，“ 這其實(shí)可以從強(qiáng)化學(xué)習(xí)的角度來理解，對熵的控制是很多機(jī)器學(xué)習(xí)訓(xùn)練的本質(zhì)現(xiàn)象。在訓(xùn)練過程中，如果保持較高的熵，可以有更多探索性。如果保持較低的熵，可以有更多專業(yè)性?！?/p>

“ 強(qiáng)化學(xué)習(xí)本身其實(shí)是建立在一個(gè)有探索能力的智能體基礎(chǔ)上，然后希望它能在某個(gè)任務(wù)上專業(yè)化。這個(gè)任務(wù)說到底，其實(shí)就是一套獎(jiǎng)勵(lì)函數(shù)。如果在每個(gè)狀態(tài)上、每個(gè)位置上 ‘ 好 ’ 或 ‘ 壞 ’ 的標(biāo)準(zhǔn)被定義清楚了，就可以通過強(qiáng)化學(xué)習(xí)把這個(gè)智能體訓(xùn)練得更擅長這個(gè)任務(wù)。但問題在于，一旦它專注于某一個(gè)任務(wù)，就會忘卻其它任務(wù)的能力，需要從頭訓(xùn)練。”

推理模型還具有更令人困惑的行為，華盛頓大學(xué)團(tuán)隊(duì)[6]指出了這樣的怪異事實(shí)，即便是使用和正確答案相關(guān)性極低甚至負(fù)相關(guān)的異常獎(jiǎng)勵(lì)信號，一些模型比如 Qwen2.5-Math 也能獲得顯著的數(shù)學(xué)推理能力的提升。

研究者通過實(shí)驗(yàn)觀察，提出了這樣的假設(shè)，強(qiáng)化學(xué)習(xí)訓(xùn)練過程中，如果缺乏有效的獎(jiǎng)勵(lì)信號，模型更傾向于在訓(xùn)練中進(jìn)行高頻率的探索行為，并激發(fā)和利用預(yù)訓(xùn)練階段習(xí)得的潛在推理模式。

比如，Qwen2.5-Math 通過預(yù)訓(xùn)練掌握了 Python 代碼推理的能力，而僅僅是多使用代碼推理本身就足以提升準(zhǔn)確率，因此異常獎(jiǎng)勵(lì)信號間接地提升了模型的性能。

綜上來看，訓(xùn)練大模型推理能力的結(jié)果，更多是形成了一種增大計(jì)算量的或者激活了預(yù)訓(xùn)練模型中已有的 token 探索的模式，而不是知識層面的能力。

盡管面臨很多質(zhì)疑，但大模型推理的未來潛力依然備受期待。

大語言模型或智能體要持續(xù)進(jìn)步，就需要與非常開放和復(fù)雜的外部空間進(jìn)行交互、探索和學(xué)習(xí)。但就目前基于 token 序列生成的方式，效率是比較受限的。

張偉楠教授表示，“ 現(xiàn)在的智能體訓(xùn)練確實(shí)比較費(fèi) token，也比較慢，但大家還是樂意等，原因在于它代表了一類未來技術(shù)，在未來每個(gè)人都能擁有專屬自己的 AI 助手?！?/p>

“ 大家首先關(guān)注的重點(diǎn)是，它具備多大的能力或多高的天花板，其次才是 token 的時(shí)延和算力消耗。往前推三年，當(dāng)時(shí)推理 token 的價(jià)格偏高，現(xiàn)在多強(qiáng)競爭的局面下，真正受益的是用戶，大家能以更便宜的價(jià)格去使用這些模型?！?/p>

即便目前在邏輯推理方面還有很大局限性，但張偉楠教授也認(rèn)為，大語言模型是可以學(xué)會真正的邏輯推理的。

“我對此是持樂觀態(tài)度的。第一點(diǎn)，人腦在做邏輯推理的時(shí)候其實(shí)也存在一定的隨機(jī)性。只是有些人，比如專業(yè)老師、成績好的學(xué)生等，會強(qiáng)迫自己在推理過程中嚴(yán)格遵守邏輯規(guī)則。但從本質(zhì)上，人腦也是一個(gè)神經(jīng)網(wǎng)絡(luò)，它的邏輯推理能力，是通過將自身的神經(jīng)活動(dòng)被嵌入到特定的邏輯規(guī)則中來實(shí)現(xiàn)的。”

“ 其實(shí)，現(xiàn)在的智能體之所以在邏輯推理上表現(xiàn)得比較擅長，甚至未來有可能超越邏輯學(xué)家，原因在于它已經(jīng)把 token 符號本身的前后關(guān)系運(yùn)算練得非常專業(yè)。我們?nèi)匀辉试S它保留一定的探索性和隨機(jī)性，是因?yàn)椋绻蛔鲞@些探索，就很難實(shí)現(xiàn)對人類的超越。”

原則上，我們需要更多關(guān)注推理模型的解決實(shí)際問題的能力，而不是與人類像不像。

邏輯類問題中存在大量離散程序搜索問題[7]，比如給定一個(gè)無向圖，判斷是否可以用 3 種顏色給所有頂點(diǎn)著色，使得每條邊的兩個(gè)端點(diǎn)顏色不同。通常這類問題的嚴(yán)格求解極其困難，屬于 NP 問題。進(jìn)一步看，現(xiàn)在很多 NP 問題的求解，本質(zhì)上仍然是在一個(gè)非常大的空間中進(jìn)行樹搜索的過程。

“ 比如推理模型做一道邏輯題、編程題、數(shù)學(xué)題，甚至是規(guī)劃一個(gè)公司的運(yùn)營方案，其實(shí)本質(zhì)上都是在一個(gè)大的狀態(tài)空間中逐步進(jìn)行搜索的。就像一棵樹，從根節(jié)點(diǎn)出發(fā)，不斷地探索、分支，最終找到某一個(gè)葉子節(jié)點(diǎn)，而這個(gè)葉子節(jié)點(diǎn)就是一個(gè)可行的解?！?/p>

“ 在這個(gè)過程中，需要有一套基于符號、基于邏輯的校驗(yàn)器，能夠判斷某個(gè)解釋是不是正確的，從而讓大語言模型學(xué)會在全局空間中搜索出有效的解。”

NP 問題的定義是：驗(yàn)證一個(gè)解是否是這個(gè)問題的正確答案，如果驗(yàn)證過程是多項(xiàng)式時(shí)間內(nèi)完成的，那這個(gè)問題就被歸類為 NP 問題。所以，驗(yàn)證本質(zhì)上是通過一些比較簡單但精確的符號方法，在這棵巨大的樹的每一個(gè)葉子節(jié)點(diǎn)上，去做出直接的驗(yàn)證。

但關(guān)鍵在于，怎么去搜索那些符合要求的葉子節(jié)點(diǎn)？

NP 問題的搜索方法理論上都是指數(shù)時(shí)間的（窮舉法），而要在實(shí)際中應(yīng)用，就必須尋找多項(xiàng)式時(shí)間的近似方法，手動(dòng)找到一個(gè)具體的顯式的多項(xiàng)式方法非常困難。

而從大語言模型的角度看，其實(shí)它構(gòu)建出了從樹的根節(jié)點(diǎn)到葉子節(jié)點(diǎn)的概率分布路徑，整個(gè)搜索的過程，是在搜索空間中沿著更高概率的路徑進(jìn)行采樣，從而能以多項(xiàng)式時(shí)間在某些 NP 問題中找到葉子節(jié)點(diǎn)，即近似解或可驗(yàn)證的解。

“ 要對這種分布進(jìn)行建模，最適合的就是神經(jīng)網(wǎng)絡(luò)，神經(jīng)網(wǎng)絡(luò)實(shí)際上變成了一個(gè)求解器。”

不僅是推理模型的本質(zhì)問題、實(shí)際效用方面，最后再返回到強(qiáng)化學(xué)習(xí)框架內(nèi)探討 o3 的推理幻覺，張偉楠教授的態(tài)度依然是積極的，“ 獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)的困境只是暫時(shí)的，在未來肯定會得到改善，并且獎(jiǎng)勵(lì)函數(shù)會越來越全面有效?！?/strong>

郝建業(yè)教授表示，“ 未來的關(guān)鍵在于，如何將過去十年深度強(qiáng)化學(xué)習(xí)時(shí)代的技術(shù)，融合進(jìn)大模型時(shí)代，來更好地解決大模型強(qiáng)化學(xué)習(xí)的高效訓(xùn)練問題。我相信因?yàn)榇蠹覍?qiáng)化學(xué)習(xí)已有很好的前期積累，所以肯定會朝這個(gè)方向繼續(xù)探索?！?/p>

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

/閱讀下一篇/

返回網(wǎng)易首頁下載網(wǎng)易新聞客戶端

相關(guān)推薦

熱點(diǎn)推薦

Sakana AI造了個(gè)數(shù)字生命「培養(yǎng)皿」，AI學(xué)會打架、結(jié)盟、搶地盤

機(jī)器之心Pro 2025-11-05 13:58:14
0 跟貼 0

AI「牛頓」來了！北大團(tuán)隊(duì)新突破，看一眼數(shù)據(jù)就能推出物理定律

新智元 2025-11-15 20:30:47
7 跟貼 7

李飛飛給AGI潑了盆冷水

智東西 2025-11-17 21:39:26
4 跟貼 4

?需任何監(jiān)督信號！自博弈機(jī)制讓深度搜索Agent實(shí)現(xiàn)自我進(jìn)化

機(jī)器之心Pro 2025-11-17 16:08:04
0 跟貼 0

李飛飛再談世界模型：AGI是營銷術(shù)語，空間智能才是AI缺失的能力

DeepTech深科技 2025-11-17 18:19:46
0 跟貼 0

成本暴降99%！萬人大會系統(tǒng)全是AI生成的，Vibe Coding真上戰(zhàn)場了

量子位 2025-11-17 20:21:15
1 跟貼 1

ChatGPT智能體來了：自己操作電腦干活，接管你的電腦，自動(dòng)執(zhí)行各種任務(wù)

量子位 2025-07-18 18:08:35
0 跟貼 0

他「二本」出身，數(shù)學(xué)很差：最終成了PyTorch之父、Meta副總裁

機(jī)器之心Pro 2025-11-17 14:59:44
3 跟貼 3

MeshCoder：大語言模型驅(qū)動(dòng)，點(diǎn)云到可編輯結(jié)構(gòu)化物體代碼的革新

機(jī)器之心Pro 2025-11-10 15:28:58
0 跟貼 0

77歲「AI教父」Hinton：AI早有意識！我們打造的智能，可能終結(jié)人類文明

新智元 2025-10-11 13:21:31
0 跟貼 0

AAAI 2026｜教會視頻擴(kuò)散模型理解科學(xué):從初始幀生成整個(gè)物理演化

機(jī)器之心Pro 2025-11-17 14:58:03
0 跟貼 0

你急它不急：GPT-5先判斷，再?zèng)Q定「速答」還是「深想」

新智元 2025-11-17 14:14:53
0 跟貼 0

小扎再出奇招：Meta員工績效，AI來評判

量子位 2025-11-17 22:14:13
0 跟貼 0

世界模型==VQA？機(jī)器人不用想象畫面，預(yù)測語義就夠了

機(jī)器之心Pro 2025-10-28 10:14:22
1 跟貼 1

芥末堆梅初九：AI、對公、出海，中國教育科技的大未來

芥末堆看教育 2025-11-17 21:45:18
0 跟貼 0

22 北京師范大學(xué) 陳志新《社會學(xué)與社會工作》第22講

陳志新 2025-11-15 04:04:54
3 跟貼 3

就是個(gè)模型，有啥大驚小怪的

沙雕動(dòng)畫 2025-11-15 15:50:41
0 跟貼 0

科學(xué)家研發(fā)大模型新框架，助力解決RISC-V軟件生態(tài)瓶頸

DeepTech深科技 2025-10-12 19:05:00
0 跟貼 0

楊振寧教授普通物理學(xué)雙語字幕精校版第1講、第2講

清華皓同學(xué) 2025-11-15 05:23:12
0 跟貼 0

交警回應(yīng)放行奔喪摩托：執(zhí)法既要講規(guī)則也應(yīng)保有溫度

北京日報(bào)客戶端 2025-11-17 11:36:12
12147 跟貼 12147

首個(gè)完整開源的生成式推薦框架MiniOneRec，輕量復(fù)現(xiàn)工業(yè)級OneRec

機(jī)器之心Pro 2025-11-17 18:16:26
0 跟貼 0

大學(xué)教授辭職收廢品，一年狂攬300多億

華商韜略 2025-11-06 10:42:15
0 跟貼 0

教授講座崇洋媚外，高中生一把搶過話筒：為中華復(fù)興讀書！

尋藏官 2025-11-17 14:31:50
1 跟貼 1

山村的秘密：“地下水里有金子”，村民大肆盜采地下水，大戶年入上百萬

新京報(bào) 2025-11-17 07:57:25
4826 跟貼 4826

從書桌、智能體到數(shù)字童書：兒童學(xué)習(xí)進(jìn)入「全場景」時(shí)代

多鯨 2025-11-17 21:16:52
0 跟貼 0

0元領(lǐng)玩具！超好玩的邏輯鑰匙，64張題卡引爆孩子專注與觀察力

大米和小米 2025-11-16 18:39:07
0 跟貼 0

教授用20美元告訴了學(xué)生們一個(gè)哲理

鵬哥電影movie 2025-11-17 16:27:09
0 跟貼 0

高端數(shù)學(xué)靠的是天賦，努力沒用

奶桃影視君 2025-11-16 08:04:12
1 跟貼 1

985大學(xué)梁老師的課堂總是激情四射慷慨激昂

梁步閣 2025-11-17 17:44:07
3 跟貼 3

男子不慎將萬元華為手機(jī)掉火坑，手機(jī)功能還可以用

荔枝新聞 2025-11-17 18:39:50
54 跟貼 54

媒體：中國又一電磁彈射艦試航可對日本形成合圍之勢

新民周刊 2025-11-17 09:09:38
3532 跟貼 3532

媽媽是北大教授，強(qiáng)將手下無弱兵，孩子一個(gè)更比一個(gè)強(qiáng)

趣笑小行星 2025-11-17 15:07:42
1 跟貼 1

高志凱教授的絕妙反擊！

男人的情懷 2025-11-14 18:18:55
1 跟貼 1

學(xué)生網(wǎng)購40件演出服7天后成功退貨商家：明顯使用過

每日經(jīng)濟(jì)新聞 2025-11-17 16:51:08
3633 跟貼 3633

看1張成本表，選城市不踩“錢坑”！

郭青松老師 2025-11-15 05:52:50
0 跟貼 0

國冥黨新任發(fā)言人牛煦庭，邏輯清晰，戰(zhàn)力十足！

臺海大林 2025-11-15 09:05:14
0 跟貼 0

戴建業(yè)：尊重愛，比尊重更重要！

禁果核震動(dòng)平行宇宙o 2025-11-17 15:24:44
4 跟貼 4

阿里巴巴“千問”公測首日崩了，用戶稱“入口擁堵”，指令無響應(yīng)，服務(wù)暫不可用

三湘都市報(bào) 2025-11-17 12:43:20
2441 跟貼 2441

叫板美團(tuán)外賣、淘寶閃購！劉強(qiáng)東放大招，京東外賣獨(dú)立APP上線

雷科技 2025-11-17 22:24:19
5 跟貼 5

南馬“島式穿越”獲贊！網(wǎng)友：建議全國推廣！

揚(yáng)子晚報(bào) 2025-11-17 12:30:15
260 跟貼 260

羅布泊驚現(xiàn)神秘干尸，警方偵查后震驚：竟是失蹤58年的志愿功臣
浩渺青史
2025-11-10 16:19:39

張展碩退賽
新京報(bào)
2025-11-17 23:08:46

印軍官：當(dāng)中國武力解放臺灣，印度不僅要奪取西藏，還要吞噬新疆
近史博覽
2025-09-22 15:47:35

涉及朝陽兩個(gè)鄉(xiāng)！這兩街區(qū)迎重大規(guī)劃！
家住朝陽
2025-11-17 18:13:44

她考上鄉(xiāng)鎮(zhèn)編就分手，兩年后我去調(diào)研，她作為擬提拔對象想敬我酒
凱裕說故事
2025-11-17 10:48:06

中國通告全球：黃海中部將連續(xù)三天進(jìn)行實(shí)彈射擊，不予準(zhǔn)入，引發(fā)日、美等國高度關(guān)注
青風(fēng)點(diǎn)評
2025-11-16 11:05:11

“電詐惡魔”陳志在逃！起底他與四川網(wǎng)紅妻子的奢靡浮沉
阿燕姐說育兒
2025-11-17 13:36:56

人均600萬到欠400億，毀掉“天下第一村”的不是別人，是他們自己
一家說
2025-05-23 15:05:58

鐘嘉欣后悔了！放棄林峯嫁丑男的她,花十年時(shí)間看穿丈夫真面目
TVB的四小花
2025-11-17 15:46:31

難頂！南京芳草園，從9.2萬/平跌到2.7萬/平！
黯泉
2025-11-12 12:19:33

G聯(lián)賽首秀的易建聯(lián)，首秀的周琦，首秀的楊瀚森，對比之下看差距
籃球看比賽
2025-11-17 11:46:51

王珞丹這腿，我酸了
小椰的奶奶
2025-11-03 14:33:40

打工皇帝！英格蘭薪資公布：第1名意外，凱恩僅第2，第4踢不上球
小金體壇大視野
2025-11-17 20:23:13

43歲王心凌的“括號臀”又辣又撩，彎腰那一刻，網(wǎng)友：這誰hold得住！
健身迷
2025-10-08 09:57:23

毛主席視察天津時(shí)想見李銀橋，得知他已經(jīng)入獄，偉人只說了2個(gè)字
南書房
2025-09-28 23:01:03

現(xiàn)在的4S 店有多慘，午餐就能看出來
autocarweekly
2025-11-17 14:16:49

晚旗報(bào)：埃及就薩拉赫、馬爾穆什參加非洲杯時(shí)間與紅軍曼城談判
懂球帝
2025-11-17 21:15:25

中方“正面痛撃”宣言震動(dòng)日本！國民不安爆棚，政黨內(nèi)斗添焦慮
小影的娛樂
2025-11-18 01:36:22

連續(xù)兩場40+賽季第4人！馬卡47+7，喬治34分，雙加時(shí)送公牛5連敗
無術(shù)不學(xué)
2025-11-17 12:49:48

機(jī)關(guān)算盡太聰明，離婚13年后再看車曉李兆會，勝者早就不言而喻
小熊侃史
2025-11-18 00:15:46

2025-11-18 03:00:49

知危

投資不立危墻之下

498文章數(shù) 1826關(guān)注度

往期回顧全部

科技要聞

京東外賣要“獨(dú)立” 劉強(qiáng)東還宣戰(zhàn)“點(diǎn)評”

有了通義和夸克，阿里為何再推千問App？

不跟你們卷LLM了！AI教父楊立昆要單飛創(chuàng)業(yè)

雷軍，怒了！剛剛連發(fā)多條微博

誰在炒作全固態(tài)電池？

頭條要聞

該聊聊琉球問題了日本國內(nèi)集體破大防

韓國向日本表示強(qiáng)烈抗議中方表態(tài)

男子起訴女友騙婚：找人扮父母陪嫁存單金條也是假的

中部空軍視頻：槍已上膛劍已出鞘我們時(shí)刻準(zhǔn)備打勝仗

40多萬寶馬跑1年多四條輪胎均現(xiàn)龜裂 4S店拒免費(fèi)更換

頭條要聞

該聊聊琉球問題了日本國內(nèi)集體破大防

韓國向日本表示強(qiáng)烈抗議中方表態(tài)

男子起訴女友騙婚：找人扮父母陪嫁存單金條也是假的

中部空軍視頻：槍已上膛劍已出鞘我們時(shí)刻準(zhǔn)備打勝仗

40多萬寶馬跑1年多四條輪胎均現(xiàn)龜裂 4S店拒免費(fèi)更換

體育要聞

當(dāng)家球星受傷后，球迷樂翻了天？

11秒10！16歲小孩姐稱霸女子100米+破亞洲青年紀(jì)錄北大學(xué)霸排第5

單項(xiàng)第4金+總第5金！全運(yùn)會男子1500米自由泳：張展碩再奪一冠

全運(yùn)會第19金！男子400米混合泳：汪順遞補(bǔ)晉級實(shí)現(xiàn)全運(yùn)四連冠

小孩姐再奪一冠！全運(yùn)會女子400米個(gè)人混合泳：于子迪斬獲第3金

娛樂要聞

金雞獎(jiǎng)是“照妖鏡”，揭露人情冷暖？

離譜！曝成龍舊傷復(fù)發(fā)離世，最新回應(yīng)來了

《他為什么依然單身》嘴賤毒舌網(wǎng)友：出奇的好看

金雞獎(jiǎng)紅毯：詠梅贏麻了？

已婚的周峻緯，冒犯了誰的虛擬男友？

財(cái)經(jīng)要聞

高市早苗的算計(jì)，將讓日本割肉5000億

上市輔導(dǎo)完成函尚待落地，宇樹科技距離A股IPO還有多遠(yuǎn)？

虎嗅【作·嗅之星】周榜第288期

《鬼滅之刃》，喪漫第一IP？

小象超市最快12月中旬開城福州，樸樸外賣幾月后出成績

汽車要聞

新增CDC后變化大嗎？試駕特斯拉model Y L

15萬內(nèi)大5座SUV卷王埃安i60綜合續(xù)航1240km+3C快充

增程+純電雙動(dòng)力埃安i60限時(shí)10.48萬元起

蔚來，領(lǐng)克，魏牌中招，為何空調(diào)噴粉成了業(yè)界普遍問題？

廣汽豐田全新威蘭達(dá)曝光，提供三套動(dòng)力

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

時(shí)尚

旅游

健康

教育

手機(jī)

王妃精致到發(fā)絲，王子直接變禿子

50+姐姐秋冬穿對贏麻了！別硬凹少女感，3個(gè)技巧穿出顯貴感

今年冬天最火的穿法：夾克+褲子，時(shí)髦又減齡！

伊姐周日熱推：電視劇《鳳凰臺上》；電視劇《親愛的X》......

旅游要聞

三亞發(fā)布“四張清單” 全場景守護(hù)旅游旺季玩海安全

大理三塔前有片農(nóng)場栽滿樹球，是這個(gè)秋天最無名的去處，風(fēng)景很美

到瀘沽湖“走婚”，這條300米的水上長橋肯定是要上去一趟的

麗江市區(qū)的最美秋景在中濟(jì)海，讓我意外的是游客很少，什么原因？

血液科專家揭秘白血病七大誤區(qū)

娃得了手足口病咋辦？中疾控提示

立冬后重在“養(yǎng)神”，教你這么養(yǎng)！

冬吃蘿卜夏吃姜！解鎖蘿卜的隱藏吃法

如何降低肥胖引起的癌癥風(fēng)險(xiǎn)？中疾控提示

教育要聞

課后延時(shí)服務(wù)引發(fā)諸多矛盾，該考慮取消了！

今年的留學(xué)生真的慘！

泰安：623名灘區(qū)娃吃上免費(fèi)午餐

“漢語橋”選手們接力演唱周深《小美滿》，一起傾聽中文之美 #世界中文大會

項(xiàng)立剛說英語好邏輯思維能力會退化，本質(zhì)上是做愛國生意

手機(jī)要聞

華為第一款Pro Max！華為Mate 80 Pro Max四色官圖公布

消息稱華為Mate 80 Pro手機(jī)尺寸很友好，與70標(biāo)準(zhǔn)版相近

榮耀500系列突然官宣：外觀、配置基本清晰，11月24日發(fā)布

麒麟9030處理器罕見上熱搜：極好，極沸騰！

手機(jī) / 數(shù)碼

房產(chǎn) / 家居

我們找到3位大學(xué)教授，聊了聊越來越嚴(yán)重的AI幻覺

京東外賣要“獨(dú)立” 劉強(qiáng)東還宣戰(zhàn)“點(diǎn)評”

該聊聊琉球問題了 日本國內(nèi)集體破大防

該聊聊琉球問題了 日本國內(nèi)集體破大防

當(dāng)家球星受傷后，球迷樂翻了天？

金雞獎(jiǎng)是“照妖鏡”，揭露人情冷暖？

高市早苗的算計(jì)，將讓日本割肉5000億

新增CDC后變化大嗎？ 試駕特斯拉model Y L

態(tài)度原創(chuàng)

王妃精致到發(fā)絲，王子直接變禿子

血液科專家揭秘白血病七大誤區(qū)

課后延時(shí)服務(wù)引發(fā)諸多矛盾，該考慮取消了！

華為第一款Pro Max！華為Mate 80 Pro Max四色官圖公布

我們找到3位大學(xué)教授，聊了聊越來越嚴(yán)重的AI幻覺

該聊聊琉球問題了日本國內(nèi)集體破大防

該聊聊琉球問題了日本國內(nèi)集體破大防

當(dāng)家球星受傷后，球迷樂翻了天？

金雞獎(jiǎng)是“照妖鏡”，揭露人情冷暖？

高市早苗的算計(jì)，將讓日本割肉5000億

新增CDC后變化大嗎？試駕特斯拉model Y L

王妃精致到發(fā)絲，王子直接變禿子

課后延時(shí)服務(wù)引發(fā)諸多矛盾，該考慮取消了！

華為第一款Pro Max！華為Mate 80 Pro Max四色官圖公布