夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

從模仿到自我進化,谷歌DeepMind發(fā)布下一代機器人基礎(chǔ)模型的訓練新范式

0
分享至

具身基礎(chǔ)模型(Embodied Foundation Models, EFMs)是機器人領(lǐng)域的核心驅(qū)動力,它們的目標是像大型語言模型(LLMs)之于自然語言一樣,成為機器人感知、推理與行動的通用底座。

早期的機器人學習多依賴單任務(wù)模仿學習——讓機器人在特定場景中重復人類演示的動作。然而,這種方法的局限顯而易見:一旦任務(wù)或環(huán)境發(fā)生變化,模型往往需要從零開始訓練。

隨著多模態(tài)感知與大規(guī)模數(shù)據(jù)集的興起,EFMs 開始向多任務(wù)、多模態(tài)預訓練演進。它們不僅能處理視覺、語言、動作等多種輸入,還能在不同任務(wù)間遷移知識。

這一趨勢與 LLM 的發(fā)展路徑高度相似:先通過海量數(shù)據(jù)進行預訓練,再通過后訓練(post-training)適配特定任務(wù)。

在 LLM 領(lǐng)域,監(jiān)督微調(diào)(SFT)+ 人類反饋強化學習(RLHF)的兩階段范式已被證明能顯著提升模型的實用性與安全性。然而,機器人領(lǐng)域的EFMs 仍大多停留在 SFT 階段,缺乏類似 RLHF 的后訓練強化環(huán)節(jié)。

這背后有三個核心瓶頸:

  • 缺乏后訓練強化環(huán)節(jié):機器人模型在模仿學習后往往直接部署,錯失了通過交互進一步優(yōu)化的機會。

  • 獎勵函數(shù)設(shè)計困難:現(xiàn)實世界的任務(wù)目標復雜多變,人工設(shè)計獎勵函數(shù)既費時又容易引入偏差。

  • 真實環(huán)境獎勵測量成本高:在物理世界中評估任務(wù)完成度需要傳感器、人工標注或復雜的檢測系統(tǒng),成本與延遲都很高。

正是在這樣的背景下,谷歌DeepMind最近提出了一個大膽的設(shè)想:借鑒 LLM 的兩階段后訓練模式,讓機器人具備自我改進(Self-Improvement)的能力。通過一種無需人工獎勵工程的機制,機器人可以在真實環(huán)境中自主收集數(shù)據(jù)、評估表現(xiàn),并不斷優(yōu)化策略。


值得一提的是,這項工作由Google DeepMind 與 Generalist AI 的頂尖團隊聯(lián)合完成,技術(shù)陣容包括 Seyed Kamyar Seyed Ghasemipour、Ayzaan Wahid、Jonathan Tompson、Pannag Sanketi 和 Igor Mordatch——他們在機器人基礎(chǔ)模型、多模態(tài)學習、強化學習和大規(guī)模平臺建設(shè)方面都有深厚積累。這不僅是技術(shù)上的一次突破,也被視為 Google DeepMind 在年度機器人研究中的重磅之作。

01

方法框架總覽

這項研究的核心是一個兩階段后訓練流程,旨在將 EFMs 從“會模仿”提升到“會自我優(yōu)化”。


圖1:技術(shù)團隊提出的兩階段微調(diào)方法概述。

第一階段是監(jiān)督微調(diào)(Supervised Fine-Tuning, SFT)。在這一階段,模型基于人類演示數(shù)據(jù)進行訓練,不僅學習在給定觀測和目標下輸出正確動作,還同時預測一個名為Steps-to-Go 的量——即完成任務(wù)還需要多少步。這一額外預測任務(wù)為后續(xù)的自我改進提供了關(guān)鍵信號。

第二階段是自我改進(Self-Improvement),本質(zhì)上是一次在線強化學習過程。不同于傳統(tǒng) RL 依賴人工設(shè)計的獎勵函數(shù),這里直接利用模型在 SFT 階段學到的 Steps-to-Go 預測來構(gòu)造獎勵:如果執(zhí)行某個動作后,預測的剩余步數(shù)減少了,就給正獎勵;反之則給負獎勵。同時,Steps-to-Go 也充當了成功檢測器——當預測步數(shù)低于某個閾值時,任務(wù)被判定為完成。

這種設(shè)計的妙處在于,它完全繞過了人工獎勵工程的難題,讓機器人能夠在真實環(huán)境中自動生成可用的獎勵信號,并且可以擴展到多臺機器人并行執(zhí)行。換句話說,這是一種可擴展的自我改進機制:模型先通過模仿學習掌握基本技能,再通過與環(huán)境的交互不斷打磨策略,最終實現(xiàn)性能與泛化能力的雙提升。

02

階段一:監(jiān)督微調(diào)(SFT——為自我改進打下地基

在這套“自我升級”的兩階段流程中,監(jiān)督微調(diào)(Supervised Fine-Tuning, SFT)是整個體系的地基。它的任務(wù)不僅是讓模型學會“照葫蘆畫瓢”,更是為后續(xù)的自我改進階段埋下關(guān)鍵的信號源。

研究團隊首先準備了一個模仿學習數(shù)據(jù)集DD,其中包含了大量人類或高性能策略在不同任務(wù)中的演示軌跡。每條數(shù)據(jù)都由一系列時間步組成,每個時間步包含觀測 oto_t(例如攝像頭畫面、傳感器讀數(shù))、目標 gg(可能是語言描述、目標位置或任務(wù)指令),以及對應(yīng)的動作ata_t(機械臂關(guān)節(jié)角度、末端執(zhí)行器控制信號等)。

與傳統(tǒng)的行為克隆不同,這里模型的輸出不僅包括動作at,還要額外預測一個量——Steps-to-Go。這個預測值代表模型認為從當前狀態(tài)到達目標還需要多少步操作。換句話說,模型在執(zhí)行動作的同時,還在心里默默數(shù)著“離終點還有幾步”。

訓練目標因此變成了“雙線并行”:

  • 行為克?。˙C)部分,依然是經(jīng)典的最大化條件概率 P(at∣ot,g),確保模型在給定觀測和目標時能輸出與演示一致的動作。

  • Steps-to-Go 預測部分,則是一個回歸任務(wù),要求模型盡可能準確地估計剩余步數(shù)。這一預測并不會直接影響動作輸出,但它將在第二階段的獎勵構(gòu)造中發(fā)揮決定性作用。

這種設(shè)計的巧妙之處在于,Steps-to-Go 預測天然具備兩種能力: 一是提供密集獎勵信號。在真實環(huán)境中,獎勵往往是稀疏的——只有任務(wù)完成時才有明確反饋。而 Steps-to-Go 的變化可以在每一步都給出“離目標更近了還是更遠了”的即時評價。 二是充當成功檢測器。當預測的剩余步數(shù)低于某個閾值時,就可以判定任務(wù)已經(jīng)完成,無需額外的人工標注或復雜的傳感器判斷。

因此,SFT 階段不僅讓模型學會了模仿,還賦予了它一種“自我感知進度”的能力。這種能力將在下一階段被轉(zhuǎn)化為自我改進的驅(qū)動力,讓機器人在沒有人工獎勵工程的情況下,也能在真實世界中不斷打磨自己的技能。

03

階段二:自我改進(Self-Improvement——讓機器人學會打磨自己

如果說監(jiān)督微調(diào)(SFT)是為機器人打下了“會做事”的基礎(chǔ),那么自我改進階段就是賦予它“會反思、會進步”的能力。這一步的核心,是讓機器人在沒有人工獎勵工程的情況下,依靠自身的預測信號去評估和優(yōu)化行為。

研究團隊的關(guān)鍵突破在于獎勵構(gòu)造機制。他們沒有為每個任務(wù)手工設(shè)計復雜的獎勵函數(shù),而是直接利用 SFT 階段學到的 Steps-to-Go 預測來生成獎勵。公式非常簡潔:

這里 d(o,g) 表示模型預測的“剩余步數(shù)”。如果執(zhí)行某個動作后,預測的剩余步數(shù)減少了,說明離目標更近了,獎勵為正;反之則為負。這種獎勵塑形方式天然與任務(wù)進度掛鉤,不需要額外的人工干預。

與此同時,Steps-to-Go 還承擔了成功檢測的角色。當預測的剩余步數(shù)低于某個閾值 s 時,系統(tǒng)就判定任務(wù)完成。這意味著機器人可以在沒有外部傳感器或人工標注的情況下,自主判斷自己是否成功完成了任務(wù)。


圖2:Aloha單次插入任務(wù)的示例軌跡和表示模型預測(即d(o,g))下E[要走的步數(shù)]的圖。關(guān)鍵時刻:1)模型認為事件即將成功完成,2)政策意外地放棄了掛鉤,d(o,g)增加,3)政策從不適合插入的壞角度重新調(diào)整掛鉤,因此d(o、g)保持高位,4)政策放棄掛鉤,提供了正確重新調(diào)整掛鉤的機會,從而減少了d(o,g),5)政策將掛鉤向內(nèi)推,d(o、g)標志著政策即將成功,6)右手將插座從左手的握把中敲出,這增加了d(0、g)。

在強化學習算法的選擇上,團隊刻意追求穩(wěn)定性而非極限性能。他們采用了On-policy REINFORCE方法,不引入值函數(shù),也不做數(shù)據(jù)重用。雖然這種策略在樣本效率上不如一些離策略方法,但它的梯度估計更穩(wěn)定,尤其適合在真實機器人上進行在線訓練,避免策略震蕩帶來的風險。

更令人印象深刻的是,這套自我改進機制可以多機器人并行運行。在實驗中,單個操作者就能同時監(jiān)控多臺機器人,它們各自執(zhí)行任務(wù)、采集數(shù)據(jù)、更新策略。整個過程幾乎不需要人工干預,形成了一個可擴展的、自我驅(qū)動的學習閉環(huán)。

04

理論分析與直覺

這套自我改進機制的理論基礎(chǔ),核心在于一種巧妙的獎勵塑形(Reward Shaping)。傳統(tǒng)的強化學習中,如果獎勵信號稀疏,策略往往會在探索中迷失方向。

而這里的獎勵直接來源于 Steps-to-Go 的變化——它天然地引導策略向著任務(wù)完成的方向前進,同時又不會讓機器人偏離在監(jiān)督微調(diào)(BC)階段已經(jīng)掌握的“安全區(qū)”。換句話說,策略被溫和地“牽引”在 BC 擅長的狀態(tài)空間附近,既能探索新路徑,又不至于走向災(zāi)難性失敗。


圖3:上圖展示了模型在第一階段從逐步預測目標中學習到的復雜細節(jié)水平。每個圖都捕捉到了Aloha Single Insertion任務(wù)推出中的一個有趣時刻。每個都由5個連續(xù)的幀組成,在每個幀的下方,我們可視化了模型對成功前步驟的預測概率分布。x軸表示要執(zhí)行的步驟數(shù),y軸表示概率質(zhì)量。在第一幀中,策略即將成功插入掛鉤并完成任務(wù),因此模型預測策略很可能很快就會成功。

在下一個框架中,該政策過早地放開了掛鉤,掛鉤即將下降。因此,考慮到從快速恢復到較長恢復時間的可能性范圍,預測的步驟急劇擴大為多峰分布。隨著政策在第四和第五幀中的復蘇,模型的預測范圍縮小到單峰分布,在短期內(nèi)成功的可能性很高。底部在前兩個框架中,策略有望成功完成任務(wù),因此模型預測策略很可能很快就會成功。

在第三幀中,插座開始從左夾具中滑出。盡管這種滑動在左腕相機上幾乎不可見,在任何其他相機視圖中都不可見,但該模型立即捕捉到了這一事件,并且其預測在多種模式下顯著擴大。具體來說,該模型將一些概率質(zhì)量放在立即保存上,并將剩余的概率質(zhì)量分布在一系列可能的恢復時間內(nèi)。在第四和第五幀中,插槽完全滑出夾具,因此該模型消除了即時保存結(jié)果的概率質(zhì)量。

另一個關(guān)鍵優(yōu)勢是低方差基線。在 REINFORCE 這樣的策略梯度方法中,梯度估計的方差往往是穩(wěn)定性的最大敵人。Steps-to-Go預測在這里不僅是獎勵的來源,還能作為一種天然的基線,顯著降低梯度估計的波動,讓訓練過程更加平滑可控。

這對于真實機器人尤為重要,因為策略不穩(wěn)定意味著機械臂可能會做出不可預測甚至危險的動作。

更有意思的是,這種方法具備很強的狀態(tài)敏感性。由于 Steps-to-Go 是直接從視覺和任務(wù)目標中預測出來的,它能夠捕捉到那些人類肉眼也許會忽略的細微變化——比如物體在抓取過程中輕微滑落、推塊的角度偏差、插銷任務(wù)中姿態(tài)的微小錯位。這種敏感性讓獎勵信號更精準,也讓策略優(yōu)化更高效。


圖4:點群導航域。來自模仿學習數(shù)據(jù)集的樣本軌跡,以及BC(第一階段)和自我改進(第二階段)策略。

05

實驗設(shè)計

為了驗證方法的有效性,研究團隊在多個平臺和任務(wù)上進行了系統(tǒng)評估。

LanguageTable 是一個單臂推塊任務(wù)平臺,機器人需要根據(jù)語言指令將彩色方塊推到指定位置。這類任務(wù)考驗的是視覺理解、語言解析與低層控制的協(xié)同能力。

Aloha 則是一個雙臂插銷任務(wù)平臺,涉及精細的雙手協(xié)調(diào)與高精度操作,難度顯著高于單臂任務(wù)。

BananaTable 是一個泛化測試場景,引入了模型在訓練中從未見過的物體——香蕉。機器人不僅要完成推送任務(wù),還要學會應(yīng)對香蕉這種容易滾動、旋轉(zhuǎn)的特殊形狀。這是對模型跨物體泛化能力的直接考驗。

在數(shù)據(jù)規(guī)模上,團隊設(shè)置了多種比例的模仿數(shù)據(jù)(10%、20%、80%),并在此基礎(chǔ)上對比了單純的 BC 與 BC+Self-Improvement 的表現(xiàn)差異。同時,他們還測試了不同的預訓練初始化方式,包括多模態(tài)預訓練的 PaLI、單模態(tài)的 Uni-PaLI,以及完全隨機初始化(Scratch),以評估預訓練對自我改進效果的影響。


圖5:第二階段自我提升結(jié)果。

Orange:第一階段行為克隆策略(相當于RT2基線(Brohan等人,2023))。藍色:第二階段在線自我提升后的政策,只需要少量的額外劇集。模擬和真實LanguageTable以及Aloha域的結(jié)果表明,我們提出的兩階段后訓練方法比單獨的監(jiān)督學習具有更高的成功率和樣本效率。

我們的Real2Sim LanguageTable,特別是BananaTable的結(jié)果表明,我們將在線自我提升和網(wǎng)絡(luò)規(guī)模的預培訓相結(jié)合,使政策能夠快速獲得遠遠超出第一階段模仿學習數(shù)據(jù)集的新技能。隨機種子之間的差異很小,突顯了我們方法的穩(wěn)健性。以上值是3顆種子的平均值。雖然第一階段LanguageTable數(shù)據(jù)集包含不同的任務(wù),但為了公平起見,上述LanguageTable圖中的x計算了Block2Block發(fā)作的次數(shù)(占完整模仿學習數(shù)據(jù)集中Block2Block總發(fā)作次數(shù)的百分比)。

評估維度涵蓋了四個方面:

  • 性能提升:在相同數(shù)據(jù)量下,BC+Self-Improvement 是否優(yōu)于單純 BC。

  • 樣本效率:在有限的額外在線數(shù)據(jù)下,性能提升的幅度有多大。

  • 真實機器人可行性:方法在物理環(huán)境中是否穩(wěn)定、安全且可擴展。

  • 泛化能力:不僅包括跨域(如 Real2Sim 遷移),還包括對全新技能和新物體的適應(yīng)能力。

這樣的實驗設(shè)計既覆蓋了從模擬到真實的全鏈路驗證,又在任務(wù)類型、數(shù)據(jù)規(guī)模和初始化條件上做了充分的對照,確保結(jié)論具有說服力和推廣性。

06

實驗結(jié)果與分析


圖6:語言表環(huán)境。左圖:用于我們現(xiàn)實世界實驗的四個LanguageTable機器人站。右,現(xiàn)實世界LanguageTable機器人站的頂部攝像頭視圖。右,模擬LanguageTable機器人站的底部攝像頭視圖。

從實驗數(shù)據(jù)來看,這套“自我升級”機制的表現(xiàn)可以用一句話概括——少量在線強化學習數(shù)據(jù),就能換來成倍的性能提升。在 LanguageTable 這樣的單臂推塊任務(wù)中,研究團隊只額外采集了不到 2% 的在線 RL 數(shù)據(jù),成功率就從 45% 飆升到75%,而如果單純增加 8 倍的模仿數(shù)據(jù),成功率也只能提升到60% 左右。

這種效率差異在真實機器人上同樣成立:僅用 20% 的模仿數(shù)據(jù),加上 3% 的自我改進數(shù)據(jù),就能達到接近 88% 的成功率,甚至超過了用 80% 模仿數(shù)據(jù)訓練的基線模型。


圖7:模擬Aloha單次插入任務(wù)中的四個攝像頭視圖。

這種趨勢在更復雜的 Aloha 雙臂插銷任務(wù)中依然明顯。5K 條模仿數(shù)據(jù)加上 2.5K 條自我改進數(shù)據(jù),性能就超過了單純 10K 條模仿數(shù)據(jù)的模型,并接近 15K 條模仿數(shù)據(jù)的水平。這意味著,自我改進不僅能節(jié)省數(shù)據(jù)采集成本,還能在相同數(shù)據(jù)預算下獲得更高的性能上限。


圖8:左消融結(jié)果表明,基礎(chǔ)模型的網(wǎng)絡(luò)規(guī)模預訓練對于實現(xiàn)有效的第2階段訓練至關(guān)重要,特別是在小數(shù)據(jù)集規(guī)模的情況下。正確的“成功率”

在LanguageTable Real2Sim域轉(zhuǎn)移任務(wù)的第二階段自我改進期間繪制。與Uni-PaLI模型相比,PaLI模型的獎勵標簽顯著加快了自我提升。

預訓練的重要性在消融實驗中被凸顯得淋漓盡致。多模態(tài)預訓練的 PaLI 初始化在低數(shù)據(jù)量下的表現(xiàn)顯著優(yōu)于單模態(tài)的 Uni-PaLI,更是遠遠甩開了隨機初始化(Scratch)。這說明,預訓練不僅是加速收斂的“助推器”,更是讓自我改進階段有的放矢的“導航儀”。

泛化能力的測試同樣令人印象深刻。在 Real2Sim 遷移實驗中,研究團隊先在真實機器人上訓練,再將模型遷移到模擬環(huán)境進行自我改進,僅用 3% 的額外數(shù)據(jù),成功率就從 22% 提升到 59%。在 BananaTable 任務(wù)中,機器人面對從未見過的香蕉物體,最初的推送策略很容易讓香蕉滾動或旋轉(zhuǎn),但經(jīng)過 8 小時的自我改進,成功率從 63% 提升到 85%,并且學會了新的推法——先調(diào)整角度防止旋轉(zhuǎn),再穩(wěn)步推進。

可視化分析揭示了這些性能提升背后的行為變化。自我改進后的機器人在動作上更加穩(wěn)健,能夠主動修正偏差,甚至在物體出現(xiàn)輕微滑落時及時調(diào)整抓取姿態(tài)。這種細膩的狀態(tài)感知和策略調(diào)整,正是 Steps-to-Go 獎勵機制帶來的直接收益。

07

創(chuàng)新點總結(jié)

這項技術(shù)的最大亮點之一,是徹底擺脫了人工獎勵工程。通過在 SFT 階段引入 Steps-to-Go 預測,研究團隊讓機器人在自我改進階段可以直接利用自身的進度感來生成獎勵和成功信號,省去了繁瑣的任務(wù)特定獎勵設(shè)計。

其次是高樣本效率。相比單純擴充模仿數(shù)據(jù),自我改進能用極少的在線數(shù)據(jù)換來更大的性能提升,這對于真實機器人訓練尤其重要,因為現(xiàn)實世界的數(shù)據(jù)采集成本遠高于模擬環(huán)境。

第三個亮點是泛化能力。無論是跨域遷移(Real2Sim),還是面對全新物體與技能,機器人都能在短時間內(nèi)適應(yīng)并優(yōu)化策略。這種能力意味著模型不僅能“學會”,還能“學會學習”。

最后,這套方法具備可擴展的多機器人自我改進特性。單個操作者可以同時管理多臺機器人,它們各自采集數(shù)據(jù)、更新策略,形成一個分布式的、自我驅(qū)動的學習網(wǎng)絡(luò)。這為未來大規(guī)模機器人群體的自主進化提供了可行路徑。(END)

參考資料:https://arxiv.org/abs/2509.15155


關(guān)于波動智能——

波動智能旨在建立一個基于人類情緒與反應(yīng)的真實需求洞察及滿足的價值體系,融合人工智能與意識科學,構(gòu)建覆蓋情緒識別、建模與推薦的智能引擎,自主研發(fā)面向社交、電商等場景的多模態(tài)情緒識別引擎、情緒標簽系統(tǒng)及情緒智能推薦算法,形成從情緒采集、建模到商業(yè)轉(zhuǎn)化的完整解決方案。波動智能提出“情緒是連接人、物與內(nèi)容的新型接口”,其產(chǎn)品廣泛應(yīng)用于AI社交、個性化內(nèi)容推薦、虛擬陪伴、電商體驗優(yōu)化等領(lǐng)域。波動智能正在探索“EMO-as-a-Service”技術(shù)服務(wù)架構(gòu),賦能企業(yè)實現(xiàn)更高效的用戶洞察與精準情緒交互,推動從功能驅(qū)動到情感驅(qū)動的產(chǎn)業(yè)范式升級。

親愛的人工智能研究者,為了確保您不會錯過*波動智能*的最新推送,請星標*波動智能*。我們傾心打造并精選每篇內(nèi)容,只為為您帶來啟發(fā)和深思,希望能成為您理性思考路上的伙伴!

加入AI交流群請掃碼加微信

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
鄧小平去世那天,患老年癡呆癥的97歲繼母夏伯根突然開始不吃不喝

鄧小平去世那天,患老年癡呆癥的97歲繼母夏伯根突然開始不吃不喝

大運河時空
2025-10-09 22:56:41
預支1萬救母被拒后,我再沒焊特種鋼,老板急了:外貿(mào)訂單點名要

預支1萬救母被拒后,我再沒焊特種鋼,老板急了:外貿(mào)訂單點名要

浮生實錄集
2025-10-18 19:05:03
楊振寧退休26年石溪大學一直為他保留辦公室,中國留學生凌晨到辦公室門口獻花緬懷:晚安教授,睡個好覺

楊振寧退休26年石溪大學一直為他保留辦公室,中國留學生凌晨到辦公室門口獻花緬懷:晚安教授,睡個好覺

極目新聞
2025-10-18 19:53:01
花70萬開店,3個月就倒閉!縣城中產(chǎn)的“破產(chǎn)三件套”,它排第一

花70萬開店,3個月就倒閉!縣城中產(chǎn)的“破產(chǎn)三件套”,它排第一

百態(tài)人間
2025-10-09 10:06:18
尾號“8888888”手機號拍出127萬余元,工作人員:拍完不要會罰沒5萬元保證金

尾號“8888888”手機號拍出127萬余元,工作人員:拍完不要會罰沒5萬元保證金

極目新聞
2025-10-19 16:35:18
51歲貝嫂打臉現(xiàn)場!每年虧損1億,強撐有錢人設(shè),用盡了所有力氣

51歲貝嫂打臉現(xiàn)場!每年虧損1億,強撐有錢人設(shè),用盡了所有力氣

說歷史的老牢
2025-10-13 13:22:01
美國關(guān)稅壁壘失靈!對華逆差擴13%,中國出口依賴度跌破10%

美國關(guān)稅壁壘失靈!對華逆差擴13%,中國出口依賴度跌破10%

肖茲探秘說
2025-10-19 19:25:43
26款寶馬X5已上市,售價終于來到50萬了!

26款寶馬X5已上市,售價終于來到50萬了!

米粒說車唯一呀
2025-10-17 14:39:26
他是頂級騙子,掌摑省級官員,拍省委書記桌子,操縱一省官員升遷

他是頂級騙子,掌摑省級官員,拍省委書記桌子,操縱一省官員升遷

極品小牛肉
2024-01-24 10:09:24
蘇超最大黑馬?外界被蘇超常規(guī)賽排名騙了,泰州隊請雇傭兵花得值

蘇超最大黑馬?外界被蘇超常規(guī)賽排名騙了,泰州隊請雇傭兵花得值

中國足球的那些事兒
2025-10-19 00:20:22
埃及不買了,印尼不買了,泰國也不買了,怎么這事像是在玩一樣?

埃及不買了,印尼不買了,泰國也不買了,怎么這事像是在玩一樣?

百態(tài)人間
2025-10-07 15:01:34
海哈金喜父親炮轟女婿:句句不提李亞鵬、句句都是李亞鵬

海哈金喜父親炮轟女婿:句句不提李亞鵬、句句都是李亞鵬

一盅情懷
2025-10-19 15:07:35
領(lǐng)導調(diào)整!涉及江蘇三所院校!

領(lǐng)導調(diào)整!涉及江蘇三所院校!

微淮安
2025-10-19 19:28:34
國防部暗示統(tǒng)一進程!美承認喪失軍事優(yōu)勢,為“棄臺”做最后準備

國防部暗示統(tǒng)一進程!美承認喪失軍事優(yōu)勢,為“棄臺”做最后準備

輝輝歷史記
2025-10-16 13:42:16
為什么感覺義烏大勢已去網(wǎng)友回答說出大實話了

為什么感覺義烏大勢已去網(wǎng)友回答說出大實話了

小陸搞笑日常
2025-10-19 11:04:10
以色列遠程精準打擊,胡塞武裝徹底服軟,技術(shù)優(yōu)勢碾壓數(shù)量規(guī)模

以色列遠程精準打擊,胡塞武裝徹底服軟,技術(shù)優(yōu)勢碾壓數(shù)量規(guī)模

井普椿的獨白
2025-10-18 15:57:43
網(wǎng)友烏鎮(zhèn)戲劇節(jié)偶遇薇婭,穿搭太吸睛!秋冬照搬,文藝又時髦

網(wǎng)友烏鎮(zhèn)戲劇節(jié)偶遇薇婭,穿搭太吸睛!秋冬照搬,文藝又時髦

蓓小西
2025-10-19 19:39:13
吳石最大的敵人,不是谷正文和蔡孝乾,而是他的頂頭上司!他是誰

吳石最大的敵人,不是谷正文和蔡孝乾,而是他的頂頭上司!他是誰

凡人侃史
2025-10-18 22:21:14
中國偏偏不讓出港口,19國軍隊堵門,導彈都架好了,倒逼中方讓步

中國偏偏不讓出港口,19國軍隊堵門,導彈都架好了,倒逼中方讓步

一個有靈魂的作者
2025-07-26 08:38:25
中學高級教師專技五級,退休1年后2025年10月養(yǎng)老金核算能有多少

中學高級教師專技五級,退休1年后2025年10月養(yǎng)老金核算能有多少

小陸搞笑日常
2025-10-19 13:25:44
2025-10-19 20:36:49
人工智能學家 incentive-icons
人工智能學家
人工智能領(lǐng)域權(quán)威媒體
4258文章數(shù) 37328關(guān)注度
往期回顧 全部

科技要聞

獨家|楊振寧:最頂尖的學生不是教出來的

頭條要聞

機艙行李架上鋰電池自燃 國航公布賠償方案

頭條要聞

機艙行李架上鋰電池自燃 國航公布賠償方案

體育要聞

正在爆火的"拼好球" 馬斯克和樊振東也在玩

娛樂要聞

竇驍婚變升級!何超蓮被曝已有新歡

財經(jīng)要聞

星巴克中國股權(quán)出售進入倒計時

汽車要聞

最高15000元兜底 智界R7/S7推出購置稅補貼方案

態(tài)度原創(chuàng)

本地
手機
時尚
親子
公開課

本地新聞

考上警犬專業(yè),我和修勾一起卷編制

手機要聞

華為 nova Flip / Flip S 手機不同形態(tài)外放音樂,音效會相應(yīng)變化

2026手帳來了,因為它我實現(xiàn)了好多心愿

親子要聞

過來人的忠告:別輕易和同學媽媽走得太近

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版 日韩在线观看精品亚洲| 无码精品免费| 国产99久久久精品无码| 久久久久久久久无码| 美国少妇黄色视频网站?| 久久久久综合狠狠观看| 亚洲 都市 无码 校园 激情| 精品三级国产精品经典三| 狠狠躁18三区二区一区ai明星| 一个女人久久久久久久十八| 美女午夜免费福利视频| 少妇被又大又粗又爽毛片久久黑人| 成人无码激情视频| 欧美丰满多毛少妇XXXX| 亚洲无码直播| 亚洲偷偷自拍码高清视频| 成 人色 网 站 欧美大片| 午夜精品久久久久久久99热| 国产精品久久久久久久久绿色| 人人爱视频播放| 毛茸茸的亚洲女人| 亚洲国产精品一区二区制服| 大陆无码人妻| 蜜臀av无码久久精品色欲动慢画| 丝诱惑视频一区| 久久不见久久见免费影院| 久草青春视频| 久久无码性爱| 精品国产女同疯狂摩擦2| 亚洲无码视频一区| 精品秘书少妇一区二区三区免费观 | 色婷婷综合久久久中字幕精品久久| www.夜夜操.com| 人人妻人人澡人人人爽人人DVD| 最近中文字幕在线中文视频| 欧美色色色色包色| 国产精品久久久天天影视香蕉| 挺进老妇女老女人老妇| 女人 精69XXX免费网站| 日韩精品福利视频在线观看| 无码精品人妻|