夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Flash Attention作者最新播客:英偉達(dá)GPU統(tǒng)治三年內(nèi)將終結(jié)

0
分享至

henry 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI

英偉達(dá)還能“猖狂”多久?——不出三年!

實(shí)現(xiàn)AGI需要新的架構(gòu)嗎?——不用,Transformer足矣!

“近幾年推理成本下降了100倍,未來還有望再降低10倍!”

這些“暴論”,出自Flash Attention的作者——Tri Dao



在最新播客《Unsupervised Learning》中,Tri Dao分享了對GPU市場、推理成本、模型架構(gòu)以及AI未來趨勢的深度洞察,并針對上述“暴論”展開了有理有據(jù)的分析:

  • 未來2-3年內(nèi),隨著針對不同工作負(fù)載類別的專用芯片出現(xiàn)——包括低延遲的智能體系統(tǒng)、高吞吐量的批量處理以及互動(dòng)式聊天機(jī)器人——AI硬件格局將從NVIDIA當(dāng)前約90%的主導(dǎo)地位,轉(zhuǎn)向更加多元化的生態(tài)系統(tǒng)。
  • MoE架構(gòu)、推理優(yōu)化、模型量化、模型架構(gòu)和硬件的協(xié)同設(shè)計(jì)等技術(shù)促成了模型推理成本的下降。
  • 未來將會出現(xiàn)三類工作負(fù)載模式:傳統(tǒng)聊天機(jī)器人、極低延遲場景、大規(guī)模批處理/高吞吐場景,硬件供應(yīng)商可以針對不同的工作負(fù)載做出相應(yīng)的優(yōu)化。

Tri Dao不僅是Flash Attention的作者,而且還是Mamba的作者之一。

同時(shí),他也是TogetherAI的首席科學(xué)家、普林斯頓大學(xué)教授。

《Semi Analysis》曾盛贊他在英偉達(dá)生態(tài)中的貢獻(xiàn),是其護(hù)城河的重要組成部分。



可以說,他對硬件市場以及AI硬件未來發(fā)展的判斷極具參考價(jià)值。

接下來,就和我們一起看看吧!

訪談全文整理如下:

(注:為方便閱讀,調(diào)整了部分語氣詞和過渡)

訪談內(nèi)容

Nvidia 的主導(dǎo)地位及其競爭者

Q:在英偉達(dá)生態(tài)體系,比如芯片層面或者GPU系統(tǒng)整合方面,會看到新的競爭者嗎?

Tri Dao:我確實(shí)花了不少時(shí)間思考芯片,我認(rèn)為當(dāng)然會有很多競爭者進(jìn)入這個(gè)領(lǐng)域。

AMD已經(jīng)在這里很久了。英偉達(dá)之所以占據(jù)主導(dǎo),有幾個(gè)原因:他們設(shè)計(jì)了非常好的芯片,同時(shí)也做出了很好的軟件,這形成了一個(gè)完整的生態(tài),讓大家在此基礎(chǔ)上開發(fā)更多的軟件。但我認(rèn)為,隨著工作負(fù)載(work load)逐漸集中在特定架構(gòu)上,比如Transformer、MoE等,設(shè)計(jì)適配這種工作負(fù)載的芯片會變得更容易。

在推理端,AMD有一些優(yōu)勢,比如更大的內(nèi)存,現(xiàn)在我們已經(jīng)開始看到一些團(tuán)隊(duì)在嘗試。在訓(xùn)練端則更困難一些,網(wǎng)絡(luò)通信(networking)是主要瓶頸,而英偉達(dá)在這方面仍然領(lǐng)先。

但人們已經(jīng)理解了:打造優(yōu)秀訓(xùn)練芯片的挑戰(zhàn)是什么,打造優(yōu)秀推理芯片的挑戰(zhàn)又是什么。最后比拼的就是執(zhí)行力。所以我會說,這是一個(gè)非常令人興奮的領(lǐng)域。我和很多在設(shè)計(jì)新芯片的人交流過,無論是推理還是訓(xùn)練。

我預(yù)計(jì)未來幾年,部分工作負(fù)載會進(jìn)入“多芯片”時(shí)代,不會像現(xiàn)在這樣90%都在英偉達(dá)上運(yùn)行,而是會跑在不同的芯片上。

Jacob Effron:你認(rèn)為當(dāng)前的架構(gòu)是否已經(jīng)足夠穩(wěn)定,可以支撐對未來兩三年推理和訓(xùn)練工作負(fù)載的長期押注,還是說目前仍存在不確定性,各家初創(chuàng)企業(yè)和公司各自下注,最終可能只有一兩家脫穎而出?

Tri Dao:我認(rèn)為在架構(gòu)層面,從宏觀來看,好像已經(jīng)在Transformer上趨于穩(wěn)定。

但如果你仔細(xì)看,會發(fā)現(xiàn)其實(shí)還在發(fā)生很多變化。

最近這兩年最顯著的就是Mixture of Experts(MoE)。它讓模型變得更大,參數(shù)更多,但計(jì)算是稀疏的。

這帶來一些權(quán)衡,比如需要更多內(nèi)存,但計(jì)算量可能相對更小。

對一些芯片制造商來說,這會增加難度,因?yàn)樗麄兛赡茉臼轻槍Τ砻苣P驮O(shè)計(jì)的,計(jì)算分布很均勻,而現(xiàn)在要面對稀疏計(jì)算,設(shè)計(jì)起來更復(fù)雜。

再比如attention已經(jīng)存在十多年了,但至今仍在不斷演變,這其實(shí)會讓一些事情變得困難。

像DeepSeek就提出了一種multi-head latent attention,它和傳統(tǒng)的attention有些不同。比如他們使用了非常大的head dimension。

如果你的系統(tǒng)里矩陣乘法引擎只有某個(gè)固定大小,可能就不匹配了。

像這樣的一些問題,一旦你深入到細(xì)節(jié)里就會出現(xiàn)。所以這是架構(gòu)上的挑戰(zhàn)。

在工作負(fù)載層面,人們使用這些模型的方式也在發(fā)生很大變化。

傳統(tǒng)的用法是聊天機(jī)器人(雖然“傳統(tǒng)”也不過就是過去兩三年的事),但現(xiàn)在出現(xiàn)了新的負(fù)載,比如編程工作負(fù)載——像Cursor、Windsurf這樣的工具。

這類更接近agent的工作負(fù)載,不僅僅是運(yùn)行模型,還需要調(diào)用工具,比如運(yùn)行Python解釋器、做網(wǎng)頁搜索等等。

這會帶來芯片設(shè)計(jì)上的挑戰(zhàn)。如果芯片只專注于讓模型本身跑得最快,就可能忽略了與主機(jī)連接去執(zhí)行網(wǎng)頁搜索這類任務(wù)的能力。

所以我會說,雖然從高層來看架構(gòu)似乎穩(wěn)定了,但在底層仍然有很多變化。而且工作負(fù)載本身也在演變,所以這始終是一場“競速”,看誰能更快適應(yīng)新的負(fù)載。

芯片設(shè)計(jì)中的挑戰(zhàn)

Q:如果說現(xiàn)在90%的工作負(fù)載還在英偉達(dá)芯片上運(yùn)行,那么你覺得兩三年后會怎樣?

Tri Dao:我認(rèn)為在推理端,會出現(xiàn)多樣化,我們已經(jīng)開始看到像CerebrasGrokSambaNova這樣的公司帶來的挑戰(zhàn)。

他們強(qiáng)調(diào)可以做到極低延遲的推理,這對某些場景非常棒。

我們和一些客戶交流時(shí)發(fā)現(xiàn),他們非常在乎盡可能低的延遲,并且愿意為此支付更高成本。同時(shí)也有客戶特別關(guān)注大批量、高吞吐量的推理,比如海量數(shù)據(jù)處理、合成數(shù)據(jù)生成、或者強(qiáng)化學(xué)習(xí)訓(xùn)練中需要快速rollout、生成大量軌跡的場景。

所以我認(rèn)為市場一定會多樣化,因?yàn)楣ぷ髫?fù)載本身也會越來越多樣:低延遲、高吞吐,甚至可能是視頻生成,這都會對算力和內(nèi)存提出不同的要求。

Jacob Effron:初創(chuàng)公司如何押注不同類型的優(yōu)化?

Tri Dao:如果是創(chuàng)業(yè)公司,你就必須下注。你投資的時(shí)候,其實(shí)就是要做一個(gè)超出常規(guī)的押注。

你可能會賭說,聊天機(jī)器人最終會消失,人們真正關(guān)心的其實(shí)是別的東西,比如視頻模型、視頻生成模型、世界模型,或者機(jī)器人之類的。

然后你就擲骰子,說,好吧,那可能會占據(jù)50%的工作負(fù)載。

那么我們要如何為這種工作負(fù)載設(shè)計(jì)芯片呢?你只能希望自己的押注是對的。我覺得這就是創(chuàng)業(yè)公司的角色。

如果你不押注,而只是說我要為通用的工作負(fù)載優(yōu)化,那么大廠會在執(zhí)行力上完全碾壓你。

Jacob Effron:為什么不去嘗試除了英偉達(dá)以外的其他公司?硬件領(lǐng)域會出現(xiàn)巨額薪資嗎?

Tri Dao :我個(gè)人其實(shí)和很多不同公司的工程師都有合作,包括英偉達(dá)、AMD、谷歌、亞馬遜等等。

我花很多時(shí)間在英偉達(dá)的芯片上,純粹是因?yàn)檫@是我們現(xiàn)階段能用到的最普及的產(chǎn)品。

他們設(shè)計(jì)了非常好的芯片,也有非常好的軟件支持,這讓我能夠做很多有意思的事情,而這正是我追求的:能不能做出有意思的東西。

比如我們之前和AMD合作過一個(gè)版本的Flash Attention,并且把它集成進(jìn)了公共倉庫。

所以我們確實(shí)有跟他們合作。至于最好的合作模式應(yīng)該是什么,我現(xiàn)在還不太確定。

不過,最近我更多地在思考:我們需要什么樣的抽象?不僅是針對英偉達(dá)芯片,而是針對GPU和加速器整體。

在最低層級,我還是會花很多精力榨干這些芯片的性能。

但隨著我們在Together AI的擴(kuò)張,我們必須考慮:如何讓后來加入的工程師更快上手?其中一部分就是構(gòu)建能在英偉達(dá)芯片上工作的抽象,同時(shí)也可能適配其他芯片。

另一個(gè)讓我很興奮的問題是:我們能不能設(shè)計(jì)一些抽象,讓AI本身替我們完成部分工作?

我覺得答案還沒有完全清晰。但作為人類的技術(shù)負(fù)責(zé)人,我們的任務(wù)就是構(gòu)建合適的抽象,讓別人能夠快速上手,這樣你做的事情才能跨芯片、跨工作負(fù)載發(fā)揮作用。

Jacob Effron:你覺得現(xiàn)在我們已經(jīng)有那種能跨不同芯片都能用的抽象了嗎?

Tri Dao:我覺得我們有一些,對吧?

但這就是經(jīng)典的權(quán)衡。比如Triton就很好用,它支持英偉達(dá)芯片、AMD GPU、Intel GPU等。這需要他們設(shè)計(jì)一個(gè)前端,然后針對不同廠商的芯片,后端由不同公司貢獻(xiàn)代碼。

我覺得Triton其實(shí)非常不錯(cuò),很多公司都在押注它。比如Meta的PyTorch編譯器,就會直接生成Triton代碼,然后交給Triton去為英偉達(dá)或AMD生成底層代碼。

但這仍然是一個(gè)權(quán)衡:如果你不掌控最底層,可能就會損失一些性能。

關(guān)鍵就在于損失多少。如果你只損失5%的性能,卻能換來3倍的生產(chǎn)力,那完全值得。

但如果損失太大,大家可能就會回到更底層、更貼近硬件的做法,尤其是在推理市場競爭激烈的情況下。

所以我會說,人為設(shè)計(jì)其實(shí)非常難。我甚至?xí)f,硬件可移植性有點(diǎn)像是個(gè)神話。

就算在英偉達(dá)內(nèi)部,不同代際之間差異也非常大。CPU每年可能性能只提升5%-10%,舊代碼還能跑,但GPU完全不是這樣。

英偉達(dá)幾乎每一代芯片都要重寫所有底層代碼,因?yàn)樘嵘鼺LOPS的方式就是增加更多專用組件,支持更低精度,或者改寫芯片內(nèi)部的同步機(jī)制。

所以即便是在英偉達(dá)內(nèi)部,不同代際之間的代碼可移植性其實(shí)也很有限。

Q:抽象的價(jià)值就在于,即便只是面對同一家廠商的不同代際芯片,也能幫上忙,對吧

Tri Dao:我覺得Triton的抽象非常有吸引力。他們甚至還有一些更底層的擴(kuò)展,比如最近很新的Gluon,能暴露更多硬件細(xì)節(jié),但代價(jià)是通用性會差一些。還有Modular公司在開發(fā)Mojo語言。

Jacob Effron:你覺得他們在做的事情怎么樣?

Tri Dao:我覺得很酷。他們確實(shí)找到了部分正確的抽象。關(guān)鍵就在于執(zhí)行力。

因?yàn)榇蠹叶紩枺骸澳阍谟ミ_(dá)芯片上到底有多快?”某種意義上,這個(gè)問題不太公平,但這就是現(xiàn)實(shí)。

所以他們必須在抽象之外做一些定制化,讓代碼在英偉達(dá)芯片上跑得足夠快,然后再做一些AMD的定制化。

問題就在于,你愿意做多少定制?這就是性能與通用性的權(quán)衡。

我們會看到越來越多這樣的庫或領(lǐng)域?qū)S谜Z言出現(xiàn)。比如斯坦福有人在做Kittens來抽象GPU編程,谷歌有MosaicGPU。

我肯定還漏掉了一些。但大家都意識到一個(gè)問題:我們目前還沒有合適的抽象。這導(dǎo)致訓(xùn)練新人寫高性能GPU內(nèi)核非常痛苦。

解決方案就是構(gòu)建抽象。我覺得我們現(xiàn)在正處在快速迭代的階段,這也是為什么會出現(xiàn)這么多領(lǐng)域?qū)S谜Z言。

與此同時(shí),隨著AI模型越來越強(qiáng),我在思考:我們該如何為語言模型設(shè)計(jì)領(lǐng)域?qū)S谜Z言或抽象?因?yàn)樗鼈兊倪\(yùn)作方式和人類有點(diǎn)不一樣,我們現(xiàn)在也不知道答案。所以我認(rèn)為未來一兩年情況會清晰得多?,F(xiàn)在就是百花齊放,大家都在嘗試不同方向。

Jacob Effron:你覺得這些抽象最有可能從哪里產(chǎn)生?

Tri Dao:我認(rèn)為主要有兩個(gè)角度:

  • 一個(gè)是從機(jī)器學(xué)習(xí)的角度出發(fā),思考我們有哪些工作負(fù)載,以及需要哪些原語來表達(dá)這些工作負(fù)載。
  • 比如推理本質(zhì)上是內(nèi)存受限問題,關(guān)鍵在于如何盡快搬運(yùn)數(shù)據(jù);或者如何最快做矩陣乘法。
  • 另一個(gè)角度是從硬件出發(fā)。芯片上有很多非??岬膶S媒M件,要思考如何暴露這些能力。
  • 英偉達(dá)在這方面特別強(qiáng),比如設(shè)計(jì)了更多異步機(jī)制。

不過,矩陣乘法的速度太快了,反而顯得其他部分很慢。所以更重要的是如何重疊矩陣乘法和其他計(jì)算。這就需要抽象層來支持異步執(zhí)行,比如流水線、同步機(jī)制等等。

所以我認(rèn)為抽象會從這兩個(gè)方向出現(xiàn),要么從工作負(fù)載出發(fā),要么從硬件出發(fā)。我覺得再過一兩年就會清晰得多。

Jacob Effron:在設(shè)計(jì)抽象時(shí),你們現(xiàn)在在多大程度上真的使用AI本身?你覺得未來幾年會有什么變化?

Tri Dao:是的,我覺得模型在這方面開始變得有用了。這讓我最近真的很驚訝。有些人已經(jīng)在嘗試完全自動(dòng)化的GPU內(nèi)核編寫:你只要描述問題,LLM就能直接生成內(nèi)核代碼。

這有點(diǎn)像我們在其他領(lǐng)域看到的,比如生成簡單的Python腳本、做數(shù)據(jù)分析、寫前端網(wǎng)頁,對吧?這些現(xiàn)在LLM已經(jīng)能做。那么問題是:我們能不能也做到為GPU編程生成代碼?

Jacob Effron:Vibe kernel?

Tri Dao:如果你想要的是這個(gè)的話,我覺得我們還處在非常早期的階段。

這些模型現(xiàn)在能生成一些簡單的內(nèi)核,比如逐元素的操作:你輸入一個(gè)數(shù)組,然后在每個(gè)元素上做運(yùn)算?;蛘咭恍w約操作,比如求和、歸一化之類的。

這類代碼模型能生成得還算不錯(cuò)。但一旦變復(fù)雜一些,這些模型就寫不出正確的代碼了。

我覺得這主要還是因?yàn)橛?xùn)練數(shù)據(jù)不足。

訓(xùn)練數(shù)據(jù)在這一塊非常難搞。因?yàn)槿绻阍诰W(wǎng)上抓取內(nèi)核代碼,你拿到的可能就是一些課堂項(xiàng)目,或者是GPU三代以前的文檔,而這些文檔里很多寫的都是現(xiàn)在完全不該再用的做法。所以訓(xùn)練數(shù)據(jù)確實(shí)非常困難。我認(rèn)為答案可能是要從一些專家級的數(shù)據(jù)開始,然后基于這些生成合成數(shù)據(jù)?;蛘甙涯P徒拥骄幾g器、性能分析器這樣的工具上,從中獲得大量訓(xùn)練數(shù)據(jù),構(gòu)建合適的環(huán)境。我覺得一兩年之內(nèi)可能會有突破,但目前確實(shí)很難。

Jacob Effron:那這些數(shù)據(jù)現(xiàn)在掌握在誰手里呢?

Tri Dao:我覺得這種數(shù)據(jù)不算是私有的。

確實(shí)有一些地方能找到專家級代碼,但更關(guān)鍵的是流程:怎么從少量專家數(shù)據(jù)出發(fā),生成海量的合成數(shù)據(jù)。

比如Discord上的GPU Mode社區(qū),他們就在嘗試做這個(gè)。

他們用編譯器,比如PyTorch編譯器,把PyTorch代碼轉(zhuǎn)換成Triton代碼,這個(gè)Triton就是更底層的內(nèi)核代碼。

這樣他們就能生成大概1.5萬對這樣的程序數(shù)據(jù)——PyTorch和Triton的對應(yīng)關(guān)系。

其實(shí)你得有點(diǎn)創(chuàng)造性,因?yàn)榫W(wǎng)上原始數(shù)據(jù)確實(shí)不多,所以你得想辦法創(chuàng)造訓(xùn)練數(shù)據(jù)。所以我覺得這是一個(gè)方向:如果你想要完全自動(dòng)化的內(nèi)核生成,現(xiàn)在還非常早。另一個(gè)方向是:模型能不能和人類協(xié)同工作?我對這點(diǎn)的驚喜更大——這些模型現(xiàn)在其實(shí)已經(jīng)相當(dāng)有用了。

Jacob Effron:有沒有什么具體的時(shí)刻,讓你覺得AI模型真的已經(jīng)有幫助了?

Tri Dao:我覺得大概有兩個(gè)重要節(jié)點(diǎn)。一個(gè)是o3——o3的推理能力進(jìn)步很大。

有時(shí)候我會和o3或GPT-5一起頭腦風(fēng)暴,比如我有個(gè)函數(shù),該怎么優(yōu)化?要注意哪些點(diǎn)?

它們給出的高層思路出乎意料地好。

另一個(gè)是Claude Code。它居然在寫Triton內(nèi)核方面表現(xiàn)相當(dāng)不錯(cuò),這點(diǎn)非常棒。

因?yàn)殡m然我喜歡寫內(nèi)核,但我更多的時(shí)間其實(shí)花在設(shè)計(jì)上:思考該設(shè)計(jì)怎樣的架構(gòu),才能更好利用硬件。

而具體的實(shí)現(xiàn)部分,雖然設(shè)計(jì)很有意思,但實(shí)現(xiàn)過程往往非常繁重。這時(shí)候Claude Code就幫了很大忙。我覺得它能讓我整體生產(chǎn)效率提升大約1.5倍。

我是ClaudeCode的重度用戶。如果讓模型和人類協(xié)同工作,而不是指望它們完全自動(dòng)生成內(nèi)核,那它們的作用其實(shí)非常大。

Jacob Effron:接下來你最期待的里程碑是什么以及新模型出來時(shí),你會測試什么?

Tri Dao:我覺得ClaudeCode是個(gè)典型的質(zhì)變案例,因?yàn)樗兊酶邆浯硇粤恕?/p>

某種程度上,他們在后期訓(xùn)練Claude時(shí),針對這一點(diǎn)做得特別好。

我相信OpenAI、Google很快也會達(dá)到類似的水平。這里說的代理性(agentic)就是指它能很好地調(diào)用工具,并且知道什么時(shí)候該用工具。

比如它知道:啊,我現(xiàn)在可能沒有用對API,那我要怎么查API?

或者程序沒編譯過、程序不夠快,那我該怎么從profiler里拿信息?就是這種能力。

所以我覺得新模型里,我會關(guān)注它們能不能知道自己不知道,以及什么時(shí)候該去主動(dòng)尋找新信息。這雖然聽起來有點(diǎn)模糊,但現(xiàn)在已經(jīng)有人開始做這種代理性能力的基準(zhǔn)測試了,只是還非常早期。

Q:自從ChatGPT發(fā)布后,這三年到底是什么推動(dòng)了成本降低和延遲改善?

Tri Dao:這幾年里,推理成本可能下降了大概100倍

至少從ChatGPT面世以來是這樣的,這點(diǎn)從API價(jià)格變化上也能反映出來。

一方面是在模型層面,人們在相同參數(shù)量級下訓(xùn)練出了更好的模型。

部分原因是使用了更多數(shù)據(jù),部分原因是架構(gòu)改進(jìn)。我認(rèn)為MoE確實(shí)幫助大家發(fā)明了更高效的注意力機(jī)制等等。

所以在模型端,模型在相同參數(shù)下變得更強(qiáng)大。

另一方面是在推理優(yōu)化上。

我們見證了一系列技術(shù)的大爆發(fā)。早期其實(shí)大家并不清楚推理的瓶頸在哪里。

后來逐漸發(fā)現(xiàn),關(guān)鍵問題在于數(shù)據(jù)傳輸——比如權(quán)重在內(nèi)存之間的搬移,或者KV緩存的搬運(yùn)。

KV緩存是注意力機(jī)制中用于存儲歷史的部分,以便生成下一個(gè)預(yù)測。所以大量優(yōu)化都是圍繞如何減少數(shù)據(jù)搬運(yùn)展開的。

比如說模型量化

兩三年前,通常一個(gè)參數(shù)需要16位表示?,F(xiàn)在8位已經(jīng)很常見了,新模型里4位也被大量使用,甚至還有1–2位的嘗試,非常激進(jìn)。

但實(shí)驗(yàn)顯示,在量化過程中,很多情況下質(zhì)量幾乎沒有損失。當(dāng)然這需要相當(dāng)復(fù)雜的技術(shù),但效果非常好。

比如最近OpenAI發(fā)布的GPT-oss,大部分層都被量化到4位。他們的模型總共有1200億參數(shù),但因?yàn)槊總€(gè)參數(shù)只需4位,整個(gè)模型可以放進(jìn)大概60GB的空間里,這直接轉(zhuǎn)化成了非常好的推理性能。所以量化是一個(gè)方向。

另一個(gè)方向是模型架構(gòu)和硬件的協(xié)同設(shè)計(jì)

隨著理解的深入,算法研究人員和硬件專家的溝通變多,大家能結(jié)合各自的知識去發(fā)現(xiàn)硬件上的瓶頸,并針對性地調(diào)整算法。

比如Flash Attention就是這樣:我們意識到內(nèi)存訪問才是主要瓶頸,于是重新設(shè)計(jì)了注意力的實(shí)現(xiàn)方式,減少內(nèi)存訪問。這類優(yōu)化在推理領(lǐng)域正在不斷發(fā)生。

DeepSeek的一個(gè)例子叫multi-head latent attention。他們發(fā)現(xiàn)推理時(shí)很多開銷來自于KV緩存的壓縮和傳輸,于是提出通過潛在投影把KV緩存投射到更小的空間,從而大幅減小緩存規(guī)模。這在實(shí)踐中效果很好,能夠更高效地部署模型。

還有MixtureofExperts(MoE)。在MoE里,每個(gè)token的計(jì)算不需要用到模型的所有參數(shù),而是只激活部分專家單元,這就是稀疏化。

在過去兩年里,趨勢就是讓模型越來越稀疏。比如早期Mistral的開源MoE模型是8個(gè)專家里激活2個(gè),也就是25%。

而DeepSeek和OpenAI的最新模型里,比如GPT-oss,是在128個(gè)專家里只激活4個(gè),也就是1/32。這種稀疏化非常適合大規(guī)模服務(wù)用戶。

總的來說,大家對推理負(fù)載的理解更深,模型架構(gòu)和推理堆棧是協(xié)同設(shè)計(jì)的,這就是最近性能提升的主要來源。

推理優(yōu)化技術(shù)

Q:未來的推理優(yōu)化技術(shù)還會有哪些改進(jìn)?

Tri Dao:我認(rèn)為還會有大約10倍的提升空間。

盡管我們已經(jīng)摘了許多果實(shí),但仍有很多可做的事。

首先是硬件端:過去難以預(yù)測兩年后的工作負(fù)載,所以難以做高度專用化。

但隨著架構(gòu)相對穩(wěn)定,芯片設(shè)計(jì)者可以為推理做專門優(yōu)化,比如加強(qiáng)對低精度的原生硬件支持、改進(jìn)網(wǎng)絡(luò)通信等。

特別是在MoE場景下,模型參數(shù)增大但每次只激活一部分,模型可能分布在多塊GPU/芯片上,這時(shí)網(wǎng)絡(luò)就非常關(guān)鍵。我估計(jì)硬件方面一年內(nèi)就能帶來2–3倍的提升。

在模型層面,會有推進(jìn)架構(gòu)的空間。

舉例我做的Mamba,思路是讓模型把歷史壓縮成更小的狀態(tài)向量,而不是保存完整的KV cache——這有代價(jià)但在某些大批量推理場景下(例如同時(shí)探索多條思路的推理或搜索)效果很好。

Google的Gemini Deep Think就是同時(shí)探索多路徑的思路,這類場景會讓KV cache成為更大的瓶頸,因此壓縮歷史的方向非常重要。我認(rèn)為模型層面也能帶來2–3倍的提升。

在內(nèi)核實(shí)現(xiàn)層面,越來越多人專注于高性能kernel,很多人才正加入這塊,內(nèi)核優(yōu)化也可能再帶來2倍的提升。把這些合起來,短期內(nèi)一年左右再實(shí)現(xiàn)約10倍的整體改進(jìn)是有可能的

專門化的AI推理

Q:你覺得生態(tài)會由單一能覆蓋所有場景的供應(yīng)商主導(dǎo),還是會出現(xiàn)專門化?

Tri Dao:我認(rèn)為可能會出現(xiàn)三類工作負(fù)載模式,所有推理提供方都會理解并嘗試優(yōu)化這些模式,但規(guī)?;灿酗@著優(yōu)勢。

大體上有:

  • 傳統(tǒng)聊天機(jī)器人:需要一定交互性但不要求極低延遲)
  • 極低延遲場景:比如代碼輔助,響應(yīng)快2–3倍能顯著提升用戶效率——我愿意為此付更多錢
  • 以及大規(guī)模批處理/高吞吐場景:需要同時(shí)對大量序列做推理。

不同供應(yīng)商可能在這些細(xì)分場景上做出不同權(quán)衡,有些提供廣泛覆蓋,有些則專注于某類場景做到極致。我的意思是,人們通過同時(shí)運(yùn)行多個(gè)模型來解決這個(gè)問題。

比如同時(shí)跑四個(gè)Claude Code。但我個(gè)人更喜歡深度工作,當(dāng)我和模型合作時(shí),我通常只用一個(gè)——我的合作者會罵我,她說:“你應(yīng)該同時(shí)開四個(gè)ClaudeCode?!?/p>

對這種工作負(fù)載,人們可能愿意為低延遲付更多錢,這就是低延遲類型的工作負(fù)載。

另一類是非常大批量的工作,我不太在意延遲,只關(guān)心盡可能高的吞吐量。這對生成合成數(shù)據(jù)等場景很重要。

正如我提到的,很多人訓(xùn)練模型的方式是:先有少量專家級數(shù)據(jù)或人工標(biāo)注數(shù)據(jù)。

舉個(gè)例子,你是一家航空公司,想訓(xùn)練AI助理來處理客戶投訴,你手里只有少量高質(zhì)量數(shù)據(jù),然后可以從中生成大量合成數(shù)據(jù)。模型在模擬人類行為上非常出色。

你可以讓模型模擬一個(gè)來自紐約、因?yàn)楹桨嘌诱`而惱火的顧客,模型竟然能表現(xiàn)得很像人類。

事實(shí)上,互聯(lián)網(wǎng)上就有大量類似數(shù)據(jù)供模型學(xué)習(xí)。

模型內(nèi)部有一套世界模型,它可以基于這些生成大量數(shù)據(jù),雖然不如人工數(shù)據(jù)精準(zhǔn),但量很大。

在這種推理使用場景中,你真正關(guān)心的只是吞吐量。

另一類是強(qiáng)化學(xué)習(xí)訓(xùn)練場景。訓(xùn)練一個(gè)智能體執(zhí)行任務(wù)并改變策略時(shí),你需要評估策略的好壞。

這就需要從模型中抽樣大量完成結(jié)果,也叫rollout,評估其表現(xiàn)。這里就需要大批量、高吞吐的推理能力。我認(rèn)為這是第三種使用場景——非常大批量。

對于這三類場景,人們已經(jīng)開始識別這些模式,而作為推理提供方,我們會針對不同場景做不同優(yōu)化。

Jacob Effron:你們是如何在這三類場景間分配資源的?

Tri Dao:我覺得這就是大規(guī)模運(yùn)行的好處——我們稱之為“艦隊(duì)級優(yōu)化”。

在數(shù)千GPU上推理時(shí),你可以動(dòng)態(tài)調(diào)整集群分配。

舉個(gè)簡單例子:運(yùn)行批量推理(batch API)。

OpenAI提供這個(gè)選項(xiàng),我們也有類似選項(xiàng)。如果看到集群在處理交互式查詢時(shí)不忙,就可以調(diào)入批量查詢以充分利用算力。

結(jié)果是,我們對batchAPI通常提供約50%折扣,我想OpenAI也是這樣,DeepSeek大概也是。

AI工作負(fù)載演進(jìn)與開源工具

Q:你覺得推理市場未來的發(fā)展如何?優(yōu)化空間是否無限?

Tri Dao:過去確實(shí)有很多果實(shí),如果你能寫出合理內(nèi)核、搭建合適推理引擎,會比市場上已有方案好很多。

但現(xiàn)在開源工具已經(jīng)非常成熟了,比如VLMSGLang等項(xiàng)目,都已經(jīng)達(dá)到生產(chǎn)級別質(zhì)量。

我們也會和這些項(xiàng)目合作、貢獻(xiàn)代碼。所以基線水平已經(jīng)提高很多。

同時(shí),工作負(fù)載也在不斷演化。客戶會提出新的需求:前綴緩存、低延遲,或者不是文本而是視頻,這些都有不同的性能權(quán)衡,我們也在應(yīng)對這些客戶需求。

即便開源工具越來越好,工作負(fù)載變化也很快,總有新事情可做。模型本身越來越強(qiáng),可以從中提取價(jià)值的方式也越來越多,這也是為什么有很多初創(chuàng)公司基于這些模型構(gòu)建業(yè)務(wù)。工作負(fù)載將持續(xù)演化。Jacob Effron:快速變化的節(jié)奏下,這三大類工作負(fù)載會逐漸分化嗎?

Tri Dao:我覺得還是會有聚合。代理型(agentic)工作負(fù)載可能是殺手級用例。

就像ChatGPT是應(yīng)用層面的一個(gè)躍變,它讓用戶第一次能與語言模型互動(dòng)、調(diào)試代碼、查找和分析信息。

下一波應(yīng)用將是代理型:AI能自主采取行動(dòng)、收集信息。這需要不同的優(yōu)化策略,不只是讓模型在GPU上運(yùn)行得快,還要考慮如何與人類使用的工具銜接,比如Web搜索。

如果是工程師,可能希望模型能訪問設(shè)計(jì)軟件;金融分析師,則希望模型能訪問特定數(shù)據(jù)庫。這類工作負(fù)載預(yù)計(jì)會成為未來一年左右的主流。

在消費(fèi)端,我的一個(gè)預(yù)測是實(shí)時(shí)視頻生成會成為趨勢

我們已經(jīng)看到一些初步跡象,這會像TikTok改變內(nèi)容消費(fèi)方式一樣,徹底改變消費(fèi)者體驗(yàn)。我們合作的一些公司,比如Pika LabsHetra,正專注于實(shí)時(shí)視頻生成,這是我們的押注。

實(shí)時(shí)視頻生成也帶來全新挑戰(zhàn),非常耗算力,這可能會進(jìn)一步推動(dòng)芯片發(fā)展和推理優(yōu)化。

架構(gòu)創(chuàng)新和專家級別的AI

Q:假如可以快進(jìn)三年,得到AI基礎(chǔ)設(shè)施領(lǐng)域一個(gè)關(guān)鍵問題的答案,這個(gè)問題會是什么?哪一個(gè)問題的答案最能影響你們今天的戰(zhàn)略?

Tri Dao:接下來幾年,我想回答的問題是:我們?nèi)绾巫孉I達(dá)到專家水平?

目前,我認(rèn)為模型在某些任務(wù)上,比如前端編程,處于人類中等水平。

他們已經(jīng)很厲害了。實(shí)際上,這些模型在前端編程上比我強(qiáng)得多;或者在數(shù)據(jù)分析這類任務(wù)上,只要互聯(lián)網(wǎng)上有大量數(shù)據(jù),模型就能輕松勝任。

它們在這些任務(wù)上大概達(dá)到了中等水平,甚至略高于平均水平。

但經(jīng)濟(jì)上最有價(jià)值的任務(wù)仍然存在。我們?yōu)槿祟悓<抑Ц陡哳~報(bào)酬,比如飛機(jī)設(shè)計(jì)、硬件設(shè)計(jì)、醫(yī)生、律師等。

這些人成為專家,是因?yàn)樗麄兓舜罅繒r(shí)間使用專業(yè)工具,而這些工具的數(shù)據(jù)并不等同于互聯(lián)網(wǎng)海量信息。

這正是他們成為專家的原因。所以我們要讓模型達(dá)到這個(gè)水平,能夠與人類專家協(xié)同工作,我認(rèn)為這才是大量經(jīng)濟(jì)價(jià)值的來源。

Q:你合作者Albert說過,Transformer本身不會是最終方案,你覺得我們需要架構(gòu)創(chuàng)新才能達(dá)到那個(gè)水平嗎?

Tri Dao:我認(rèn)為,要達(dá)到AGI或ASI,目前的架構(gòu)可能已經(jīng)足夠了。

但成本如何?如果有更好的架構(gòu),也許我們能提前一兩年達(dá)到目標(biāo),或者用10倍更低的成本實(shí)現(xiàn),這可能很值得。

每年我們在AI基礎(chǔ)設(shè)施上大約花5000億美元——大概在這個(gè)量級。

問題是,我們是否需要花10倍的預(yù)算?還是通過更好的架構(gòu),用現(xiàn)有甚至更少的支出就能達(dá)到目標(biāo)?

這就是架構(gòu)研究的價(jià)值所在:能否通過更好架構(gòu)達(dá)到AGI。我認(rèn)為當(dāng)前架構(gòu)具備所有關(guān)鍵成分,如果不斷擴(kuò)展,也可以實(shí)現(xiàn)目標(biāo),但成本可能是天文數(shù)字。Jacob Effron:你還在關(guān)注哪些架構(gòu)?

Tri Dao:我對MoE特別感興趣,尤其是越來越稀疏。我們在探索極限:能稀疏到什么程度?

這一直是一個(gè)很有吸引力的方向。DeepSeek做了很重要的工作,證明可以讓模型非常稀疏,DeepMind早期也有相關(guān)探索。這是一種用同樣算力獲得更多智能的方法。

最終,我們想優(yōu)化每分錢的推理效率。

這意味著可以量化為每浮點(diǎn)操作推理量(inference per flop)和每分錢的FLOPs。

前者更多依賴架構(gòu)設(shè)計(jì)、數(shù)據(jù)、算法;后者更多依賴硬件和內(nèi)核優(yōu)化。在架構(gòu)層面,我們嘗試從相同計(jì)算中提取盡可能多的智能。MoE是一個(gè)例子。

我和Albert做的一些狀態(tài)空間模型工作也很有趣。

我們與Nvidia的一些團(tuán)隊(duì)合作訓(xùn)練模型,他們發(fā)布了幾款模型,顯示這種架構(gòu)——Transformer與Mamba的混合——可以在更低成本或更高推理性能下得到高質(zhì)量模型。

所以架構(gòu)對于推理非常重要。我現(xiàn)在非常強(qiáng)調(diào)“推理優(yōu)先”的架構(gòu)設(shè)計(jì),因?yàn)榇蟛糠諪LOPs都用于推理,我們希望架構(gòu)能最大化推理效率。

Jacob Effron:你現(xiàn)在在研究哪些方向?未來可能有哪些重要論文?

Tri Dao:我仍然在這些領(lǐng)域工作,非常感興趣。同時(shí),我也在探索一些新方向,其中之一是尋找下一波真正有影響力的應(yīng)用。我認(rèn)為機(jī)器人是其中一個(gè)方向。

比如離真正優(yōu)秀的家庭人形機(jī)器人還有多遠(yuǎn)?

也許五年,也許十年,我不確定。這通常會帶來很多有趣且重要的研究問題,這是科研方向上的一個(gè)方向。

Jacob Effron:在機(jī)器人研究領(lǐng)域,你覺得最有趣的點(diǎn)是什么?

Tri Dao:關(guān)于機(jī)器人,我們可以用已有的基礎(chǔ)模型來初始化控制機(jī)器人。你可以用語言模型來做規(guī)劃。

比如,你讓機(jī)器人去拿咖啡杯,語言模型可以說:“去那張桌子拿咖啡杯”,等等。

但目前缺失的是在現(xiàn)實(shí)世界中進(jìn)行交互和行動(dòng)的數(shù)據(jù),因?yàn)槲覀儧]有這類數(shù)據(jù)。我們有語言數(shù)據(jù),但缺少與實(shí)際世界交互的數(shù)據(jù)。對,你顯然也看到有人在嘗試擴(kuò)大仿真數(shù)據(jù)的規(guī)模,他們實(shí)際上在做遙操作,但實(shí)際波動(dòng)的數(shù)據(jù)問題依然存在。

另一點(diǎn)是,機(jī)器人必須以多分辨率、多時(shí)間尺度的方式處理信息。有些操作,比如控制關(guān)節(jié),需要非??焖俚捻憫?yīng);但規(guī)劃機(jī)器人的路徑,則可以慢一些。

這里需要顯式考慮時(shí)間尺度。我想做非常輕量的計(jì)算嗎?只是控制關(guān)節(jié),還是做更重的推理來規(guī)劃最優(yōu)路徑?

所以我認(rèn)為最終會是一個(gè)復(fù)合系統(tǒng),由語言模型、視覺模型、音頻模型、世界模型初始化,但如何把它們組合在一起,是一個(gè)大問題。

學(xué)術(shù)界與工業(yè)界的平衡

Q:你是如何考慮在學(xué)術(shù)和工業(yè)之間的選擇的?

Tri Dao:這是個(gè)很好的問題,也很個(gè)人化。對我來說,我喜歡同時(shí)做創(chuàng)業(yè)和做教授。

這兩種模式提供了不同的思維和執(zhí)行方式。創(chuàng)業(yè)方面很有趣,因?yàn)楣?jié)奏快。我們想做的事情,幾天、幾周、最多幾個(gè)月就能完成。團(tuán)隊(duì)執(zhí)行力強(qiáng),可以快速實(shí)現(xiàn)目標(biāo),我對團(tuán)隊(duì)在Together做的工作非常自豪。

學(xué)術(shù)方面,時(shí)間尺度更長,考慮的問題更具前瞻性。我們不會追求一個(gè)月內(nèi)的解決方案,而是思考未來兩三年方向上的有趣問題和挑戰(zhàn)。和學(xué)生一起工作也非常有趣,因?yàn)槲覀兛梢陨钊胨伎歼@些問題。

當(dāng)然有一些權(quán)衡,比如學(xué)術(shù)計(jì)算資源少。評價(jià)方式也不同,更關(guān)注思想是否有趣,而不是是否運(yùn)行得快。

學(xué)術(shù)給你更多自由去深入思考長周期問題。我正好喜歡兩種模式,所以仍然在普林斯頓做教授,同時(shí)參與創(chuàng)業(yè)。

我認(rèn)為這是一種探索與開發(fā)結(jié)合的模式:學(xué)術(shù)更偏向探索,資金通常來自政府,用于探索大量想法,也許只有5-10%的想法會成功。投資者也類似,探索大量想法,其中少數(shù)可能非常重要。

一個(gè)例子是Attention,它通過Google的論文出名,但最初來自Mila的學(xué)術(shù)研究,是Dmitry Bahdanau、Yoshua Bengio等人的工作。

當(dāng)前架構(gòu)的其他組成部分,如Adam優(yōu)化器(JimmieBa等)和LayerNorm,也來自學(xué)術(shù)界。

很多現(xiàn)在的基礎(chǔ)都是學(xué)術(shù)探索的結(jié)果。大公司和創(chuàng)業(yè)公司會把這些想法商業(yè)化,快速執(zhí)行,同時(shí)理解市場需求,有更多資金推動(dòng)大想法落地。

比如,SSI明確說不做任何產(chǎn)品,但人們愿意投錢,因?yàn)樗荌lya。當(dāng)AI的某些風(fēng)投開始獲得回報(bào),投資者就更愿意投入資金。

Jacob Effron:過去一年你在AI上改變的一個(gè)觀點(diǎn)是什么?

Tri Dao:這些模型出乎意料地有用,即便在常的高級和專家級工作中,它們在數(shù)學(xué)和編碼上也非常出色。比我預(yù)期的高很多,確實(shí)很厲害。

我日

Jacob Effron:你覺得一年后開源模型和閉源模型的質(zhì)量會更接近還是更遠(yuǎn)?我認(rèn)為會更接近?,F(xiàn)在的擴(kuò)展更多依賴RL,而這實(shí)際上更依賴工具鏈,而不僅僅是原始算力。所以開源在這方面會做得很好。

Jacob Effron:目前AI領(lǐng)域還有哪些發(fā)展被忽視了?

Tri D:數(shù)據(jù)。數(shù)據(jù)總是有點(diǎn)被低估。合成數(shù)據(jù),用模型重新生成或改寫數(shù)據(jù),會產(chǎn)生巨大影響,但關(guān)注的人少。Jacob Effron:你最喜歡看到的應(yīng)用是什么?

Tri Dao:我們與一些視頻生成公司合作,比如Pika Labs和Hetra,他們用我們訓(xùn)練的模型生成虛擬的TikTok視頻,效果非常棒。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
國家出手!三大世界級城市群定了

國家出手!三大世界級城市群定了

米筐投資
2025-10-03 07:04:09
170cmD杯女孩,撩走肌肉猛男,網(wǎng)友:沒X生活的我哭了…

170cmD杯女孩,撩走肌肉猛男,網(wǎng)友:沒X生活的我哭了…

健身迷
2025-09-20 09:22:20
楊振寧終于揭示底牌,翁帆無奈選擇獨(dú)自踏上新旅程!

楊振寧終于揭示底牌,翁帆無奈選擇獨(dú)自踏上新旅程!

元爸體育
2025-10-02 15:59:53
你見過哪些婚前作死行為?網(wǎng)友:有心理潔癖的我,看的都要吐了

你見過哪些婚前作死行為?網(wǎng)友:有心理潔癖的我,看的都要吐了

解讀熱點(diǎn)事件
2025-10-02 00:15:03
檢查組暗訪,當(dāng)場下達(dá)整改通知書

檢查組暗訪,當(dāng)場下達(dá)整改通知書

新京報(bào)政事兒
2025-10-02 23:18:06
山姆99.9元同款零食被曝在好特賣僅售39.9元,山姆線上門店已查詢不到

山姆99.9元同款零食被曝在好特賣僅售39.9元,山姆線上門店已查詢不到

極目新聞
2025-09-30 20:39:49
上海男籃15分大??!張鎮(zhèn)麟7分低迷,盧偉被喊下課,王哲林20分

上海男籃15分大?。堟?zhèn)麟7分低迷,盧偉被喊下課,王哲林20分

體壇瞎白話
2025-10-03 07:31:25
特朗普計(jì)劃訪華,準(zhǔn)備與北京達(dá)成重大交易,中方已提出條件。

特朗普計(jì)劃訪華,準(zhǔn)備與北京達(dá)成重大交易,中方已提出條件。

張殿成
2025-10-02 14:26:54
67 歲著名演員告別儀式:從發(fā)病到去世僅 2 小時(shí),蔡明哭暈英達(dá)被扶,鞏漢林落淚....

67 歲著名演員告別儀式:從發(fā)病到去世僅 2 小時(shí),蔡明哭暈英達(dá)被扶,鞏漢林落淚....

喬話
2025-10-02 19:36:24
每體:弗洛倫蒂諾致電巴爾韋德表示支持,巴爾韋德感動(dòng)落淚

每體:弗洛倫蒂諾致電巴爾韋德表示支持,巴爾韋德感動(dòng)落淚

懂球帝
2025-10-03 10:14:15
15票贊成,3票反對,2票棄權(quán),菲參議院批準(zhǔn)對杜特爾特實(shí)施軟禁

15票贊成,3票反對,2票棄權(quán),菲參議院批準(zhǔn)對杜特爾特實(shí)施軟禁

大國紀(jì)錄
2025-10-02 23:44:08
浙經(jīng)貿(mào)的三分鐘戰(zhàn)士大二弟弟火了

浙經(jīng)貿(mào)的三分鐘戰(zhàn)士大二弟弟火了

杭城村叔
2025-09-11 12:54:47
俄11萬噸巨輪,滿載印度石油,遭法國特種兵奪?。嚎垩褐帘奔s基地

俄11萬噸巨輪,滿載印度石油,遭法國特種兵奪?。嚎垩褐帘奔s基地

桑啟紅原
2025-10-02 05:16:43
“China Travel”火爆背后,3500萬外國游客的難題

“China Travel”火爆背后,3500萬外國游客的難題

吳曉波頻道
2025-10-03 08:33:20
19歲女孩日接7單,收入驚人!河內(nèi)警方突襲,揭開一家庭“按摩店”背后的性交易黑幕

19歲女孩日接7單,收入驚人!河內(nèi)警方突襲,揭開一家庭“按摩店”背后的性交易黑幕

越南語學(xué)習(xí)平臺
2025-10-03 10:10:33
俄國防部:俄軍使用“伊斯坎德爾”導(dǎo)彈摧毀烏克蘭100架“柳蒂”遠(yuǎn)程無人機(jī)

俄國防部:俄軍使用“伊斯坎德爾”導(dǎo)彈摧毀烏克蘭100架“柳蒂”遠(yuǎn)程無人機(jī)

俄羅斯衛(wèi)星通訊社
2025-10-02 15:06:02
CCTV直播!中國大滿貫10月3日賽程:王曼昱戰(zhàn)張本美和!莎頭沖首冠!陳俊菘遭遇勒布倫

CCTV直播!中國大滿貫10月3日賽程:王曼昱戰(zhàn)張本美和!莎頭沖首冠!陳俊菘遭遇勒布倫

好乒乓
2025-10-03 09:43:27
上海老人80歲大壽,提前一周訂的蛋糕“根本沒做”!店方:新人誤扔了小票

上海老人80歲大壽,提前一周訂的蛋糕“根本沒做”!店方:新人誤扔了小票

朗威談星座
2025-10-02 17:35:23
樓下夫妻總蹭我充電樁 我拉閘后出國旅游 半月后物業(yè)打來電話

樓下夫妻總蹭我充電樁 我拉閘后出國旅游 半月后物業(yè)打來電話

冒泡泡的魚兒
2025-10-02 16:05:09
師徒?jīng)Q裂5年,“赫敏”首次低頭求和,羅琳冷笑開懟:沒爆粗,卻狠到讓人窒息...

師徒?jīng)Q裂5年,“赫敏”首次低頭求和,羅琳冷笑開懟:沒爆粗,卻狠到讓人窒息...

北美省錢快報(bào)
2025-10-01 08:29:24
2025-10-03 11:59:00
量子位 incentive-icons
量子位
追蹤人工智能動(dòng)態(tài)
11439文章數(shù) 176287關(guān)注度
往期回顧 全部

科技要聞

特斯拉Q3交付超預(yù)期,股價(jià)高開低走大跌

頭條要聞

英國威廉王子首次公開談妻子患癌:為她的表現(xiàn)驕傲

頭條要聞

英國威廉王子首次公開談妻子患癌:為她的表現(xiàn)驕傲

體育要聞

四冠中鋒,比所有人更早開始新賽季

娛樂要聞

大灣區(qū)晚會4天后,內(nèi)娛尷尬現(xiàn)狀全暴露

財(cái)經(jīng)要聞

國家出手!三大世界級城市群定了

汽車要聞

元戎啟行9月合作車型 交付量突破3萬臺

態(tài)度原創(chuàng)

家居
親子
旅游
手機(jī)
公開課

家居要聞

潮流地標(biāo) 引領(lǐng)Z世代風(fēng)尚

親子要聞

寶寶剛睡著,媽媽輕輕想抽開手,下一秒?yún)s被寶寶下意識的小動(dòng)作瞬間萌化!#睡個(gè)好覺

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

手機(jī)要聞

摩根士丹利:蘋果iPhone 17/Pro系列需求超預(yù)期,iPhone Air疲軟

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版 美国俄罗斯毛片| 亚洲女色AV| 熟女俱乐部一区二区三区| 国产 无码 日韩 一区二区| 精品国产一区二区三区国产区| 国产乱300部老熟女露脸| 婷婷五月小说| 少妇打炮草出白浆无码在线| 第一精品福利导福航| 日本欧美大码a在线观看| 少妇熟女 一区| 亚洲欧美在线x视频| 激情图片激情小说亚洲| 97超碰大香蕉| 激情av片网址| 国产无码高清视频| 搡老熟女一区二区| 久久人体视频| 久久综合AV| 国产精品久久久久精品A级 | 大片视频免费观看视频| 精品国产免费人成在线观看| 福利在线视频一区二区| 亚洲AV无码日韩AV无码中文| 五月天色色激情综合| 最新国语自产精品视频在| 女人被狂躁到高潮视频免费网站| 婷婷开心人妻| 久久久亚洲国产精品主播| 高潮潮喷视频| 亚洲国产精品久久久久婷婷软件| 爱性久久久久久久久| 欧美专区日韩视频人妻| 亚洲熟妇色XXXXⅩ欧美老妇| 96精品国产AⅤ一区二区价表| 夜夜草高清视频| 热久久免费视频| 强奷漂亮少妇高潮麻豆| 最新精品国产自偷在自线| 欧美裸体XXⅩⅩ及品XXX高潮| 好爽毛片一区二区三区四|