夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

翁荔陳丹琦加盟的840億AI公司,公開第二篇論文

0
分享至

明星創(chuàng)業(yè)公司Thinking Machines,第二篇研究論文熱乎出爐!

公司創(chuàng)始人、OpenAI前CTO Mira Murati依舊親自站臺,翁荔等一眾大佬也紛紛轉(zhuǎn)發(fā)支持:



論文主題為“Modular Manifolds”,通過讓整個網(wǎng)絡(luò)的不同層/模塊在統(tǒng)一框架下進(jìn)行約束和優(yōu)化,來提升訓(xùn)練的穩(wěn)定性和效率

之所以進(jìn)行這項研究,主要是為了解決神經(jīng)網(wǎng)絡(luò)訓(xùn)練中的一個基本挑戰(zhàn):

網(wǎng)絡(luò)內(nèi)部的張量(如權(quán)重、激活、梯度)若數(shù)值過大或過小,會引發(fā)不穩(wěn)定、梯度爆炸/消失、訓(xùn)練效率低下等問題。

因此,論文唯一作者Jeremy Bernstein提出了一種新的優(yōu)化思路——模塊化流形(Modular Manifolds),不僅對單個權(quán)重張量施加約束,還能把整個網(wǎng)絡(luò)視為組合的流形結(jié)構(gòu),從而統(tǒng)一設(shè)計學(xué)習(xí)率、約束方式與優(yōu)化邏輯。



網(wǎng)友們的反應(yīng)be like:

  • 對神經(jīng)網(wǎng)絡(luò)訓(xùn)練有深刻的見解。



  • 將權(quán)重更新限制在流形上可以帶來穩(wěn)定性和可解釋性,好奇能否擴(kuò)展到非常大的模型?



帶著這些肯定和疑惑,咱們接著看這到底是一項怎樣的研究——

從向量在球面上優(yōu)化→提出模塊化流形

為什么需要流形約束?

原因正如開頭所提到的,在訓(xùn)練大模型時,如果權(quán)重、激活值、梯度太大或太小,就會出現(xiàn)訓(xùn)練不穩(wěn)定(溢出、消失、收斂速度慢等問題)。

之前為了解決這些問題,歸一化方法逐漸成為“黃金標(biāo)準(zhǔn)”,包括激活歸一化(如層歸一化LayerNorm)、梯度歸一化(優(yōu)化器內(nèi)部的規(guī)范化)等,但很少直接對權(quán)重矩陣本身進(jìn)行歸一化處理。

而作者認(rèn)為,對權(quán)重矩陣進(jìn)行歸一化處理具有相當(dāng)價值,其好處可能包括:

  • 更容易把握優(yōu)化過程中更新量的大??;
  • 能夠避免權(quán)重的范數(shù)變得過大,也就是防止權(quán)重“爆炸”的問題;
  • 讓研究員可以把調(diào)整超參數(shù)的精力,更多地放在那些對模型影響最大的張量上;
  • 讓矩陣的條件數(shù)變小,這樣矩陣的行為就會更加穩(wěn)定和可預(yù)測;

一句話,給權(quán)重矩陣歸一化,可以讓模型訓(xùn)練更穩(wěn)定、更容易調(diào)整、行為更可預(yù)測,并且對外界干擾更有抵抗力。

基于此,作者希望設(shè)計一個幾何化框架,把神經(jīng)網(wǎng)絡(luò)的權(quán)重參數(shù)約束在特定的Stiefel流形上,從而在訓(xùn)練時能夠聯(lián)合優(yōu)化器與這些約束。

其核心研究過程大致有以下幾個步驟:

Step 1:提供一個基礎(chǔ)示例

假設(shè)要訓(xùn)練的參數(shù)是一個向量W,并且強(qiáng)制它始終在單位球面上:||W||=1。

如果用普通的Adam(自適應(yīng)矩估計)/SGD(隨機(jī)梯度下降)更新,更新后的向量可能就跑出球面。

為了解決這一問題,流形優(yōu)化自有其“套路”:

  • 先把梯度投影到切空間(球面上某點(diǎn)的切平面),保證更新方向合理;
  • 然后更新參數(shù);
  • 最后用Retraction投影,把更新后的向量“拉回”到球面上。



而在這個過程中,我們核心需要思考兩個問題:一是應(yīng)該采用哪種流形約束,二是應(yīng)該如何測量長度。通過做出不同的選擇,最后可以創(chuàng)建出不同的優(yōu)化算法,如下表所示:



Step 2:推廣到矩陣參數(shù)

緊接著,作者將上述思路從向量(球面)推廣到矩陣。

由于Transformer的權(quán)重矩陣(把輸入的向量轉(zhuǎn)換成輸出的向量)動輒成千上萬維,直接優(yōu)化容易失控,因此作者提出把矩陣參數(shù)放在Stiefel流形上。

在Stiefel流形上的矩陣,它們的列向量都是正交的,而且條件數(shù)(一個衡量矩陣穩(wěn)定性的指標(biāo))為1。

這樣做的好處在于:

其一,向量正交可以確保不同方向上的信號不會相互干擾,這有助于模型學(xué)習(xí)到更加獨(dú)立的特征;

其二,條件數(shù)為1意味著矩陣不會放大或縮小向量太多,這有助于保持?jǐn)?shù)值穩(wěn)定性,避免在計算過程中出現(xiàn)大的數(shù)值誤差。



選定流形后,作者通過一系列步驟最終設(shè)計了一個適用于Stiefel流形的優(yōu)化算法——流形Muon算法。

其流程大致包括:

  • 在Stiefel流形的切空間上算梯度更新;
  • 用一些矩陣運(yùn)算(奇異值分解、sign函數(shù)等)確保更新合法;
  • 再把結(jié)果投影回Stiefel流形。



Step 3:小規(guī)模實(shí)驗(yàn)驗(yàn)證

為了驗(yàn)證算法的合理性,作者隨即進(jìn)行了一個小規(guī)模實(shí)驗(yàn)(每次訓(xùn)練運(yùn)行不到一分鐘即可完成)。

他在CIFAR-10數(shù)據(jù)集上(一個包含10個類別的彩色圖像數(shù)據(jù)集)訓(xùn)練了一個小MLP,對比了manifold Muon和AdamW這兩種算法。

結(jié)果發(fā)現(xiàn),前者在訓(xùn)練/測試準(zhǔn)確率上略優(yōu)于AdamW,且權(quán)重矩陣的奇異值都更集中、幅度穩(wěn)定。

不過,雖然效果有提升,但每一步的運(yùn)行時間倒是比AdamW稍慢一點(diǎn)(額外開銷在dual ascent計算、投影等環(huán)節(jié))。



作者表示,后續(xù)通過優(yōu)化dual ascent步數(shù)、引入動量等方法,可以進(jìn)一步減少額外開銷。(意思是問題不大)

Step 4:最終推出“模塊化流形”概念

以上驗(yàn)證了單個矩陣放到Stiefel流形上的有效性,那么問題來了——

多個層、多個模塊怎么辦?

對此,作者最終提出了模塊化流形(Modular Manifolds)這一概念。

具體而言,作者把神經(jīng)網(wǎng)絡(luò)里的每一層或每一個模塊都看成是一個單獨(dú)的“流形”,它有自己定義的范數(shù)和專屬的優(yōu)化方法。

當(dāng)這些模塊組合成一個完整的網(wǎng)絡(luò)時,就把它們的流形通過笛卡爾積拼接在一起,形成一個大的流形空間。




在這個大空間里,作者采用最大范數(shù)(max norm)的方式來統(tǒng)一分配學(xué)習(xí)率,相當(dāng)于設(shè)置一個全局的更新上限,避免不同模塊的步伐不一致。

這樣一來,每一層仍然可以按照自己的規(guī)則在小空間里更新參數(shù),但整個網(wǎng)絡(luò)的更新過程又被全局機(jī)制約束住,從而保持協(xié)調(diào)和穩(wěn)定。

總之,這條研究路線更強(qiáng)調(diào)整個模型訓(xùn)練流程的設(shè)計耦合,而不是“建一個模型+套一個優(yōu)化器”。

一旦這套方法能在大型Transformer/LLM上成功應(yīng)用,今后訓(xùn)練模型的效率和穩(wěn)定性無疑都將獲得極大提升。

論文唯一作者Jeremy Bernstein

最后簡單介紹一下論文作者Jeremy Bernstein。



個人主頁顯示,他本科和碩士階段都在劍橋大學(xué)三一學(xué)院接受物理理論與實(shí)驗(yàn)物理方面的教育,曾獲得NVIDIA研究生獎學(xué)金。

后來去了加州理工攻讀博士學(xué)位,研究方向轉(zhuǎn)為計算與神經(jīng)系統(tǒng)。

目前他既在Thinking Machines擔(dān)任機(jī)器學(xué)習(xí)研究員,還在MIT從事博士后研究工作,致力于揭示自然與人工智能的計算與統(tǒng)計規(guī)律,從而設(shè)計出更加高效、自動、實(shí)用的學(xué)習(xí)系統(tǒng)。

從谷歌學(xué)術(shù)論文頁面可以看到,其研究也大多集中在機(jī)器學(xué)習(xí)中的算法優(yōu)化、模型魯棒性、學(xué)習(xí)表示、以及優(yōu)化器設(shè)計等方面。



另外經(jīng)翁荔提醒,我們也去翻了翻Jeremy Bernstein給論文標(biāo)下的一些小腳注。

原來,雖然論文署名只有一人,但其背后實(shí)打?qū)嶋x不開很多研究員的跨界合作。比如這項工作就涉及到數(shù)學(xué)、計算機(jī)科學(xué)以及工程學(xué)的大融合。



包括Jeremy Bernstein本人,從當(dāng)初的物理專業(yè)逐漸轉(zhuǎn)向數(shù)學(xué)、機(jī)器學(xué)習(xí),怎么不算跨界帶頭人呢(doge)~

One More Thing

目前Thinking Machines已發(fā)布兩篇研究論文。



首項研究成果發(fā)表于今年9月10日,研究主題為“Defeating Nondeterminism in LLM Inference”,克服大語言模型推理中的不確定性。

主要討論的內(nèi)容就是,為什么大模型每次的推理結(jié)果總是難以復(fù)現(xiàn)?根源在于批次不變性。

不過上次的作者名單相當(dāng)簡略,由一位華人面孔小哥Horace He主導(dǎo),尚不清楚背后有沒有Jeremy Bernstein的身影。



以及再補(bǔ)充一點(diǎn),之前被曝加入Thinking Machines的清華姚班校友、普林斯頓教授陳丹琦,曾經(jīng)也轉(zhuǎn)發(fā)了這篇論文。



并且陳丹琦團(tuán)隊最新也帶來了一篇關(guān)于可驗(yàn)證獎勵強(qiáng)化學(xué)習(xí)的論文,標(biāo)題是《Language Models that Think, Chat Better》,主要觀點(diǎn)為:

可驗(yàn)證獎勵強(qiáng)化學(xué)習(xí)(RLVR)在可驗(yàn)證領(lǐng)域之外也是有效的,并提出了“基于模型獎勵思考的強(qiáng)化學(xué)習(xí)”(RL with Model-rewarded Thinking,RLMT),以實(shí)現(xiàn)通用聊天能力。



論文傳送門已放文末,這里不再過多展開。

最后,肉眼可見Thinking Machines這家明星創(chuàng)業(yè)公司正在加速轉(zhuǎn)動,隨著研究成果不斷涌出,第一個產(chǎn)品是不是也快了?

嗯,0產(chǎn)出估值就已沖破120億美元(約合人民幣840億元),毫無疑問值得期待一波。

論文:
https://thinkingmachines.ai/blog/modular-manifolds/
陳丹琦團(tuán)隊新作:
https://arxiv.org/pdf/2509.20357

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
乒壇傳奇王濤:感謝蔡振華的重用,退役后培養(yǎng)的弟子也是奧運(yùn)冠軍

乒壇傳奇王濤:感謝蔡振華的重用,退役后培養(yǎng)的弟子也是奧運(yùn)冠軍

白面書誏
2025-09-30 11:12:26
并非迷信!八月十五中秋,“最不能”碰的3件事,早知道

并非迷信!八月十五中秋,“最不能”碰的3件事,早知道

阿龍美食記
2025-09-29 08:09:11
亞馬爾父親:不工作靠兒子生活?沒錯,兒子我將永遠(yuǎn)感激你

亞馬爾父親:不工作靠兒子生活?沒錯,兒子我將永遠(yuǎn)感激你

懂球帝
2025-09-30 10:38:05
尼克松晚年坦言:他后悔當(dāng)年訪問中國,只因毛主席識破了他的計謀

尼克松晚年坦言:他后悔當(dāng)年訪問中國,只因毛主席識破了他的計謀

牛馬搞笑
2025-09-27 11:43:34
韓國承認(rèn)現(xiàn)實(shí):世界上有三個國家能打美國本土,朝鮮已成其中之一

韓國承認(rèn)現(xiàn)實(shí):世界上有三個國家能打美國本土,朝鮮已成其中之一

阿龍聊軍事
2025-09-30 21:22:56
4枚核導(dǎo)彈試射后,美軍超800將領(lǐng)突遭召回,三大疑點(diǎn)或牽動中國

4枚核導(dǎo)彈試射后,美軍超800將領(lǐng)突遭召回,三大疑點(diǎn)或牽動中國

基斯默默
2025-09-29 17:47:49
毛澤東想讓陳賡去軍委,陳賡大笑:請主席先給哈軍工留筆墨

毛澤東想讓陳賡去軍委,陳賡大笑:請主席先給哈軍工留筆墨

比利
2025-09-30 15:06:12
魯尼:維爾茨其實(shí)是在破壞利物浦的平衡,他不適合球隊的體系

魯尼:維爾茨其實(shí)是在破壞利物浦的平衡,他不適合球隊的體系

雷速體育
2025-09-30 20:37:17
“睡我老婆,一個都別想活!”妻子與兩個堂哥有染,男子抄起AK47

“睡我老婆,一個都別想活!”妻子與兩個堂哥有染,男子抄起AK47

我是斌哥哥
2024-03-22 12:54:12
更大!更美!更強(qiáng)!電視行業(yè)正走出內(nèi)卷

更大!更美!更強(qiáng)!電視行業(yè)正走出內(nèi)卷

一點(diǎn)財經(jīng)
2025-09-29 19:36:54
淋浴玻璃隔斷“正退出”中國家庭?看年輕人的做法,那叫一個高級

淋浴玻璃隔斷“正退出”中國家庭?看年輕人的做法,那叫一個高級

裝修秀
2025-09-04 10:40:03
曾華倩與梁朝偉共同生活六年,獨(dú)立撫養(yǎng)子女現(xiàn)成家庭驕傲

曾華倩與梁朝偉共同生活六年,獨(dú)立撫養(yǎng)子女現(xiàn)成家庭驕傲

小椰的奶奶
2025-09-24 14:37:44
中國聯(lián)通開啟 eSIM 業(yè)務(wù)預(yù)約,可在 App 和自有營業(yè)廳辦理

中國聯(lián)通開啟 eSIM 業(yè)務(wù)預(yù)約,可在 App 和自有營業(yè)廳辦理

IT之家
2025-09-30 19:23:09
首次披露:董桂華已被查

首次披露:董桂華已被查

FM93浙江交通之聲
2025-09-30 09:15:52
1949年陳龍婉拒中央邀約,毛澤東失望地說:人家不愿意來,就算了

1949年陳龍婉拒中央邀約,毛澤東失望地說:人家不愿意來,就算了

大運(yùn)河時空
2025-09-30 19:42:52
兩性關(guān)系:80歲女人含淚坦白3個秘密,句句扎心??吹降?條我哭了

兩性關(guān)系:80歲女人含淚坦白3個秘密,句句扎心??吹降?條我哭了

荷蘭豆愛健康
2025-09-29 07:16:57
老同學(xué)全家在我民宿住了一個月,消費(fèi)3萬不結(jié)賬,我:咱倆很熟嗎

老同學(xué)全家在我民宿住了一個月,消費(fèi)3萬不結(jié)賬,我:咱倆很熟嗎

清茶淺談
2025-09-22 23:47:14
張召忠發(fā)出嚴(yán)厲警告,美國已在預(yù)謀戰(zhàn)爭,四個明顯動作值得警惕

張召忠發(fā)出嚴(yán)厲警告,美國已在預(yù)謀戰(zhàn)爭,四個明顯動作值得警惕

暮光視界
2025-07-23 15:48:06
釋小龍37歲早已被預(yù)定,無戲可演,中藥不離身,父親牽涉其中

釋小龍37歲早已被預(yù)定,無戲可演,中藥不離身,父親牽涉其中

小邵說劇
2025-08-11 12:16:18
外交部駐港公署發(fā)言人:堅決反對美方所謂人口販運(yùn)報告

外交部駐港公署發(fā)言人:堅決反對美方所謂人口販運(yùn)報告

環(huán)球網(wǎng)資訊
2025-09-30 19:20:39
2025-09-30 22:19:00
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
11433文章數(shù) 176286關(guān)注度
往期回顧 全部

財經(jīng)要聞

洽洽凈利暴跌73% 經(jīng)銷商遭壓貨被迫清盤

頭條要聞

美國政府此次"關(guān)門危機(jī)"不一樣 金價應(yīng)聲大漲

頭條要聞

美國政府此次"關(guān)門危機(jī)"不一樣 金價應(yīng)聲大漲

體育要聞

詹姆斯:愿為東契奇調(diào)整打法 失去熱愛時就會退役

娛樂要聞

和張藝謀離婚后,前妻肖華現(xiàn)狀

科技要聞

宇樹回應(yīng)機(jī)器人安全漏洞:已完成大部分修復(fù)

汽車要聞

升級端到端高快NOA 上汽大眾Pro家族2026款上市

態(tài)度原創(chuàng)

親子
數(shù)碼
家居
旅游
時尚

親子要聞

當(dāng)幼兒園開始搶2歲寶寶

數(shù)碼要聞

支持游戲優(yōu)化超多線程,AMD 為《戴森球計劃》制作組提供線撕整機(jī)

家居要聞

市區(qū)綠洲 鏈接社區(qū)商業(yè)

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

鞠婧祎生圖曝光!又美又閃的“流光穿搭”徹底火了!

無障礙瀏覽 進(jìn)入關(guān)懷版 最近中文字幕高清中文字幕电影二| 国产69精品久久久久久野外| 成人网站三级片AV| 国产熟睡乱子伦午夜视频| 免费现黄频在线观看国产| 亚洲欧美激情另类| 国产乱XXXXX79国语对白| 日本A级三片| 精品国产一区二区三区四区五区| 亚洲美女操逼视频| 欧美xxxx做受欧美.88| 婷婷丁香四月大美女综合| 毛片在线观看免费网站| 国产精品久久久久久久久绿色| 欧美性爱啪啪网| 国产办公室AV| 欧美全免费aaaaaa特黄在线| 男女性杂交内射妇女bbwxz| 色婷婷小视屏| 国产v亚洲v天堂a无码| AV天堂网址 自拍| 中文字幕精品久久久久人妻小| 精品国产午夜福利理论片| 内射极品少妇xxxxxhd| 好吊妞人人超碰| 亚洲精品av一区在线观看| 免费无码VA一区二区三区| 蜜芽miya国产精品免费看特色 | 精品99久久人人妻| 精品九九热在线免费视频| 中文在线天堂8| 中字幕人妻一区二区三区| 欧美激情性战久久99| 后入白皙熟妇| 国产av无码一区二区二三区j| 亚洲AV综合色区无码二区偷拍| 中文国产成人精品久久不卡| 無碼 - 尤物视频 - YW193.COM| 精品嫩模福利一区二区蜜臀| 在线精品一区二区三区| 国产丨熟女丨|