夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

華為諾亞發(fā)布ScaleNet:模型放大通用新范式

0
分享至



在基礎(chǔ)模型領(lǐng)域,模型規(guī)模與性能之間的縮放定律(Scaling Law)已被廣泛驗(yàn)證,但模型增大也伴隨著訓(xùn)練成本、存儲(chǔ)需求和能耗的急劇上升。如何在控制參數(shù)量的前提下高效擴(kuò)展模型,成為當(dāng)前研究的關(guān)鍵挑戰(zhàn)。

針對(duì)這一挑戰(zhàn),來(lái)自北京理工大學(xué)、華為諾亞方舟實(shí)驗(yàn)室及香港城市大學(xué)的研究團(tuán)隊(duì)提出了 ScaleNet 方法。該方法創(chuàng)新性地實(shí)現(xiàn)了 “用僅少量額外參數(shù)量,將模型深度擴(kuò)展一倍”,并在視覺(jué) Transformer(ViT)和大語(yǔ)言模型(LLM)上均驗(yàn)證了其有效性,顯著提升了模型性能。這一成果表明 ScaleNet 具備成為通用、經(jīng)濟(jì)高效的模型擴(kuò)展框架的潛力,適用于視覺(jué)與語(yǔ)言多種任務(wù)。



  • 論文地址:https://arxiv.org/abs/2510.18431
  • 開源代碼:https://github.com/Hao840/ScaleNet

研究動(dòng)機(jī):模型擴(kuò)展的高昂成本

當(dāng)前,從頭訓(xùn)練一個(gè)大規(guī)模模型計(jì)算代價(jià)巨大。為此,研究界探索了 “漸進(jìn)式訓(xùn)練”(Progressive Training)等方法,通過(guò)復(fù)用小模型的權(quán)重來(lái)初始化大模型,以加速訓(xùn)練。然而,這些方法通常會(huì)引入大量新的、獨(dú)立的參數(shù),不僅拖慢了優(yōu)化進(jìn)程,也帶來(lái)了巨大的存儲(chǔ)開銷。

針對(duì)這一核心問(wèn)題,ScaleNet 提出可以在保持參數(shù)效率的同時(shí),實(shí)現(xiàn)模型的有效擴(kuò)展。

核心方法:權(quán)重共享與增量調(diào)整

ScaleNet 的核心設(shè)計(jì)結(jié)合了兩種技術(shù):層級(jí)權(quán)重共享(Layer-wise Weight Sharing)和輕量級(jí)適配器(Lightweight Adapter)。

技術(shù)一:層級(jí)權(quán)重共享,實(shí)現(xiàn)參數(shù)高效

不同于為新層引入全新參數(shù)的傳統(tǒng)做法,ScaleNet 讓新增加的層與預(yù)訓(xùn)練模型中的已有層共享同一套參數(shù)。如下圖所示,傳統(tǒng)的漸進(jìn)式訓(xùn)練(a)中,新層擁有獨(dú)立的參數(shù)。而在 ScaleNet(b)中,新層與原始層共享參數(shù)(Weight sharing)。這種設(shè)計(jì)極大地提升了參數(shù)效率,并通過(guò)復(fù)用已有知識(shí)加速了模型的學(xué)習(xí)過(guò)程。



圖 1 漸進(jìn)式訓(xùn)練與 ScaleNet 的對(duì)比

技術(shù)二:輕量級(jí)適配器,賦予共享層特異性

完全的權(quán)重共享可能導(dǎo)致不同層功能趨同,限制模型的表達(dá)能力。為解決此問(wèn)題,ScaleNet 為每個(gè)共享層引入了一個(gè)小型的、可訓(xùn)練的并行適配器模塊(Adapter Module)。該模塊僅包含極少量的調(diào)整參數(shù),用于為每個(gè)共享層實(shí)例提供獨(dú)特的調(diào)整,使它們?cè)诠蚕碇R(shí)主體的同時(shí),又能學(xué)習(xí)到各自的特異化功能,從而保證了擴(kuò)展后模型的容量和性能。



圖 2 ScaleNet 的整體框架

實(shí)驗(yàn)結(jié)果與分析

基于視覺(jué)模型的性能與效率評(píng)估

在 ImageNet-1K 圖像分類任務(wù)上,ScaleNet 在多種模型架構(gòu)(如 DeiT 和 Swin)上均表現(xiàn)出色,在參數(shù)量相近的情況下,穩(wěn)定取得了比基線方法更高的準(zhǔn)確率。



表 1 ScaleNet 與 baseline 方法的性能對(duì)比

相比于直接訓(xùn)練,ScaleNet 另一個(gè)優(yōu)勢(shì)體現(xiàn)在訓(xùn)練效率上。以 24 層的 DeiT-Small 模型為例:

  • 從零訓(xùn)練:訓(xùn)練 300 個(gè) epoch,耗時(shí) 47.3 小時(shí),準(zhǔn)確率為 79.31%。
  • ScaleNet:僅需 100 個(gè) epoch,耗時(shí) 15.8 小時(shí),準(zhǔn)確率達(dá)到 81.13%。



表 2 直接訓(xùn)練與 ScaleNet 之間的開銷與性能對(duì)比

這一結(jié)果表明,ScaleNet 通過(guò)有效利用預(yù)訓(xùn)練知識(shí),大幅縮短了訓(xùn)練周期,同時(shí)獲得了更優(yōu)的模型性能。

基于大語(yǔ)言模型的通用性驗(yàn)證

為了驗(yàn)證 ScaleNet 作為一種通用方法的潛力,研究團(tuán)隊(duì)將其應(yīng)用到了自然語(yǔ)言處理領(lǐng)域。他們使用 ScaleNet 對(duì) Llama-3.2-1B 語(yǔ)言模型進(jìn)行擴(kuò)展,并在多個(gè)常識(shí)推理基準(zhǔn)測(cè)試集上進(jìn)行評(píng)估。

實(shí)驗(yàn)結(jié)果(如表 3 所示)表明,擴(kuò)展后的模型在 BoolQ、PIQA、HellaSwag 等多個(gè)任務(wù)上均超越了原始模型,平均性能提升了 0.92%。這一成功實(shí)踐證明,ScaleNet 的核心思想并不局限于視覺(jué)領(lǐng)域,而是一種具備跨模態(tài)通用性的模型擴(kuò)展框架。



表 3 在大語(yǔ)言模型上的實(shí)驗(yàn)結(jié)果

此外,該方法在目標(biāo)檢測(cè)、語(yǔ)義分割等下游視覺(jué)任務(wù)中同樣取得了穩(wěn)定提升,進(jìn)一步證實(shí)了其良好的泛化能力。

總結(jié)

ScaleNet 框架通過(guò)層級(jí)權(quán)重共享與輕量級(jí)適配器的有效結(jié)合,為預(yù)訓(xùn)練模型的擴(kuò)展提供了一條高效、低成本的技術(shù)路徑。它不僅在視覺(jué)任務(wù)上大幅提升了訓(xùn)練效率和模型性能,還通過(guò)成功應(yīng)用于大語(yǔ)言模型證明了其作為一種通用擴(kuò)展范式的巨大潛力。這項(xiàng)工作為開發(fā)更大、更強(qiáng)且更經(jīng)濟(jì)的 AI 模型提供了新的思路,對(duì)促進(jìn) AI 領(lǐng)域的可持續(xù)發(fā)展具有積極意義。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
曾出演《艾斯奧特曼》的日本演員高峰圭二發(fā)帖質(zhì)問(wèn)高市:與中國(guó)起爭(zhēng)執(zhí)有什么好處

曾出演《艾斯奧特曼》的日本演員高峰圭二發(fā)帖質(zhì)問(wèn)高市:與中國(guó)起爭(zhēng)執(zhí)有什么好處

環(huán)球網(wǎng)資訊
2025-11-17 20:59:32
終于明白為什么有些App打死都不適配鴻蒙系統(tǒng)了!

終于明白為什么有些App打死都不適配鴻蒙系統(tǒng)了!

大白聊IT
2025-11-18 17:18:04
最新:烏克蘭奪回紅軍村公路!切斷庫(kù)皮揚(yáng)斯克俄軍補(bǔ)給線

最新:烏克蘭奪回紅軍村公路!切斷庫(kù)皮揚(yáng)斯克俄軍補(bǔ)給線

項(xiàng)鵬飛
2025-11-18 19:52:18
哈登28+6+5丟絕殺迎28000分里程碑 快船遭76人逆轉(zhuǎn)馬克西39+6

哈登28+6+5丟絕殺迎28000分里程碑 快船遭76人逆轉(zhuǎn)馬克西39+6

醉臥浮生
2025-11-18 10:37:32
日本外務(wù)省官員離開中國(guó)外交部

日本外務(wù)省官員離開中國(guó)外交部

財(cái)聯(lián)社
2025-11-18 14:34:09
宋朝之前連棉被都沒(méi)有,零下幾十度的寒冬,古人是怎么熬過(guò)去的?

宋朝之前連棉被都沒(méi)有,零下幾十度的寒冬,古人是怎么熬過(guò)去的?

法老不說(shuō)教
2025-11-03 19:36:43
學(xué)術(shù)界大地震!某大學(xué)教授簡(jiǎn)歷全靠編,用高中學(xué)歷騙學(xué)校上千萬(wàn)

學(xué)術(shù)界大地震!某大學(xué)教授簡(jiǎn)歷全靠編,用高中學(xué)歷騙學(xué)校上千萬(wàn)

社會(huì)醬
2025-11-18 17:37:12
機(jī)器人集結(jié)交付畫面被質(zhì)疑視頻造假??jī)?yōu)必選回應(yīng):系實(shí)拍

機(jī)器人集結(jié)交付畫面被質(zhì)疑視頻造假??jī)?yōu)必選回應(yīng):系實(shí)拍

南方都市報(bào)
2025-11-18 19:18:07
愛(ài)潑斯坦郵件再爆大瓜!特朗普給克林頓吹過(guò)簫,二人私下照片被扒

愛(ài)潑斯坦郵件再爆大瓜!特朗普給克林頓吹過(guò)簫,二人私下照片被扒

派大星紀(jì)錄片
2025-11-18 16:24:36
請(qǐng)做好充分準(zhǔn)備,世界即將變天!

請(qǐng)做好充分準(zhǔn)備,世界即將變天!

水木然
2025-11-17 23:56:09
醫(yī)生發(fā)現(xiàn):天冷堅(jiān)持戴帽子的人,過(guò)不了半年,身體或會(huì)出現(xiàn)4大變化

醫(yī)生發(fā)現(xiàn):天冷堅(jiān)持戴帽子的人,過(guò)不了半年,身體或會(huì)出現(xiàn)4大變化

感覺(jué)會(huì)火
2025-11-17 12:13:41
哇,這臉蛋極致又高級(jí),這要是在古代,妥妥的貴妃

哇,這臉蛋極致又高級(jí),這要是在古代,妥妥的貴妃

草莓解說(shuō)體育
2025-11-16 00:45:56
生活普法|92、95、98是否都屬于賣淫?

生活普法|92、95、98是否都屬于賣淫?

奇葩游戲醬
2025-11-09 01:23:56
人老了,只剩一個(gè)人的時(shí)候,請(qǐng)記?。?、不再找老伴兒;2、不去養(yǎng)老院;3、不雇保姆,干不動(dòng)了,就請(qǐng)鐘點(diǎn)工

人老了,只剩一個(gè)人的時(shí)候,請(qǐng)記住:1、不再找老伴兒;2、不去養(yǎng)老院;3、不雇保姆,干不動(dòng)了,就請(qǐng)鐘點(diǎn)工

二胡的歲月如歌
2025-11-18 19:30:26
郭士強(qiáng)看人真準(zhǔn)!CBA得分王就這水平?4戰(zhàn)18投1中,三分球11投0中

郭士強(qiáng)看人真準(zhǔn)!CBA得分王就這水平?4戰(zhàn)18投1中,三分球11投0中

萌蘭聊個(gè)球
2025-11-18 15:15:42
中央考核巡查組進(jìn)駐廣西,嚴(yán)查這5個(gè)方面和抽查2個(gè)市

中央考核巡查組進(jìn)駐廣西,嚴(yán)查這5個(gè)方面和抽查2個(gè)市

前沿天地
2025-11-19 01:05:06
養(yǎng)老金大調(diào)整!2026年1月起,養(yǎng)老金差別將如何體現(xiàn)?官方回應(yīng)!

養(yǎng)老金大調(diào)整!2026年1月起,養(yǎng)老金差別將如何體現(xiàn)?官方回應(yīng)!

李博世財(cái)經(jīng)
2025-11-18 14:14:24
今年國(guó)際模特大賽廣州賽區(qū)冠軍選出來(lái)了,長(zhǎng)相真是讓人驚掉了下巴

今年國(guó)際模特大賽廣州賽區(qū)冠軍選出來(lái)了,長(zhǎng)相真是讓人驚掉了下巴

微微熱評(píng)
2025-11-18 22:11:08
F杯童顏美少女「三田真鈴」:笑起來(lái)甜死人不要命

F杯童顏美少女「三田真鈴」:笑起來(lái)甜死人不要命

素然追光
2025-11-19 00:50:03
斯諾克明日決出全部8強(qiáng)!趙心童靜候奧沙利文,小特破1年冠軍荒?

斯諾克明日決出全部8強(qiáng)!趙心童靜候奧沙利文,小特破1年冠軍荒?

劉姚堯的文字城堡
2025-11-19 05:53:25
2025-11-19 07:52:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
11747文章數(shù) 142507關(guān)注度
往期回顧 全部

科技要聞

一夜封神,Gemini 3讓谷歌找回“碾壓感”

頭條要聞

女生借款13萬(wàn)被惡意壘高至1260萬(wàn) 抵押950萬(wàn)房產(chǎn)還債

頭條要聞

女生借款13萬(wàn)被惡意壘高至1260萬(wàn) 抵押950萬(wàn)房產(chǎn)還債

體育要聞

結(jié)束最后一次對(duì)決,陳夢(mèng)和朱雨玲笑著相擁

娛樂(lè)要聞

宋佳奪影后動(dòng)了誰(shuí)的奶酪

財(cái)經(jīng)要聞

中美機(jī)器人爆發(fā)了一場(chǎng)論戰(zhàn)

汽車要聞

硬核配置旗艦氣場(chǎng) 嵐圖泰山售37.99萬(wàn)起

態(tài)度原創(chuàng)

時(shí)尚
親子
家居
教育
游戲

秋天穿衣暫時(shí)沒(méi)靈感?趕緊看看這27套穿搭,舒適自然又大方

親子要聞

規(guī)律跑步訓(xùn)練的孩子更少感冒

家居要聞

彰顯奢華 意式經(jīng)典風(fēng)格

教育要聞

5個(gè)細(xì)節(jié),看穿校長(zhǎng)的真實(shí)水平

魔獸世界:時(shí)光服正式開服,排隊(duì)時(shí)間增加,聯(lián)盟成香餑餑!

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 欧美自拍偷拍另类| 在线国产网址| 精品国精品国产自在久国产应用男| 欧美亚洲成人电影一区二区三区| 你懂的网址精品一区| 欧美人与动牲交欧美精品| 日韩高清亚洲日韩精品一区| 国产针对华人在线播放| 狠狠草伊人影院| 中文字幕成人精品久久不卡| 天干天干天啪啪夜爽爽av| 亚1州区2区3区产品乱码站| 亚洲熟女乱一区二区三区| 狠狠摸狠狠澡| 蜜芽国产欧美一区二区三区| 人妻无码一区二区不卡无码av| 网红xxx主播xxx| 国产成人Av黄大片在线播放| 野花社区视频www官网| 久久精品人妻无码专区| 日本99久久久久久久久人妻斩 | 色网站在线看| 激情黄色在线观看| 久久亚洲性别| 午夜视频在线瓜伦| 成年人午夜影院在线| 中国真实处破女WWW出血| 亚洲幕熟AⅤ无码无码区| 亚洲综合天堂婷婷五月| 日本在线视频www色| 无码人妻aⅴ| 伊人情人综合| 欧美三级日韩三级| 国产一区二区三区视频在线观看| 亚洲人人操人| 国产啪视频免费观看视频 | 色一情一乱一伦一视频免费看| 中文字幕自拍偷拍福利视频| 国产传媒欧美日韩成人精| 被男狂揉吃奶胸60分钟视频| 亚洲高清aⅴ日本欧美视频|