夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

T5Gemma模型再更新,谷歌還在堅(jiān)持編碼器-解碼器架構(gòu)

0
分享至

編輯|冷貓

最近,或許是年底了,谷歌的發(fā)布變得有些密集。比如昨天,谷歌發(fā)布了在智能 / 成本上全球性價比最高的模型 Gemini 3 Flash。



在 Gemini 3 Flash 發(fā)布后,大家都以為谷歌今年的模型發(fā)布已經(jīng)收官的時候,谷歌卻又掏出了一個讓大家都意想不到的模型更新:T5Gemma 2

T5Gemma 系列模型似乎沒能給大眾留下什么深刻印象。今年 7 月,谷歌第一次發(fā)布了 T5Gemma 模型系列,并且一口氣發(fā)布了 32 個模型。

從模型名稱可以看出,T5Gemma 系列模型與 T5 息息相關(guān)。T5(Text-to-Text Transfer Transformer) 是 Google 在 2019 年提出的一種編碼器 - 解碼器(Encoder–Decoder)大模型框架,「編解碼器大模型」的思想源頭,幾乎都能追溯到 T5。

T5Gemma 使用了「適應(yīng)(adaptation)」技術(shù)將已經(jīng)完成預(yù)訓(xùn)練的僅解碼器模型轉(zhuǎn)換為編碼器 - 解碼器架構(gòu)。

但遺憾的是,「編碼器 - 解碼器架構(gòu)」始終沒有成為大模型世界的主流,在「僅解碼器」大語言模型快速迭代的大背景下難逃逐漸被邊緣化的命運(yùn)。

谷歌是為數(shù)不多仍在堅(jiān)持編碼器 - 解碼器架構(gòu)大模型的玩家。

今年上半年,谷歌發(fā)布了開放模型 Gemma 3 系列,性能強(qiáng)大,反響熱烈,衍生出許多基于 Gemma 3 系列模型的優(yōu)秀工作。這次更新的 T5Gemma 2 模型正是其中之一。



簡而言之:T5Gemma 2,是谷歌新一代編碼器 - 解碼器模型,是首個多模態(tài)和長上下文的編碼器 - 解碼器模型,建立在 Gemma 3 的強(qiáng)大功能之上。

主要創(chuàng)新和升級功能包括:

  • 支持多模態(tài)
  • 擴(kuò)展長上下文
  • 開箱即用,支持 140 多種語言
  • 效率提升的架構(gòu)創(chuàng)新

同時,谷歌向社區(qū)發(fā)布了 270M–270M、1B–1B 以及 4B–4B 三種規(guī)模的預(yù)訓(xùn)練模型,是社區(qū)中首個支持超長上下文(最高 128K)的高性能編解碼器大語言模型



  • 論文鏈接: https://arxiv.org/abs/2512.14856
  • HuggingFace 鏈接: https://huggingface.co/collections/google/t5gemma-2
  • 博客鏈接: https://blog.google/technology/developers/t5gemma-2

T5Gemma 2 延續(xù)了 T5Gemma 的「適應(yīng)(adaptation)」訓(xùn)練路線:將一個預(yù)訓(xùn)練的純解碼器模型適配為編解碼器模型;同時,底座采用 Gemma 3 模型,通過結(jié)合 Gemma 3 中的關(guān)鍵創(chuàng)新,將這一技術(shù)擴(kuò)展到了視覺 - 語言模型領(lǐng)域。

新架構(gòu),新能力

高效的架構(gòu)創(chuàng)新

T5Gemma 2 不僅僅是一次再訓(xùn)練。它在繼承 Gemma 3 系列許多強(qiáng)大特性的同時,還進(jìn)行了重要的架構(gòu)變更:

1. 詞嵌入綁定

在編碼器與解碼器之間 共享詞嵌入?yún)?shù)。這一設(shè)計(jì)顯著降低了模型的總體參數(shù)量,使我們能夠在相同的顯存 / 內(nèi)存占用下容納更多有效能力 —— 這對全新的 270M–270M 緊湊模型尤為關(guān)鍵。

2. 合并注意力

在解碼器中,我們采用了合并注意力機(jī)制,將自注意力(self-attention)與交叉注意力(cross-attention)融合為單一、統(tǒng)一的注意力層。這一做法減少了模型參數(shù)和架構(gòu)復(fù)雜度,提升了模型并行化效率,同時也有利于推理性能的提升。

新一代模型能力

得益于 Gemma 3 的能力,T5Gemma 2 在模型能力上實(shí)現(xiàn)了顯著升級:

1. 多模態(tài)能力

T5Gemma 2 模型能夠同時理解和處理圖像與文本。通過引入一個高效的視覺編碼器,模型可以自然地完成視覺問答和多模態(tài)推理等任務(wù)。

2. 超長上下文

我們對上下文窗口進(jìn)行了大幅擴(kuò)展。借助 Gemma 3 的局部 — 全局交替注意力機(jī)制(alternating local and global attention),T5Gemma 2 能夠支持最長達(dá) 128K token 的上下文輸入。

3. 大規(guī)模多語言支持

通過在規(guī)模更大、更加多樣化的數(shù)據(jù)集上進(jìn)行訓(xùn)練,T5Gemma 2 開箱即用即可支持 140 多種語言。

性能結(jié)果

T5Gemma 2 為緊湊型編碼器 - 解碼器模型設(shè)定了新的標(biāo)準(zhǔn),在關(guān)鍵能力領(lǐng)域表現(xiàn)出色,繼承了 Gemma 3 架構(gòu)強(qiáng)大的多模態(tài)和長上下文特性。



Gemma 3、T5Gemma 和 T5Gemma 2 在五個獨(dú)特能力上的預(yù)訓(xùn)練性能。

如上圖所示,T5Gemma 2 展現(xiàn)出以下突出優(yōu)勢:

  • 強(qiáng)大的多模態(tài)性能:在多個基準(zhǔn)測試中超越 Gemma 3。原本僅支持文本的 Gemma 3 基礎(chǔ)模型(270M 與 1B) 成功適配為 高效的多模態(tài)編解碼器模型。
  • 卓越的長上下文能力:相較于 Gemma 3 和 T5Gemma,在生成質(zhì)量上取得了顯著提升。通過引入獨(dú)立的編碼器,T5Gemma 2 在處理長上下文問題時表現(xiàn)更佳。
  • 全面提升的通用能力:在 代碼、推理和多語言 等任務(wù)上,T5Gemma 2 整體上均優(yōu)于其對應(yīng)規(guī)模的 Gemma 3 模型。



訓(xùn)練后性能。這里的結(jié)果僅用于說明,研究團(tuán)隊(duì)對 T5Gemma 2 進(jìn)行了最小的 SFT,未使用 RL。另外請注意,預(yù)訓(xùn)練和訓(xùn)練后基準(zhǔn)是不同的,因此不同圖表中的分?jǐn)?shù)不可比較。



Gemma 3、T5Gemma 與 T5Gemma 2 的詳細(xì)預(yù)訓(xùn)練結(jié)果。需要注意的是,Gemma 3 的 270M 與 1B 模型,以及 T5Gemma 的 2B–2B 和 9B–9B 模型均為純文本模型。帶有 “?” 標(biāo)記的結(jié)果為近似值,無法在不同論文之間直接比較。



Gemma 3、T5Gemma 與 T5Gemma 2 的詳細(xì)后訓(xùn)練結(jié)果。盡管 T5Gemma 2 的后訓(xùn)練過程相對輕量化,但其在大多數(shù)能力維度上仍然優(yōu)于 Gemma 3。

實(shí)驗(yàn)結(jié)果表明,該適配策略在不同模型架構(gòu)與不同模態(tài)上都具有良好的通用性,同時也驗(yàn)證了編解碼器架構(gòu)在長上下文建模方面的獨(dú)特優(yōu)勢。與 T5Gemma 類似,T5Gemma 2 在預(yù)訓(xùn)練階段的性能可達(dá)到或超過其 Gemma 3 對應(yīng)模型,而在后訓(xùn)練階段則取得了顯著更優(yōu)的表現(xiàn)

我們能看到,編碼器 - 解碼器架構(gòu)下的大模型并不弱于僅解碼器架構(gòu)的模型,甚至具備自己獨(dú)特的優(yōu)勢。

谷歌繼續(xù)堅(jiān)持的編碼器 - 解碼器架構(gòu),能否打破被邊緣化的現(xiàn)狀,讓我們拭目以待。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
劉震云訪談全程寵溺看著董宇輝,約董宇輝和20萬網(wǎng)友去老家吃飯

劉震云訪談全程寵溺看著董宇輝,約董宇輝和20萬網(wǎng)友去老家吃飯

阿雁丶
2025-12-25 00:54:50
官宣加盟!皇馬新大羅空降法甲!傳射兼?zhèn)涮熨x頂級,沖2026世界杯

官宣加盟!皇馬新大羅空降法甲!傳射兼?zhèn)涮熨x頂級,沖2026世界杯

阿泰希特
2025-12-24 09:24:40
消息稱英偉達(dá)H200模組國內(nèi)單價140萬元,黃仁勛有望再來華

消息稱英偉達(dá)H200模組國內(nèi)單價140萬元,黃仁勛有望再來華

IT之家
2025-12-24 11:44:16
乒乓球選手不滿獎金:世界羽聯(lián)獎金是24萬美元,WTT只有8萬

乒乓球選手不滿獎金:世界羽聯(lián)獎金是24萬美元,WTT只有8萬

懂球帝
2025-12-24 12:26:29
上海人請客“怪象”:高不見茅臺,低不用二鍋頭,反而喜歡這5款

上海人請客“怪象”:高不見茅臺,低不用二鍋頭,反而喜歡這5款

濤哥美食匯
2025-12-24 09:29:57
甌海區(qū)政府黨組書記調(diào)整

甌海區(qū)政府黨組書記調(diào)整

溫百君
2025-12-24 22:43:25
金聲獎頒獎典禮:撒貝寧落榜,尼格買提出盡風(fēng)頭,央視僅4人入選

金聲獎頒獎典禮:撒貝寧落榜,尼格買提出盡風(fēng)頭,央視僅4人入選

丁丁鯉史紀(jì)
2025-12-24 16:08:58
美股五連漲 道指、標(biāo)普500指數(shù)創(chuàng)收盤新高

美股五連漲 道指、標(biāo)普500指數(shù)創(chuàng)收盤新高

中新經(jīng)緯
2025-12-25 03:58:09
死刑!就是給這種人準(zhǔn)備的!

死刑!就是給這種人準(zhǔn)備的!

鈞言堂
2025-12-23 14:38:14
新疆男籃第一混子!拿著高薪不出力,上賽季僅打了八場比賽

新疆男籃第一混子!拿著高薪不出力,上賽季僅打了八場比賽

煙潯渺渺
2025-12-25 01:57:25
報省委批準(zhǔn),開除三名廳官黨籍!

報省委批準(zhǔn),開除三名廳官黨籍!

上觀新聞
2025-12-24 16:19:20
國乒“新星”已到貨!這兩個名字,2026年可能會攪動乒壇

國乒“新星”已到貨!這兩個名字,2026年可能會攪動乒壇

眼界縱橫
2025-12-24 18:58:46
國家出手!宮魯鳴打壓球員真相大白,幕后黑手被揪,王思雨太無辜

國家出手!宮魯鳴打壓球員真相大白,幕后黑手被揪,王思雨太無辜

以茶帶書
2025-12-24 15:26:00
新希望:目前希望轉(zhuǎn)債尚有余額約9.49億,公司已經(jīng)準(zhǔn)備好到期兌付相關(guān)工作,不存在壓力

新希望:目前希望轉(zhuǎn)債尚有余額約9.49億,公司已經(jīng)準(zhǔn)備好到期兌付相關(guān)工作,不存在壓力

每日經(jīng)濟(jì)新聞
2025-12-24 18:25:24
醫(yī)生多次強(qiáng)調(diào)老人立刻停止食用4種堅(jiān)果,吃得越多,肺會越差

醫(yī)生多次強(qiáng)調(diào)老人立刻停止食用4種堅(jiān)果,吃得越多,肺會越差

健康科普365
2025-12-22 09:17:36
麗江古城區(qū)文旅公開喊話小紅書,此前發(fā)布的公眾號文章已刪除

麗江古城區(qū)文旅公開喊話小紅書,此前發(fā)布的公眾號文章已刪除

極目新聞
2025-12-24 12:05:54
驚艷!國民閨女全紅嬋,女大十八變超耐看太有魅力

驚艷!國民閨女全紅嬋,女大十八變超耐看太有魅力

情感大頭說說
2025-12-25 01:05:23
年薪5470萬,變成大號德羅贊!NBA超巨滑落,這筆交易可能吃虧了

年薪5470萬,變成大號德羅贊!NBA超巨滑落,這筆交易可能吃虧了

老梁體育漫談
2025-12-25 00:05:28
又一個“龐崢麟”!第一個賽季直接打成隊(duì)內(nèi)得分王,關(guān)鍵才19歲

又一個“龐崢麟”!第一個賽季直接打成隊(duì)內(nèi)得分王,關(guān)鍵才19歲

弄月公子
2025-12-24 22:33:11
紀(jì)實(shí)福建男子擺攤被沒收,為報復(fù)在公交車上點(diǎn)燃汽油,致47人死亡

紀(jì)實(shí)福建男子擺攤被沒收,為報復(fù)在公交車上點(diǎn)燃汽油,致47人死亡

談史論天地
2025-12-24 07:26:37
2025-12-25 06:59:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
11988文章數(shù) 142518關(guān)注度
往期回顧 全部

科技要聞

智譜和MiniMax拿出了“血淋淋”的賬本

頭條要聞

幼兒園8人遇難兒童母親:女兒4歲 今年9月入讀

頭條要聞

幼兒園8人遇難兒童母親:女兒4歲 今年9月入讀

體育要聞

26歲廣西球王,在質(zhì)疑聲中成為本土得分王

娛樂要聞

懷孕增重30斤!闞清子驚傳誕一女夭折?

財(cái)經(jīng)要聞

北京進(jìn)一步放松限購 滬深是否會跟進(jìn)?

汽車要聞

“運(yùn)動版庫里南”一月份亮相???或命名極氪9S

態(tài)度原創(chuàng)

家居
游戲
健康
旅游
軍事航空

家居要聞

法式大平層 智能家居添彩

前《DOTA2》選手起訴LGD 稱拖欠近14萬賽事獎金

這些新療法,讓化療不再那么痛苦

旅游要聞

上海藏2800株水上紅杉!免費(fèi)開放,夕陽下美成油畫

軍事要聞

軍事專家:"特朗普級"戰(zhàn)艦設(shè)計(jì)疑大量借鑒中國055大驅(qū)

無障礙瀏覽 進(jìn)入關(guān)懷版 人妻少妇无码精品专区| 人妻熟妇一区二| 亚洲成人激情在线看| 亚洲区少妇熟女专区| 黄色视频xxxx| 国产一区二区三区不卡av| 首页 综合国产 亚洲 丝袜日本 | 欧美成人精品a∨在线观看| 久久久高清无码| 欧美伦理片第7页| 成年片色大黄全免费网站久久| 精品国产一区二区三区不卡蜜臂| 欧美性猛交xxxxx在线观看| 国产色综合久久无码有码| 老司机在线精品视频网站| 久久精品人成免费| 亚洲欧美日本中文字不卡| 国产性xxxx| 亚洲AV人人澡人人人夜| 麻花传媒在线观看免费| 欧美少妇尉房性生治片| 日本亚洲欧洲无免费码在线| 国产美女MM131爽爽爽| 亚洲午夜久久久久久久久电影网 | 亚洲熟女综合一区二区三区 | 日韩孕妇孕交| 99久久精品国产第一页| 欧美少妇免费| 人人人妻人人人澡人人爽欧一区| 国产黑丝视频在线观看| 爆乳亚洲一区二区中文字幕久久| 欧美精品最大第一页| 最新av中文字幕无码专区| 暴插少妇av| 国产95在线 | 亚洲| 国产精品中文字幕av| 亚洲最大的毛片网站| 2016av天堂网在线观看| 人妻无码视频一区二区三区| 7777色鬼XXXⅩ欧美色妇| 成人爽a毛片在线视频|