夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

T5Gemma模型再更新,谷歌還在堅(jiān)持編碼器-解碼器架構(gòu)

0
分享至

編輯|冷貓

最近,或許是年底了,谷歌的發(fā)布變得有些密集。比如昨天,谷歌發(fā)布了在智能 / 成本上全球性價(jià)比最高的模型 Gemini 3 Flash。



在 Gemini 3 Flash 發(fā)布后,大家都以為谷歌今年的模型發(fā)布已經(jīng)收官的時(shí)候,谷歌卻又掏出了一個(gè)讓大家都意想不到的模型更新:T5Gemma 2

T5Gemma 系列模型似乎沒能給大眾留下什么深刻印象。今年 7 月,谷歌第一次發(fā)布了 T5Gemma 模型系列,并且一口氣發(fā)布了 32 個(gè)模型。

從模型名稱可以看出,T5Gemma 系列模型與 T5 息息相關(guān)。T5(Text-to-Text Transfer Transformer) 是 Google 在 2019 年提出的一種編碼器 - 解碼器(Encoder–Decoder)大模型框架,「編解碼器大模型」的思想源頭,幾乎都能追溯到 T5。

T5Gemma 使用了「適應(yīng)(adaptation)」技術(shù)將已經(jīng)完成預(yù)訓(xùn)練的僅解碼器模型轉(zhuǎn)換為編碼器 - 解碼器架構(gòu)。

但遺憾的是,「編碼器 - 解碼器架構(gòu)」始終沒有成為大模型世界的主流,在「僅解碼器」大語(yǔ)言模型快速迭代的大背景下難逃逐漸被邊緣化的命運(yùn)。

谷歌是為數(shù)不多仍在堅(jiān)持編碼器 - 解碼器架構(gòu)大模型的玩家。

今年上半年,谷歌發(fā)布了開放模型 Gemma 3 系列,性能強(qiáng)大,反響熱烈,衍生出許多基于 Gemma 3 系列模型的優(yōu)秀工作。這次更新的 T5Gemma 2 模型正是其中之一。



簡(jiǎn)而言之:T5Gemma 2,是谷歌新一代編碼器 - 解碼器模型,是首個(gè)多模態(tài)和長(zhǎng)上下文的編碼器 - 解碼器模型,建立在 Gemma 3 的強(qiáng)大功能之上。

主要?jiǎng)?chuàng)新和升級(jí)功能包括:

  • 支持多模態(tài)
  • 擴(kuò)展長(zhǎng)上下文
  • 開箱即用,支持 140 多種語(yǔ)言
  • 效率提升的架構(gòu)創(chuàng)新

同時(shí),谷歌向社區(qū)發(fā)布了 270M–270M、1B–1B 以及 4B–4B 三種規(guī)模的預(yù)訓(xùn)練模型,是社區(qū)中首個(gè)支持超長(zhǎng)上下文(最高 128K)的高性能編解碼器大語(yǔ)言模型



  • 論文鏈接: https://arxiv.org/abs/2512.14856
  • HuggingFace 鏈接: https://huggingface.co/collections/google/t5gemma-2
  • 博客鏈接: https://blog.google/technology/developers/t5gemma-2

T5Gemma 2 延續(xù)了 T5Gemma 的「適應(yīng)(adaptation)」訓(xùn)練路線:將一個(gè)預(yù)訓(xùn)練的純解碼器模型適配為編解碼器模型;同時(shí),底座采用 Gemma 3 模型,通過結(jié)合 Gemma 3 中的關(guān)鍵創(chuàng)新,將這一技術(shù)擴(kuò)展到了視覺 - 語(yǔ)言模型領(lǐng)域。

新架構(gòu),新能力

高效的架構(gòu)創(chuàng)新

T5Gemma 2 不僅僅是一次再訓(xùn)練。它在繼承 Gemma 3 系列許多強(qiáng)大特性的同時(shí),還進(jìn)行了重要的架構(gòu)變更:

1. 詞嵌入綁定

在編碼器與解碼器之間 共享詞嵌入?yún)?shù)。這一設(shè)計(jì)顯著降低了模型的總體參數(shù)量,使我們能夠在相同的顯存 / 內(nèi)存占用下容納更多有效能力 —— 這對(duì)全新的 270M–270M 緊湊模型尤為關(guān)鍵。

2. 合并注意力

在解碼器中,我們采用了合并注意力機(jī)制,將自注意力(self-attention)與交叉注意力(cross-attention)融合為單一、統(tǒng)一的注意力層。這一做法減少了模型參數(shù)和架構(gòu)復(fù)雜度,提升了模型并行化效率,同時(shí)也有利于推理性能的提升。

新一代模型能力

得益于 Gemma 3 的能力,T5Gemma 2 在模型能力上實(shí)現(xiàn)了顯著升級(jí):

1. 多模態(tài)能力

T5Gemma 2 模型能夠同時(shí)理解和處理圖像與文本。通過引入一個(gè)高效的視覺編碼器,模型可以自然地完成視覺問答和多模態(tài)推理等任務(wù)。

2. 超長(zhǎng)上下文

我們對(duì)上下文窗口進(jìn)行了大幅擴(kuò)展。借助 Gemma 3 的局部 — 全局交替注意力機(jī)制(alternating local and global attention),T5Gemma 2 能夠支持最長(zhǎng)達(dá) 128K token 的上下文輸入。

3. 大規(guī)模多語(yǔ)言支持

通過在規(guī)模更大、更加多樣化的數(shù)據(jù)集上進(jìn)行訓(xùn)練,T5Gemma 2 開箱即用即可支持 140 多種語(yǔ)言。

性能結(jié)果

T5Gemma 2 為緊湊型編碼器 - 解碼器模型設(shè)定了新的標(biāo)準(zhǔn),在關(guān)鍵能力領(lǐng)域表現(xiàn)出色,繼承了 Gemma 3 架構(gòu)強(qiáng)大的多模態(tài)和長(zhǎng)上下文特性。



Gemma 3、T5Gemma 和 T5Gemma 2 在五個(gè)獨(dú)特能力上的預(yù)訓(xùn)練性能。

如上圖所示,T5Gemma 2 展現(xiàn)出以下突出優(yōu)勢(shì):

  • 強(qiáng)大的多模態(tài)性能:在多個(gè)基準(zhǔn)測(cè)試中超越 Gemma 3。原本僅支持文本的 Gemma 3 基礎(chǔ)模型(270M 與 1B) 成功適配為 高效的多模態(tài)編解碼器模型。
  • 卓越的長(zhǎng)上下文能力:相較于 Gemma 3 和 T5Gemma,在生成質(zhì)量上取得了顯著提升。通過引入獨(dú)立的編碼器,T5Gemma 2 在處理長(zhǎng)上下文問題時(shí)表現(xiàn)更佳。
  • 全面提升的通用能力:在 代碼、推理和多語(yǔ)言 等任務(wù)上,T5Gemma 2 整體上均優(yōu)于其對(duì)應(yīng)規(guī)模的 Gemma 3 模型。



訓(xùn)練后性能。這里的結(jié)果僅用于說明,研究團(tuán)隊(duì)對(duì) T5Gemma 2 進(jìn)行了最小的 SFT,未使用 RL。另外請(qǐng)注意,預(yù)訓(xùn)練和訓(xùn)練后基準(zhǔn)是不同的,因此不同圖表中的分?jǐn)?shù)不可比較。



Gemma 3、T5Gemma 與 T5Gemma 2 的詳細(xì)預(yù)訓(xùn)練結(jié)果。需要注意的是,Gemma 3 的 270M 與 1B 模型,以及 T5Gemma 的 2B–2B 和 9B–9B 模型均為純文本模型。帶有 “?” 標(biāo)記的結(jié)果為近似值,無法在不同論文之間直接比較。



Gemma 3、T5Gemma 與 T5Gemma 2 的詳細(xì)后訓(xùn)練結(jié)果。盡管 T5Gemma 2 的后訓(xùn)練過程相對(duì)輕量化,但其在大多數(shù)能力維度上仍然優(yōu)于 Gemma 3。

實(shí)驗(yàn)結(jié)果表明,該適配策略在不同模型架構(gòu)與不同模態(tài)上都具有良好的通用性,同時(shí)也驗(yàn)證了編解碼器架構(gòu)在長(zhǎng)上下文建模方面的獨(dú)特優(yōu)勢(shì)。與 T5Gemma 類似,T5Gemma 2 在預(yù)訓(xùn)練階段的性能可達(dá)到或超過其 Gemma 3 對(duì)應(yīng)模型,而在后訓(xùn)練階段則取得了顯著更優(yōu)的表現(xiàn)

我們能看到,編碼器 - 解碼器架構(gòu)下的大模型并不弱于僅解碼器架構(gòu)的模型,甚至具備自己獨(dú)特的優(yōu)勢(shì)。

谷歌繼續(xù)堅(jiān)持的編碼器 - 解碼器架構(gòu),能否打破被邊緣化的現(xiàn)狀,讓我們拭目以待。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
官宣!蒂亞戈-席爾瓦重返歐洲,二進(jìn)宮老東家,41歲還想踢世界杯

官宣!蒂亞戈-席爾瓦重返歐洲,二進(jìn)宮老東家,41歲還想踢世界杯

阿超他的體育圈
2025-12-21 06:28:59
B費(fèi):我們不能把所有問題歸咎于C羅,他在禁區(qū)內(nèi)仍是頂級(jí)殺手

B費(fèi):我們不能把所有問題歸咎于C羅,他在禁區(qū)內(nèi)仍是頂級(jí)殺手

懂球帝
2025-12-20 07:46:21
山西法官學(xué)院院長(zhǎng)蘇星君任臨汾中院黨組書記

山西法官學(xué)院院長(zhǎng)蘇星君任臨汾中院黨組書記

上游新聞
2025-12-19 21:57:05
市委書記女兒去縣財(cái)政局工作,局長(zhǎng)處處為難她,某天書記來探班

市委書記女兒去縣財(cái)政局工作,局長(zhǎng)處處為難她,某天書記來探班

秋風(fēng)專欄
2025-10-23 11:23:56
太不尋常了!日本外長(zhǎng)公開承認(rèn)波茨坦公告,日高官求中國(guó)一件事

太不尋常了!日本外長(zhǎng)公開承認(rèn)波茨坦公告,日高官求中國(guó)一件事

芊芊子吟
2025-12-21 06:40:04
中超倒數(shù)第3新帥確認(rèn)!降級(jí)隊(duì)前任主帥將上任,球隊(duì)暫未完成清欠

中超倒數(shù)第3新帥確認(rèn)!降級(jí)隊(duì)前任主帥將上任,球隊(duì)暫未完成清欠

中超偽球迷
2025-12-20 21:30:30
豪門狂歡夜:皇馬2-0,尤文2-1,阿森納1-0,利物浦2-1,曼城3-0

豪門狂歡夜:皇馬2-0,尤文2-1,阿森納1-0,利物浦2-1,曼城3-0

側(cè)身凌空斬
2025-12-21 06:14:02
1955年大授銜,得知老首長(zhǎng)只是大校,開國(guó)中將失聲哭泣:這不公平

1955年大授銜,得知老首長(zhǎng)只是大校,開國(guó)中將失聲哭泣:這不公平

史之銘
2025-12-21 02:07:43
羽毛球總決賽:12月21日賽程公布!產(chǎn)生5項(xiàng)冠軍,國(guó)羽4項(xiàng)晉級(jí)決賽

羽毛球總決賽:12月21日賽程公布!產(chǎn)生5項(xiàng)冠軍,國(guó)羽4項(xiàng)晉級(jí)決賽

國(guó)乒二三事
2025-12-21 06:30:47
南京區(qū)域?qū)Ш绞ъ`原因公布,故障后我才更理解“北斗”的強(qiáng)大!

南京區(qū)域?qū)Ш绞ъ`原因公布,故障后我才更理解“北斗”的強(qiáng)大!

元爸體育
2025-12-20 11:14:42
有沒有讓你念念不忘的好名字?網(wǎng)友:姓安,一直沒找到好聽的名字

有沒有讓你念念不忘的好名字?網(wǎng)友:姓安,一直沒找到好聽的名字

帶你感受人間冷暖
2025-12-18 00:10:08
劉震云:成年人最高境界——好聽的話別當(dāng)真,難聽的話別走心

劉震云:成年人最高境界——好聽的話別當(dāng)真,難聽的話別走心

杏花煙雨江南的碧園
2025-11-01 14:30:03
關(guān)于性欲的真相(適用于所有人)

關(guān)于性欲的真相(適用于所有人)

心理咨詢師陳實(shí)
2025-12-03 22:10:03
洪森又火了,這次不是因?yàn)榕逋ㄌ?,而是因?yàn)樗淖腺e——陳志!

洪森又火了,這次不是因?yàn)榕逋ㄌ?,而是因?yàn)樗淖腺e——陳志!

忠于法紀(jì)
2025-10-18 08:53:26
日本為什么挑釁中國(guó),西班牙專家:中國(guó)錯(cuò)就錯(cuò)在沒跟日本徹底清算

日本為什么挑釁中國(guó),西班牙專家:中國(guó)錯(cuò)就錯(cuò)在沒跟日本徹底清算

我心縱橫天地間
2025-12-08 18:32:33
央視跨年晚會(huì)落地山西!這座小城,到底藏了多少驚喜?

央視跨年晚會(huì)落地山西!這座小城,到底藏了多少驚喜?

黃河新聞網(wǎng)呂梁頻道
2025-12-20 10:27:19
深圳烤雞少年塌房!從日入過萬到被舉報(bào),所謂秘方竟是“肉寶王”

深圳烤雞少年塌房!從日入過萬到被舉報(bào),所謂秘方竟是“肉寶王”

鋭娛之樂
2025-12-20 23:17:42
官方通報(bào):聯(lián)合調(diào)查組,已進(jìn)駐!

官方通報(bào):聯(lián)合調(diào)查組,已進(jìn)駐!

南國(guó)今報(bào)
2025-12-20 21:35:36
賽那被上強(qiáng)度了!1.5T插混+續(xù)航1420km,24.99萬到手,別克掀桌

賽那被上強(qiáng)度了!1.5T插混+續(xù)航1420km,24.99萬到手,別克掀桌

生活魔術(shù)專家
2025-12-20 09:48:51
歐盟11國(guó)部隊(duì)進(jìn)入烏克蘭,澤連斯基放棄北約,俄烏?;鹋R近

歐盟11國(guó)部隊(duì)進(jìn)入烏克蘭,澤連斯基放棄北約,俄烏?;鹋R近

瑪麗蓮萌兔
2025-12-19 07:21:59
2025-12-21 07:23:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
11957文章數(shù) 142515關(guān)注度
往期回顧 全部

科技要聞

許四清:具身智能的"ChatGPT時(shí)刻"還未到來

頭條要聞

高市早苗要趕在特朗普訪華前行動(dòng) 以免被中美邊緣化

頭條要聞

高市早苗要趕在特朗普訪華前行動(dòng) 以免被中美邊緣化

體育要聞

我開了20年大巴,現(xiàn)在是一名西甲主帥

娛樂要聞

2026央視跨年晚會(huì)陣容曝光,豪華陣仗

財(cái)經(jīng)要聞

求解“地方財(cái)政困難”

汽車要聞

嵐圖推進(jìn)L3量產(chǎn)測(cè)試 已完成11萬公里實(shí)際道路驗(yàn)證

態(tài)度原創(chuàng)

數(shù)碼
房產(chǎn)
家居
公開課
軍事航空

數(shù)碼要聞

一屏多用:華為Mate X7 / XTs折疊屏手機(jī)“變身”智能手卡

房產(chǎn)要聞

廣州有態(tài)度,一座國(guó)際化社區(qū)給出的城市答案

家居要聞

高端私宅 理想隱居圣地

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

澤連斯基:前線局勢(shì)愈發(fā)艱難

無障礙瀏覽 進(jìn)入關(guān)懷版 乱XXXXX普通话对白| 亚洲AV无码乱码国产精品金秘书| 三级片在线看| 吞精69成人免费看片| 日韩乱码卡一卡2卡三卡四| 女人被男人狂躁c高潮视频| 日韩免费AV一区二区| 九九九九精品九九九九| 精品美女Www爽不爽| 久久午夜夜伦鲁鲁片不卡| 亚洲日韩午夜成人影院| 怡红院成人电影免费高清| 亚洲无码人气| 欧美一区二区性视频区 | 国产乱子伦在线观看| 日韩在线视频线观看一区| а√天堂www在线а√天堂下载| 久久综合av色老头免费观看| 欧洲女处破女www| 日本高清免费毛片久久| 国产女高清在线看免费观看| 激情文学欧美| 四虎永久在线精品免费网址| 国产足交欧美足交一区二区三区 | 亚洲日韩av无码一区二区三区人| 日韩精品无码人成视频手机| 无码高清一区| 国产一区二区三区免费观看在线| 好大好深好猛好爽视频| 香港三日本8a三级少妇三级99 | 亚洲天堂网2016| 日韩AV专区| 亚洲国产精品成人av网| 男人的网站在线观看| 欧美成人高清ww| 欧美性精品| 中日韩欧美一区| 熟女AA级毛片天堂影院一| 久久久99久久久国产自输拍| 久久精品国产精品国产一区| 日韩精品人妻系列成人网站|