谷歌發(fā)布了開源模型Gemma 3。在部署效率上完勝DeepSeek-R1/3V。
下圖評分排名中,圓點表示估算的英偉達 H100 GPU 需求。Gemma 3 27B 排名較高,僅需一塊 GPU(TPU也可),而DeepSeek-V3/Ri模型各需要32 塊。
下面是它的八大亮點:
1,基于 Gemini 2.0 技術打造 。
2,全家桶:1B、4B、12B 和 27B。
3,“世界上最好的單芯片模型”(單 GPU 或 TPU )。
4,最好的非推理開源模型:LMArena 表現(xiàn)優(yōu)于 Llama-405B、DeepSeek-V3 和 o3-mini,僅次于DeepSeek R1。
5,多模態(tài):擁有“高級文本和視覺推理能力”,可以在 4B+ 規(guī)模上“分析圖像、文本和短視頻”。
6,128k token上下文窗口,開箱即用。
7,支持超過 35 種語言,預訓練支持超過 140 種語言。
8,無需GPU:訓練27B用了6144張TPUv5P卡。
值得注意的是,整個訓練沒有用GPU卡。
關于訓練成本,技術報告稱每種模型配置都經(jīng)過優(yōu)化,以最小化訓練步驟的時間。 對于視覺編碼器(vision encoder),預先計算每張圖片的嵌入(embeddings),并直接使用這些嵌入進行訓練,因此不會增加語言模型的訓練成本。 但報告并沒有給出具體的訓練成本金額。
Gemma-3 27B是一個密集模型,打敗了DeepSeek-3V 671B/37B,成為非推理開源模型第一,但不及推理的DeepSeek-R1。與那些前沿閉源大模型同臺競技,它也能打入前十。
(對 Gemma 3 27B IT 模型在 Chatbot Arena 中的評估(Chiang 等,2024)。所有模型均通過盲測進行對比評估,由人工評審員以并排對比的方式進行評分。每個模型的評分基于 Elo 評級系統(tǒng)。Gemma-3-27B-IT 的數(shù)據(jù)為初步結果,于 2025 年 3 月 8 日 收到。)
關于訓練數(shù)據(jù),Gemma-3 27B 訓練了 14 萬億tokens,12B 版本訓練了 12萬億 tokens,4B 版本訓練了 4萬億 tokens,1B 版本訓練了 2萬億tokens。訓練 token 數(shù)量的增加是為了適應圖像與文本混合數(shù)據(jù)在預訓練過程中的使用。此外,還增加了多語言數(shù)據(jù)的比例,以提升語言覆蓋范圍。引入了單語數(shù)據(jù)(monolingual data)和平行數(shù)據(jù)(parallel data),并采用了一種受Chung 等(2023)啟發(fā)的策略,以處理不同語言數(shù)據(jù)的分布不均衡問題。
谷歌有從一開始就有比較明確的開源策略,即發(fā)布專有的前沿模型Gemini的同時,發(fā)布開源的小模型Gemma,用于在安卓操作系統(tǒng)的端側部署。這次體現(xiàn)了一貫思路,Gemma 3目前成為最適于在端側部署的開源模型。
目前為止,谷歌實現(xiàn)了在閉源大模型API使用成本及閉源模型部署效率均勝過DeepSeek-V3/R1。
接下來,等DeepSeek-R2盡快出手了。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.