大數(shù)據(jù)文摘出品
谷歌 DeepMind 發(fā)布了全新的 Gemma 3 270M。
它只有 2.7 億參數(shù),比七百億參數(shù)級別的大模型輕了約 250 倍,卻依舊保持強悍。
DeepMind 并不想拿它硬剛 GPT-4o 或 Gemini Ultra,它生來就為極致高效、本地部署而生。
在內部測試中,Gemma 3 270M 已能在 Pixel 9 Pro 的 SoC 上本地運行,整個推理過程無需依賴外部云端。
它甚至能跑進 Chrome 瀏覽器、樹莓派,工程師 Omar Sanseviero 笑稱:“連你的烤面包機都能跑?!?/strong>
谷歌強調:這款小模型的出發(fā)點,就是應對功耗限制、延遲上漲和推理成本飆升的現(xiàn)實挑戰(zhàn)。
Gemma 3 270M 由 1.7 億嵌入?yún)?shù) + 1 億 Transformer 塊參數(shù)組成。
它的詞表高達 25.6 萬,是同級別模型里罕見的“巨詞庫”,能吞下冷僻詞、專業(yè)術語和小語種符號。
在 IFEval 指令遵循基準里,指令調優(yōu)版 Gemma 3 270M 拿到 51.2%:
勝過 SmolLM2 135M Instruct(44.8%),壓過 Qwen 2.5 0.5B Instruct(49.1%),逼近部分十億級中型模型。
Liquid AI 則在社交平臺提醒:自家 LFM2-350M 得分 65.12%,參數(shù)只多約 30%。
在 Pixel 9 Pro 上跑 INT4 量化版本,連續(xù) 25 輪多輪對話耗電僅 0.75%。
谷歌還放出了量化感知訓練(QAT)檢查點,把權重量化到 INT4 的同時保持性能,顯著降低顯存與內存占用,適合資源受限的邊緣設備。
谷歌提出“用對工具”的理念:特定任務用小模型往往更快、更省。
在情感分析、實體提取、合規(guī)檢查、結構化文本生成、查詢路由等場景中,官方示例顯示 Gemma 3 270M 的端側推理延遲可低至50 毫秒量級,而云端大模型動輒數(shù)百毫秒乃至數(shù)秒。
Gemma 3 270M 可以在同一設備上同時部署多個專用微模型,各司其職、互不搶算力。
網(wǎng)址:https://huggingface.co/spaces/webml-community/bedtime-story-generator
此外,谷歌演示了一個完全離線的“睡前故事生成器”用戶在瀏覽器里點選主角、場景和轉折,模型兩秒內生成完整短篇;全過程無云調用,速度與隱私兼得。
同時,Gemma 3 270M 沿用Gemma 自定義許可。
只要傳遞谷歌的禁止使用政策、向下游提供同樣條款并標明修改,就能自由使用、改動、分發(fā)模型和衍生版。
企業(yè)可把它嵌進產品或云服務,也可繼續(xù)訓練,生成內容版權歸使用者,谷歌不主張額外權利。
唯一紅線:不得違法、不得作惡。這不是嚴格的開源許可證,卻足以支撐廣泛商業(yè)化,而且無須另付授權費。
目前,Gemma 生態(tài)下載量已突破 2 億,覆蓋云端、桌面、手機三大形態(tài)。谷歌希望借 Gemma 3 270M 把“高效、隱私、可商用”的端側 AI 路線推得更遠。
作者長期關注 AI 產業(yè)與學術,歡迎對這些方向感興趣的朋友添加微信Q1yezi,共同交流行業(yè)動態(tài)與技術趨勢!
GPU 訓練特惠!
H100/H200 GPU算力按秒計費,平均節(jié)省開支30%以上!
掃碼了解詳情?
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.