作者 | Robert Krzaczyński
譯者 | 田橙
Google DeepMind 宣布推出 EmbeddingGemma,這是一款擁有 3.08 億參數(shù)的開源嵌入模型,專為在本地設(shè)備上高效運(yùn)行而設(shè)計(jì)。借助這一模型,RAG(Retrieval-Augmented Generation,檢索增強(qiáng)生成)、語義搜索、文本分類等應(yīng)用無需依賴服務(wù)器或網(wǎng)絡(luò)連接,也能順暢運(yùn)行。
EmbeddingGemma 采用 Matryoshka 表征學(xué)習(xí)方法,使嵌入向量可以靈活縮減,同時(shí)結(jié)合 量化感知訓(xùn)練(Quantization-Aware Training),大幅提升了運(yùn)行效率。Google 表示,在 EdgeTPU 硬件上處理短文本輸入時(shí),推理時(shí)間可控制在 15 毫秒以內(nèi)。
在 Massive Text Embedding Benchmark (MTEB) 測試中,EmbeddingGemma 以不足 5 億參數(shù)的體量,拿下了同類開源多語言嵌入模型的最佳成績。它支持 100 多種語言,量化后內(nèi)存占用不足 200MB。開發(fā)者可以根據(jù)需要,將輸出維度在 768 到 128 之間靈活調(diào)整,在性能和存儲之間找到平衡,同時(shí)保證模型質(zhì)量不打折。
Google 將 EmbeddingGemma 定位于離線和隱私敏感的使用場景,例如本地搜索個(gè)人文件、在移動端運(yùn)行基于 Gemma 3n 的 RAG 流程,或開發(fā)特定行業(yè)的聊天機(jī)器人。模型也支持微調(diào),便于開發(fā)者針對特定任務(wù)進(jìn)一步優(yōu)化。目前,它已經(jīng)與 transformers.js、llama.cpp、MLX、Ollama、LiteRT 和 LMStudio 等工具完成集成。
在 Reddit 上,用戶也分享了對嵌入模型的實(shí)際用途的看法:
有人能跟我說說嵌入模型到底能干啥嗎?我懂它能用在一些場景里,但它們具體是怎么發(fā)揮作用的呢?
用戶 igorwarzocha 回復(fù)稱:
除了那種大家都知道的搜索引擎,其實(shí)你也能把它塞在大模型和數(shù)據(jù)庫中間,當(dāng)個(gè)打雜的助手。有些寫代碼的工具已經(jīng)這么玩了。只是不確定它是真能幫上忙,還是只是讓大模型更迷糊。 我玩過一陣子,把它當(dāng)成“匹配器”,用來把描述和關(guān)鍵詞配起來(可能是反過來?我忘了),這樣就能在素材庫里自動找到對應(yīng)的圖片,不用我一張張手動翻。效果還行吧,但最后我還是選擇自己生成定制圖片。
Google 方面則強(qiáng)調(diào),EmbeddingGemma 不僅適用于搜索,還可應(yīng)用于離線助手、本地文件檢索,以及隱私敏感行業(yè)的專用聊天機(jī)器人。由于數(shù)據(jù)處理全部在本地完成,像郵件或商務(wù)文檔這樣的敏感信息無需離開設(shè)備。同時(shí),開發(fā)者也能進(jìn)一步微調(diào)模型,以滿足特定領(lǐng)域或特定語言的需求。
隨著 EmbeddingGemma 的推出,Google 試圖為開發(fā)者提供更多選擇:既可以在本地使用這一高效輕量的嵌入模型,也可以通過 Gemini API 調(diào)用更大規(guī)模的 Gemini Embedding 模型,用于大規(guī)模部署。兩者相互補(bǔ)充,形成了覆蓋本地與云端的完整產(chǎn)品線。
https://www.infoq.com/news/2025/09/embedding-gemma/
聲明:本文為 InfoQ 翻譯,未經(jīng)許可禁止轉(zhuǎn)載。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.