智東西(公眾號:zhidxcom)
作者 | 李水青
編輯 | 云鵬

智東西9月5日消息,今天,谷歌開源一款全新的開放式嵌入模型EmbeddingGemma。該模型以小博大,擁有3.08億個參數,專為端側AI設計,支持在筆記本、手機等設備上部署檢索增強生成(RAG)、語義搜索等應用程序。

EmbeddingGemma的一大特征是能生成隱私性良好的高質量嵌入向量,即使在斷網情況下也能正常運行,且性能直追尺寸翻倍的Qwen-Embedding-0.6B。

0.3B!谷歌開源新模型,手機斷網也能跑,0.2GB內存就夠用

▲Hugging Face開源頁面截圖

Hugging Face地址:
 //huggingface.co/collections/google/embeddinggemma-68b9ae3a72a82f0562a80dc4

據谷歌介紹,EmbeddingGemma具有以下幾大亮點:

1、同類最佳:在海量文本嵌入基準(MTEB)上,在500M以下的開放式多語言文本嵌入模型中,EmbeddingGemma排名最高。EmbeddingGemma基于Gemma 3架構打造,已針對100多種語言進行訓練,并且體積小巧,經過量化后可在不到200MB的內存上運行。

0.3B!谷歌開源新模型,手機斷網也能跑,0.2GB內存就夠用

▲MTEB評分:EmbeddingGemma性能比肩比起尺寸大一倍的頂尖模型

2、專為靈活離線工作而設計:小巧、快速、高效,提供可自定義的輸出尺寸,以及2K令牌上下文窗口,可在手機、筆記本電腦、臺式機等日常設備上運行。它旨在與Gemma 3n配合使用,共同為移動RAG管道、語義搜索等解鎖新的用例。

3、與流行工具集成:為了讓用戶輕松開始使用EmbeddingGemma,它已經可以與用戶喜歡的工具一起使用,例如sentence-transformers、llama.cpp、MLX、Ollama、LiteRT、transformers.js、LMStudio、Weaviate、Cloudflare、LlamaIndex、LangChain等。

一、可生成優質嵌入向量,端側RAG生成答案更準確

EmbeddingGemma會生成嵌入向量,在本文語境中,它能將文本轉換為數值向量,在高維空間表征文本語義;嵌入向量質量越高,對語言細微差別與復雜特性的表征效果越好。

0.3B!谷歌開源新模型,手機斷網也能跑,0.2GB內存就夠用

▲EmbeddingGemma會生成嵌入向量

構建RAG流程存在兩個關鍵階段:一是根據用戶輸入檢索相關上下文,二是基于該上下文生成有依據的答案。

為實現檢索功能,用戶可以先生成提示詞的嵌入向量,再計算該向量與系統中所有文檔嵌入向量的相似度——通過這種方式,能夠獲取與用戶查詢最相關的文本片段。

隨后,用戶可將這些文本片段與原始查詢一同輸入生成式模型(如Gemma 3),從而生成符合上下文的相關答案。例如,模型能理解你需要聯系木工的電話,以解決地板損壞的問題。

要讓這個RAG流程切實有效,初始檢索步驟的質量至關重要。質量不佳的嵌入向量會導致檢索到不相關的文檔,進而生成不準確或毫無意義的答案。

而EmbeddingGemma的性能優勢正體現于此——它能提供高質量的(文本)表征,為精準、可靠的端側應用提供核心支持。

二、以小博大,性能接近尺寸翻倍的Qwen-Embedding-0.6B

EmbeddingGemma提供了與其規模相適應的最先進的文本理解能力,在多語言嵌入生成方面具有特別強大的性能。

與其他流行嵌入模型的比較,EmbeddingGemma在檢索、分類和聚類等任務上表現出色。

EmbeddingGemma在Mean(Task)、Retrieval、Classification、Clustering等測試中全面趕超了同等尺寸的gte-multilingual-base模型。其測試成績也已接近尺寸達到其兩倍的Qwen-Embedding-0.6B。

0.3B!谷歌開源新模型,手機斷網也能跑,0.2GB內存就夠用

▲EmbeddingGemma的測評情況

EmbeddingGemma模型擁有308M參數,主要由大約100M模型參數和200M嵌入參數組成。

為了實現更高的靈活性,EmbeddingGemma利用Matryoshka表征學習(MRL),在一個模型中提供多種嵌入大小。開發者可以使用完整的768維向量以獲得最佳質量,也可以將其截斷為較小的維度(128、256或512),以提高速度并降低存儲成本。

谷歌在EdgeTPU上將嵌入推理時間(256個輸入token)縮短至<15ms,突破了速度界限,這意味著用戶的AI功能可以提供實時響應,實現流暢、即時的交互。

利用量化感知訓練(QAT),谷歌在保持模型質量的同時,顯著將RAM使用量降低至200MB以下。

三、斷網可用,可在不到200MB內存上運行

EmbeddingGemma支持開發者構建靈活且注重隱私的設備端應用。它直接在設備硬件上生成文檔嵌入,幫助確保敏感用戶數據的安全。

它使用與Gemma 3n相同的分詞器進行文本處理,從而減少RAG應用的內存占用。用戶可使用EmbeddingGemma解鎖新功能,例如:

無需聯網即可同時搜索個人文件、文本、電子郵件和通知。

通過RAG與Gemma 3n實現個性化、行業特定和離線支持的聊天機器人。

將用戶查詢分類到相關的函數調用,以幫助移動智能體理解(用戶需求)。

下圖為EmbeddingGemma的交互式演示,它將文本嵌入在三維空間中可視化,該模型完全在設備上運行。

0.3B!谷歌開源新模型,手機斷網也能跑,0.2GB內存就夠用

▲EmbeddingGemma的交互式演示(圖源:Hugging Face團隊的Joshua)

Demo體驗地址:
 //huggingface.co/spaces/webml-community/semantic-galaxy)

結語:小尺寸大能力,加速端側智能發展

EmbeddingGemma的推出標志著谷歌在小型化、多語言和端側AI上的新突破。它不僅在性能上接近更大規模的模型,還兼顧了速度、內存和隱私的平衡。

未來,隨著RAG、語義搜索等應用不斷下沉至個人設備,EmbeddingGemma或將成為推動端側智能普及的重要基石。