剛剛,Google用更少參數打敗 Qwen 2.5-32B,新模型 Gemma 3 號稱「單 GPU 模型王」,團隊緊急招兵買馬

儘管大型語言和推理模型仍然很受歡迎,但企業越來越多地轉向使用較小的模型來運行人工智能流程,從而減少能源和成本方面的擔憂。
3 月 12 日,Google宣佈推出了 Gemma 3 開源 AI 模型,這是基於與 Gemini 2.0 模型相同的研究和技術構建。
Google在其官方博客中表示,Gemma 3 是一組輕量級的模型,開發者可以在手機、筆記本電腦以及工作站這些設備上直接快速地運行。該模型支持超過 35 種語言,並具備分析文本、圖像及短影片的能力。
Google又發新模型 Gemma 3
Gemma 3 有不同的規模可供選擇,分別是 10 億參數(1B)、40 億參數(4B)、120 億參數(12B)和 270 億參數(27B)。開發者可以根據自身設備的硬件條件以及對性能的要求,選擇適當的模型。
項目地址:https://ollama.com/library/gemma3
Google表示,Gemma 3「以其尺寸提供了最先進的性能」,並且優於 Llama-405B、DeepSeek-V3 和 o3-mini 等領先的 LLM。具體來說,Gemma 3 27B 在 Chatbot Arena Elo 分數測試中排名第二,僅次於 DeepSeek-R1。它超過了 DeepSeek 的較小模型、DeepSeek v3、OpenAI 的 o3-mini、Meta 的 Llama-405B 和 Mistral Large。
具體來講,Gemma 3 有哪些新功能?Google在博客中給出了如下信息:
構建全球最佳單加速器模型:Gemma 3 在 LMArena 排行榜的初步人類偏好評估中,表現優於 Llama-405B、DeepSeek-V3 和 o3-mini。這幫助用戶創建適合單 GPU 或 TPU 主機的引人入勝的用戶體驗。
支持 140 種語言:構建能夠使用客戶語言的應用。Gemma 3 提供超過 35 種語言的開箱即用支持,並對 140 多種語言提供預訓練支持。
創建具備高級文本和視覺推理能力的 AI:輕鬆構建能夠分析圖像、文本和短影片的應用程序,為交互式和智能化應用開闢新的可能性。
通過擴展的上下文窗口處理複雜任務:Gemma 3 提供 128k token 的上下文窗口(相比之下, Gemma 2 的上下文窗口只有 80K),讓應用程序能夠處理和理解大量信息。
使用函數調用創建 AI 驅動的工作流:Gemma 3 支持函數調用和結構化輸出,幫助用戶自動化任務並構建代理式體驗。
通過量化模型實現更快的高性能:Gemma 3 引入了官方量化版本,在保持高精度的同時減少模型大小和計算需求。

該圖表根據 Chatbot Arena Elo 分數對 AI 模型進行排名;分數越高(頂部數字)表示用戶偏好越高。圓點表示預估的 NVIDIA H100 GPU 需求。Gemma 3 27B 排名靠前,儘管其他模型需要多達 32 個 GPU,但它僅需單個 GPU 即可運行。
Google聲稱,Gemma 3 是「世界上最好的單加速器模型」,在配備單個 GPU 的主機上的性能表現超越了 Facebook 的 Llama、DeepSeek 和 OpenAI 等競爭對手。具體來說,Gemma 3 27B 在 Chatbot Arena Elo 分數測試中排名第二,僅次於 DeepSeek-R1。它超過了 DeepSeek 的較小模型、DeepSeek v3、OpenAI 的 o3-mini、Meta 的 Llama-405B 和 Mistral Large。
同時,該模型針對英偉達的 GPU 和專用人工智能硬件進行了優化。Google還發佈了一份長達 26 頁的技術報告,深入闡述了這些性能優勢。
論文地址:https://storage.googleapis.com/deepmind-media/gemma/Gemma3Report.pdf

Gemma 3 與 Hugging Face Transformers、Ollama、JAX、Keras、PyTorch 等開發者工具集成。用戶還可以通過 Google AI Studio、Hugging Face 或 Kaggle 訪問 Gemma 3。公司和開發者可以通過 AI Studio 請求訪問 Gemma 3 API。
有網民對 Gemma 3 和 Qwen 2.5 進行了基準測試比較,兩者在分數上沒有拉開太大差距,有網民表示,「這是可以接受的,較小的模型具有大致相同的功能。」


模型架構做了哪些優化
Gemma 3 在架構上主要進行了兩方面改進:下文長度擴展和預訓練優化。
長上下文的挑戰在於推理過程中 KV 緩存(KV-cache) 內存的爆炸式增長。為緩解這一問題,Google採用了 5:1 的局部 / 全局層交錯機制,即每 5 層局部層後接 1 層全局層,並以局部層作為模型的第一層開始計算。
Gemma 3 通過增加「局部注意力層(local attention layers)」相較於全局注意力層(global attention layers)的比例,並縮短局部注意力的跨度(僅 1024 個 tokens),減少了長上下文時 KV 緩存爆炸問題。

當前,Gemma 3 支持最長 128K tokens 的上下文長度,但 1B 參數模型的上下文長度為 32K tokens。為此,Gemma 3 將全局自注意力層的 RoPE(旋轉位置編碼)基頻 從 10K 提升至 1M,而局部層的基頻保持在 10K。
預訓練方面,Gemma 3 採用與 Gemini 2.0 相同的 SentencePiece 分詞器,詞彙表規模為 262K,並針對非英語語言進行了平衡優化。
另外,Gemma 3 重新設計了數據混合策略,以提升模型的多語言能力,並融入圖像理解能力。
相比 Gemma 2,Gemma 3 增加了訓練 token 量,以容納圖像和文本的混合數據:Gemma 3 27B 使用 14 萬億 tokens 進行預訓練;12B 模型使用 12 萬億 tokens;4B 模型使用 4 萬億 tokens;1B 模型使用 2 萬億 tokens。此外,Gemma 3 還大幅增加了多語言數據,包括單語數據和平行語料。
蒸餾機制方面,每個 token 采樣 256 個 logits,並按教師模型的分佈進行加權,學生模型通過交叉熵損失函數學習教師模型樣本上的分佈。教師模型的目標分佈中,未被采樣的 logits 概率被設為零,並重新歸一化。這種高效的蒸餾過程確保了學生模型能夠準確學習教師模型的輸出分佈,同時控制計算成本。
視覺模態方面,Gemma 3 使用 SigLIP 作為圖像編碼器,將圖像編碼成可由語言模型處理的 token。該視覺編碼器的輸入調整為 896×896 的矢量圖像。固定輸入解像度處理使得非長寬比和高精度圖像變得更加困難。為解決推理過程中的這些限制,圖像可以先進行適應性裁剪,然後將每個裁剪區域調整為 896×896 尺寸,再由圖像編碼器進行編碼。該算法被稱為「平移掃瞄」,它能有效幫助模型聚焦圖像中的更小細節。
Gemma 3 中的注意力機制對於文本和圖像輸入的處理方式不同。文本使用單向注意力,而圖像則採用全局注意力,沒有遮蔽(mask),允許模型以雙向方式查看圖像的每個部分,從而對視覺輸入進行完整且沒有任何限制的理解。

Google表示,當前的 Gemma 3 27B 已經處於帕累托最優點。

網民:Google又一次驚到我了
Gemma 3 發佈後,迅速在 Hacker News 和 Reddit 等平台上引發熱議。有的網民看到 Gemma 3 27B 模型在 LLM Arena 上的得分不淡定了,認為 27B 模型就能擊敗 Claude 3.7 Sonnet 讓人難以置信:
「據Google博客,Gemma 3 27B 在 LLM Arena 上的 ELO 為 1338?27B 模型得分高於 Claude 3.7 Sonnet?太瘋狂了。」
有開發者對Google的技術創新表示感謝:
「感謝Google,我真的很感激。這真是太棒了!作為一名開發人員和產品所有者,我非常願意每週花 6 天時間從事這樣的項目。與 Gemini 相比,從我的角度來看,這些模型是支持 Gemini 的 MoE(混合專家)的基礎模型——也就是說,它們是專家模型的基礎(通過微調實現)。」
該開發者還強調了Google需要把這些模型發佈出來的原因在於:
「第一,Google自身需求:Google需要這些模型來支持其內部的技術開發和實驗;第二,社區評審:通過開放這些模型,Google可以讓社區(開發者、研究人員等)參與評審和改進,從而提升模型的質量和可靠性。第三:客戶安全:這些模型可以幫助客戶在安全的環境中使用 AI 技術,例如通過微調模型來適應私有數據集,而不必直接依賴Google的雲端服務。
因為可以使用這些模型,基於自己的私人數據集對 Gemini 的性能進行微調。」
在 Hacker News 平台,有用戶稱自己在家裡經常使用 Gemma 2,因為它仍然表現良好。
「9B 版本在我的 2080Ti 上運行得非常流暢。它的強大性能和整體能力使其非常實用。我期待嘗試 Gemma 3。不過,我有一些可能比較基礎的問題,想請教一下:你們是如何決定模型大小的?這些模型是如何訓練的?是獨立訓練的,還是它們之間存在某種關聯?」
該用戶的提問得到了Google Gemma 團隊成員 alekandreev(Hacker News 用戶 ID)的回覆。alekandreev 表示:
選擇模型大小並不是一門精確的科學。我們主要根據不同的設備類別(例如低端和高端智能手機、筆記本電腦、16GB GPU 以及更大的 GPU/TPU)來確定合適的模型尺寸。此外,我們希望模型的寬度與深度(層數)的比例始終保持在 90 左右,因為我們發現這是最佳的比例。
這些模型是通過從更大的教師模型中提煉(蒸餾)來訓練的。對於 Gemma 3,我們獨立訓練了不同規模的模型,但在 v3 中,我們統一了 4B 到 27B 的訓練配方。這樣做的目的是在擴大或縮小模型規模時,為您提供更一致的性能和可預測性。
InfoQ 還留意到,alekandreev 在發佈 Gemma 3 時,還甩出了一則招聘啟事,在招聘啟事中,Gemma 團隊強調應聘者需要具備的技能和經驗包括:構建和維護大型軟件系統、分佈式系統、具有 Python 和靜態類型編程語言的經驗(Gemma 主要使用 Python 編程)、編寫設計文檔和代碼審查、願意適應研究環境等。

招聘地址:https://boards.greenhouse.io/deepmind/jobs/6590957
小模型和蒸餾工藝正在興起
自Google於 2024 年 2 月首次發佈 Gemma 以來,外界對小型語言模型的興趣與日俱增。其他小型模型(如微軟的 Phi-4 和 Mistral Small 3)的出現表明,企業希望使用與大語言模型一樣強大的模型構建應用程序,但不一定能充分利用大語言模型的全部功能。
與傳統的大模型相比,小模型在特定任務中表現出色,尤其是在資源有限的環境中。企業開始意識到,並非所有應用場景都需要大語言模型的全部功能。例如,在簡單的代碼編輯器或特定領域的任務中,較小的模型(無論是 SLM 還是通過蒸餾工藝精簡的版本)可以更高效地完成任務,而不會造成資源浪費或過度擬合。
蒸餾工藝作為一種將大型模型的知識轉移到小型模型的技術,正逐漸成為企業優化 AI 部署的重要手段。通過蒸餾,企業可以創建更小、更高效的模型版本,同時保留原始模型的性能。然而,值得注意的是,Gemma 並非 Gemini 2.0 的蒸餾版本。Gemma 是基於相同的數據集和架構獨立訓練的,而不是從更大的模型中學習。
組織通常更喜歡將某些用例擬合到模型中。與將 o3-mini 或 Claude 3.7 Sonnet 等 LLM 部署到簡單的代碼編輯器相比,較小的模型(無論是 SLM 還是精簡版)都可以輕鬆完成這些任務,而不會過度擬合大型模型。
本文來自微信公眾號「AI前線」,作者:冬梅、褚杏娟,36氪經授權發佈。