Google狂捲小模型,20億參數Gemma 2趕超GPT-3.5,實測iPhone上跑得飛快

每秒40 Token,Google開源20億參數「小鋼炮」。

編譯 |  香草

編輯 |  李水青

GoogleDeepMind的開源小模型家族,又迎來新成員!

智東西8月1日消息,今日淩晨,GoogleDeepMind開源了輕量級模型Gemma 2 2B,其在大模型競技場上的分數超越了GPT-3.5、Llama 2 70B等更大參數的模型。

▲Gemma 2 2B▲Gemma 2 2B

只有20億參數使得Gemma 2 2B可以輕鬆在手機、PC等終端設備上快速運行。開發者實測在Google AI Studio上,其推理速度達到30~40 tokens/s。

▲開發者測試Gemma 2 2B▲開發者測試Gemma 2 2B

與Gemma 2 2B一起推出的,還有用於增強模型可解釋性的工具Gemma Scope,以及用於過濾有害內容的安全分類模型ShieldGemma。

Gemma Scope基於稀疏自動編碼器(SAE)放大模型中的特定點,並採用JumpReLU架構對其進行優化,從而幫助解析模型中處理的密集複雜信息,像一個顯微鏡一樣讓研究人員能「看到」模型內部。

ShieldGemma則針對仇恨言論、騷擾、色情內容、危險內容四個危害領域構建,在響應測試中超過GPT-4等基準模型。

Gemma系列模型最初在今年2月推出,是GoogleDeepMind在Gemini模型的經驗基礎上構建的開源模型。6月,Google推出第二代開源模型Gemma 2,包括9B、27B兩種參數規模,其中27B模型迅速在LMSYS大模型競技場上躍升開源模型前沿。

01.

擊敗35倍參數大模型

比大小沒難倒Gemma 2

Gemma 2 2B是從更大規模的模型中提煉而來的,是繼27B、9B後Google推出的第三款Gemma 2模型。

作為一款只有20億參數的輕量模型,Gemma 2 2B並沒有犧牲性能來換輕便。在LMSYS大模型競技場(Chatbot Arena)排行榜中,Gemma 2 2B以1126分的成績超越了GPT-3.5,以及其數十倍參數規模的Mixtral 8x7B、Llama 2 70B模型。

▲Gemma 2 2B在大模型競技場的成績▲Gemma 2 2B在大模型競技場的成績

有網民測試了Gemma 2 2B在眾多大模型上「翻車」的9.9和9.11比大小問題,Gemma 2 2B迅速給出了正確答案。

▲Gemma 2 2B答題▲Gemma 2 2B答題

運行速度是輕量級模型的一大優勢。具體有多快呢?蘋果機器學習研究員Awni Hannun在他的iPhone 15 pro上的MLX Swift測試了Gemma 2 2B,其推理速度肉眼可見的快。

▲Gemma 2 2B運行速度▲Gemma 2 2B運行速度

開發者Tom Huang實測後稱,其在Google AI Studio上運行速度大概30~40 tokens/s,「比蘋果的模型推得快」。

在部署方面,Gemma 2 2B提供靈活的部署方式,可在各種硬件上高效運行,包括邊緣設備、筆記本電腦,或是基於Vertex AI進行雲部署。

開發者可以在Hugging Face、Kaggle等平台下載Gemma 2 2B的模型權重,用於研究和商業應用,也可以在Google AI Studio中試用其功能。

開源地址:

https://huggingface.co/google/gemma-2-2b

02.

針對四類內容構建分類器

響應率優於GPT-4

為了提升模型的安全性和可訪問性,Google推出了一套基於Gemma 2構建的安全內容分類器模型ShieldGemma,用於過濾AI模型的輸入和輸出,是對Google的負責任AI工具包中現有安全分類器套件的補充。

▲ShieldGemma工作原理▲ShieldGemma工作原理

ShieldGemma針對仇恨言論、騷擾、色情內容、危險內容這四個危害領域構建,提供多種模型尺寸以滿足不同的需求,包括2B、9B和27B。其中,2B參數模型適合在線分類任務,9B和27B版本則用於為離線應用程序提供更高性能。

在外部數據集上的測評結果中,ShieldGemma超越了OpenAI Mod、GPT-4等基線模型。

▲ShieldGemma測評結果▲ShieldGemma測評結果

ShieldGemma的技術報告也同步公開,其中解讀了該模型的構建方法、數據來源以及有效性。在四類有害內容的響應測試上,三個規模的ShieldGemma響應率都優於GPT-4。

▲ShieldGemma響應測試▲ShieldGemma響應測試

技術報告地址:

https://storage.googleapis.com/deepmind-media/gemma/shieldgemma-report.pdf

03.

大模型內部「顯微鏡」

零代碼分析模型行為

為了研究語言模型內部的工作原理,Google推出一套全面、開放的稀疏自動編碼器Gemma Scope。它就像一個顯微鏡,能幫助研究人員「看到」模型內部,從而更好地理解工作原理。

Gemma Scope使用稀疏自動編碼器(SAE)放大模型中的特定點,這些SAE可幫助解析模型中處理的密集複雜信息,將其擴展為更易於分析和理解的形式。

▲使用SAE解釋模型激活的程式化表示▲使用SAE解釋模型激活的程式化表示

通過研究這些擴展的視圖,研究人員可以瞭解Gemma 2如何識別模式、處理信息,並最終做出預測,從而探索如何構建更易於理解、更可靠、更可靠的AI系統。

此前,對SAE的研究主要集中於研究微型模型或大型模型中,單層的內部工作原理。而Gemma Scope的突破之處在於,它在Gemma 2模型的每個層和子層輸出上訓練SAE。其共生成了400多個SAE,學習了3000多萬個特徵。

▲Gemma Scope的SAE發現特徵的示例激活▲Gemma Scope的SAE發現特徵的示例激活

Gemma Scope 還採用了全新的JumpReLU SAE架構進行訓練。原始的SAE架構很難平衡檢測哪些特徵存在,和估計其強度這兩個目標。JumpReLU架構可以更輕鬆地實現這種平衡,從而顯著減少錯誤。

Gemma Scope共開放了超過400個免費SAE,涵蓋Gemma 2 2B和9B的所有層,並提供交互式演示,研究人員不需要編寫代碼即可研究SAE特性並分析模型行為。

▲Gemma Scope交互式演示▲Gemma Scope交互式演示

演示地址:

https://www.neuronpedia.org/gemma-scope

技術報告地址:

https://storage.googleapis.com/gemma-scope/gemma-scope-report.pdf

04.

結語:生成式AI的風

刮向小模型和AI安全

生成式AI發展至今,模型從「卷」參數「卷」規模,到現在「卷」輕便「卷」安全,體現了在技術落地的過程中,離用戶更近、成本更低、更能滿足特定需求的重要性。

AI PC、AI手機逐漸進入消費者的生活,在這個過程中,如何將大模型「塞進」小巧的終端設備,並且保障用戶的隱私安全,是各大AI廠商亟待解決的問題。