微軟「小而美」系列三連發！視覺小鋼炮PK GPT-4o，MoE新秀力壓Llama 3.1

08月21日 15:18 新浪網 news-china-auto-hilite

新智元報導

編輯：耳朵好睏

【新智元導讀】微軟Phi 3.5系列上新了！mini模型小而更美，MoE模型首次亮相，vision模型專注多模態。

就在今天，微軟「小語言模型」系列正式升級，最新的Phi 3.5版本一口氣連發三款模型——

– 38.2億參數的Phi-3.5-mini-instruct

– 419億參數的Phi-3.5-MoE-instruct

– 41.5億參數的Phi-3.5-vision-instruct

這三個模型都可供開發人員在Hugging Face上下載、使用和微調，並獲得了微軟的MIT許可證，可以進行不受限制的商業應用和修改。

別看規模不大，但這三個模型在很多第三方基準測試中都性能表現都相當不錯，甚至在某些情況下擊敗了其他領先大模型，包括Google的Gemini 1.5 Flash、Meta的Llama 3.1，甚至在一些競技場上擊敗了OpenAI的GPT-4o。

優秀的性能加上寬鬆的開放許可證，網民在社交網絡上紛紛試用並點讚Phi 3.5新系列：

接下來，根據Hugging Face上的發行說明，簡要介紹一下三款新型號模型的不同特點和用途。

Phi-3.5-mini-Instruct：小而美

模型：https://huggingface.co/microsoft/Phi-3.5-mini-instruct

模型：https://huggingface.co/microsoft/Phi-3.5-mini-instruct

延續之前模型小而美的路線，Phi-3.5-mini-Instruct也是一種輕量級AI模型，基於Phi-3使用的數據集構建，擁有38億個參數，支持128k token上下文長度。

Phi-3.5-mini使用512個H100-80G GPU，在10天內對3.4萬億個token進行了訓練。

Phi-3.5-mini非常適合在內存或算力受限的設備上使用，雖然內存有限但推理能力不減，可以完成代碼生成、數學問題的解決和邏輯推理等任務。

預設情況下，Phi-3.5-mini使用Flash Attention，這需要某些類型的GPU硬件才能運行。

通過在不同類型的GPU上進行測試，發現在NVIDIA V100或更早一代GPU上即可使用。

多語言

儘管尺寸緊湊，Phi-3.5-mini在多語言和多輪對話任務中表現出了優秀的性能。

Phi-3.5-mini支持阿拉伯語、中文、英語、芬蘭語、法語、德語等23種語言。

下表重點介紹了Phi-3.5-mini在多語言MMLU、MEGA和多語言MMLU-pro數據集上的多語言功能。

總體而言，即使只有3.8B參數，Phi-3.5-mini在多語言任務上與其他更大參數的模型相比，也具有競爭力。

長上下文

Phi-3.5-mini支持128K上下文長度，因此該模型能夠執行多種長上下文任務，包括長文檔/會議摘要、長文檔QA、長文檔信息檢索。

Phi-3.5-mini在衡量「長上下文代碼理解」的RepoQA基準測試中超越了其他類似大小的模型，比如Llama-3.1-8B-instruct和Mistral-7B-instruct。

Phi-3.5-MoE-instruct：首款MoE

模型：https://huggingface.co/microsoft/Phi-3.5-MoE-instruct

模型：https://huggingface.co/microsoft/Phi-3.5-MoE-instruct

Phi-3.5-MoE-instruct是微軟Phi模型中的首個MoE模型，將多種不同類型的模型組合成一個模型，彙總的模型內部每個類型模型專門從事不同的任務。

顧名思義，Phi-3.5-MoE採用的是混合專家架構，在23天內使用512個H100-80G GPU，對4.9萬億個token進行了訓練。

420億個參數的架構，支持128k token上下文長度，Phi-3.5-MoE專注於處理高質量，推理密集數據。

然而，根據HuggingFace文檔，Phi-3 MoE有16×3.8B參數，只能使用6.6B參數運行。

Phi-3.5-MoE專為在各種推理任務而設計，尤其是在代碼、數學和多語言理解方面具有強大的性能。

並且，MoE模型經歷了嚴格的優化過程，結合了監督微調、近端策略優化（proximal policy optimization）和直接偏好優化（direct preference optimization），確保精確並且安全的指令遵守。

與Phi-3.5-mini一樣，MoE版本也支持多種語言，並且在長上下文表現優秀，在特定基準測試中優於較大的模型，包括RepoQA：

專業學科

由於Phi-3.5-MoE模型的定位是處理不同種類的專業任務，那它在專業學科領域表現如何？

Phi-3.5-MoE在5個樣本MMLU（大規模多任務語言理解）上擊敗了GPT-4o mini，涉及STEM、人文科學、社會科學等不同專業水平的學科。

因此，MoE模型獨特的組合架構使其能夠跨多種語言的情況下，也能處理不同類型複雜的任務，並且保持高質高效。

Phi-3.5-vision-instruct：視覺多模態

模型：https://huggingface.co/microsoft/Phi-3.5-vision-instruct

模型：https://huggingface.co/microsoft/Phi-3.5-vision-instruct

前兩個模型都用於文本推理，而Phi-3.5-vision-instruct作為多模態模型，集成了文本和圖像處理功能。

Phi-3.5-vision在6天內使用256個A100-80G GPU，對5000億個token進行了訓練。

多模態模型特別適合一般的圖像理解、光學字符識別、圖表和表格理解以及影片摘要等任務。

與Phi-3.5系列中的其他模型一樣，Phi-3.5-vision支持128k token上下文長度，能夠處理複雜的多幀視覺任務。

微軟強調，模型是結合合成和過濾的公開可用數據集進行訓練的，重點關注高質量、推理密集的數據。

視覺任務

Phi-3.5-vision主要用於多幀圖像理解和推理，包括詳細的圖像比較、多圖像摘要和影片摘要，這些能力在辦公場景中有廣泛的應用。

經過測試，大多數圖像基準測試性能都得到提升，例如，MMMU性能從40.2提升到43.0，MMBench性能從80.5提升到81.9，文檔理解基準TextVQA從70.9提升到72.0。

以下是現有多圖像基準的比較結果，平均而言，Phi-3.5-vision在相同尺寸上優於競爭對手模型，並且在多幀功能和影片摘要方面能更大的模型一決高下。

BLINK包含14項視覺任務的基準測試，人類可以很快解決這些任務，但對於LLM來說仍然很難。

不僅在每一項小分上得分更高，例如藝術風格識別和法醫學鑒定都獲得了87.2和92.4的高分；從總分來看，Phi-3.5-vision高於Gemini-1.5-Flash、GPT-4o-mini和Claude-3.5-Sonnet。

Video-MME用於全面評估LLM處理影片數據的能力，涵蓋廣泛的視覺領域任務，並且包括不同時長的影片處理任務。

可以看出，影片處理能力方面，Phi-3.5-vision與領先的幾個模型相比，仍有比較大的進步空間，但得分也都基本超過了InternVL模型。

參考資料：

https://x.com/WeizhuChen/status/1825978852205801970

Microsoft releases powerful new Phi-3.5 models, beating Google, OpenAI and more