微軟「小而美」系列三連發!視覺小鋼炮PK GPT-4o,MoE新秀力壓Llama 3.1

新智元報導  

編輯:耳朵 好睏

【新智元導讀】微軟Phi 3.5系列上新了!mini模型小而更美,MoE模型首次亮相,vision模型專注多模態。

就在今天,微軟「小語言模型」系列正式升級,最新的Phi 3.5版本一口氣連發三款模型——

– 38.2億參數的Phi-3.5-mini-instruct

– 419億參數的Phi-3.5-MoE-instruct

– 41.5億參數的Phi-3.5-vision-instruct

這三個模型都可供開發人員在Hugging Face上下載、使用和微調,並獲得了微軟的MIT許可證,可以進行不受限制的商業應用和修改。

別看規模不大,但這三個模型在很多第三方基準測試中都性能表現都相當不錯,甚至在某些情況下擊敗了其他領先大模型,包括Google的Gemini 1.5 Flash、Meta的Llama 3.1,甚至在一些競技場上擊敗了OpenAI的GPT-4o。

優秀的性能加上寬鬆的開放許可證,網民在社交網絡上紛紛試用並點讚Phi 3.5新系列:

接下來,根據Hugging Face上的發行說明,簡要介紹一下三款新型號模型的不同特點和用途。

Phi-3.5-mini-Instruct:小而美

模型:https://huggingface.co/microsoft/Phi-3.5-mini-instruct模型:https://huggingface.co/microsoft/Phi-3.5-mini-instruct

延續之前模型小而美的路線,Phi-3.5-mini-Instruct也是一種輕量級AI模型,基於Phi-3使用的數據集構建,擁有38億個參數,支持128k token上下文長度。

Phi-3.5-mini使用512個H100-80G GPU,在10天內對3.4萬億個token進行了訓練。

Phi-3.5-mini非常適合在內存或算力受限的設備上使用,雖然內存有限但推理能力不減,可以完成代碼生成、數學問題的解決和邏輯推理等任務。

預設情況下,Phi-3.5-mini使用Flash Attention,這需要某些類型的GPU硬件才能運行。

通過在不同類型的GPU上進行測試,發現在NVIDIA V100或更早一代GPU上即可使用。

多語言

儘管尺寸緊湊,Phi-3.5-mini在多語言和多輪對話任務中表現出了優秀的性能。

Phi-3.5-mini支持阿拉伯語、中文、英語、芬蘭語、法語、德語等23種語言。

下表重點介紹了Phi-3.5-mini在多語言MMLU、MEGA和多語言MMLU-pro數據集上的多語言功能。

總體而言,即使只有3.8B參數,Phi-3.5-mini在多語言任務上與其他更大參數的模型相比,也具有競爭力。

長上下文

Phi-3.5-mini支持128K上下文長度,因此該模型能夠執行多種長上下文任務,包括長文檔/會議摘要、長文檔QA、長文檔信息檢索。

Phi-3.5-mini在衡量「長上下文代碼理解」的RepoQA基準測試中超越了其他類似大小的模型,比如Llama-3.1-8B-instruct和Mistral-7B-instruct。

Phi-3.5-MoE-instruct:首款MoE

模型:https://huggingface.co/microsoft/Phi-3.5-MoE-instruct模型:https://huggingface.co/microsoft/Phi-3.5-MoE-instruct

Phi-3.5-MoE-instruct是微軟Phi模型中的首個MoE模型,將多種不同類型的模型組合成一個模型,彙總的模型內部每個類型模型專門從事不同的任務。

顧名思義,Phi-3.5-MoE採用的是混合專家架構,在23天內使用512個H100-80G GPU,對4.9萬億個token進行了訓練。

420億個參數的架構,支持128k token上下文長度,Phi-3.5-MoE專注於處理高質量,推理密集數據。

然而,根據HuggingFace文檔,Phi-3 MoE有16×3.8B參數,只能使用6.6B參數運行。

Phi-3.5-MoE專為在各種推理任務而設計,尤其是在代碼、數學和多語言理解方面具有強大的性能。

並且,MoE模型經歷了嚴格的優化過程,結合了監督微調、近端策略優化(proximal policy optimization)和直接偏好優化(direct preference optimization),確保精確並且安全的指令遵守。

與Phi-3.5-mini一樣,MoE版本也支持多種語言,並且在長上下文表現優秀,在特定基準測試中優於較大的模型,包括RepoQA:

專業學科

由於Phi-3.5-MoE模型的定位是處理不同種類的專業任務,那它在專業學科領域表現如何?

Phi-3.5-MoE在5個樣本MMLU(大規模多任務語言理解)上擊敗了GPT-4o mini,涉及STEM、人文科學、社會科學等不同專業水平的學科。

因此,MoE模型獨特的組合架構使其能夠跨多種語言的情況下,也能處理不同類型複雜的任務,並且保持高質高效。

Phi-3.5-vision-instruct:視覺多模態

模型:https://huggingface.co/microsoft/Phi-3.5-vision-instruct模型:https://huggingface.co/microsoft/Phi-3.5-vision-instruct

前兩個模型都用於文本推理,而Phi-3.5-vision-instruct作為多模態模型,集成了文本和圖像處理功能。

Phi-3.5-vision在6天內使用256個A100-80G GPU,對5000億個token進行了訓練。

多模態模型特別適合一般的圖像理解、光學字符識別、圖表和表格理解以及影片摘要等任務。

與Phi-3.5系列中的其他模型一樣,Phi-3.5-vision支持128k token上下文長度,能夠處理複雜的多幀視覺任務。

微軟強調,模型是結合合成和過濾的公開可用數據集進行訓練的,重點關注高質量、推理密集的數據。

視覺任務

Phi-3.5-vision主要用於多幀圖像理解和推理,包括詳細的圖像比較、多圖像摘要和影片摘要,這些能力在辦公場景中有廣泛的應用。

經過測試,大多數圖像基準測試性能都得到提升,例如,MMMU性能從40.2提升到43.0,MMBench性能從80.5提升到81.9,文檔理解基準TextVQA從70.9提升到72.0。

以下是現有多圖像基準的比較結果,平均而言,Phi-3.5-vision在相同尺寸上優於競爭對手模型,並且在多幀功能和影片摘要方面能更大的模型一決高下。

BLINK包含14項視覺任務的基準測試,人類可以很快解決這些任務,但對於LLM來說仍然很難。

不僅在每一項小分上得分更高,例如藝術風格識別和法醫學鑒定都獲得了87.2和92.4的高分;從總分來看,Phi-3.5-vision高於Gemini-1.5-Flash、GPT-4o-mini和Claude-3.5-Sonnet。

Video-MME用於全面評估LLM處理影片數據的能力,涵蓋廣泛的視覺領域任務,並且包括不同時長的影片處理任務。

可以看出,影片處理能力方面,Phi-3.5-vision與領先的幾個模型相比,仍有比較大的進步空間,但得分也都基本超過了InternVL模型。

參考資料:參考資料:

https://x.com/WeizhuChen/status/1825978852205801970

Microsoft releases powerful new Phi-3.5 models, beating Google, OpenAI and more