Mistral AI新旗艦模型挑戰Llama 3.1,1230億參數性能直逼GPT-4o

智東西7月25日消息,繼Meta昨日推出開源Llama3.1模型之後,法國初創AI公司Mistral AI也加入了競爭行列,推出新一代旗艦模型Mistral Large 2。

該模型擁有1230億參數,128k上下文窗口,可以在單個節點上以高吞吐量運行,支持包括中文在內的數10種語言、80多種編程語言,在多項基準測試中接近GPT-4o和Claude 3.5 Sonnet,預訓練版本的多任務語言理解準確率高達84%,擊敗Llama 3.1 70B。

除了性能上的提升,Mistral AI還投入大量成本增強該模型的推理能力,訓練的重點放在減少模型產生「幻覺」的概率,通過微調模型,使其在響應時更加謹慎和敏銳,提升模型輸出的精準度和可信度。

01.多任務語言理解超越Llama 3.1 70B

Mistral Large 2擁有128k的上下文窗口,在代碼生成、數學和推理方面比Mistral Large功能更強大,並提供更強大的多語言支持和高級函數調用功能,支持包括中文在內的10餘種語言及Python、Java在內的80多種編碼語言。

該模型擁有1230億參數,與剛發佈的Llama 3.1 405B的4050億參數相比,參數數量偏少,但性能卻在能接近後者,甚至在多項基準測試中表現接近GPT4-o和Claude 3.5 Sonnet。

▲Mistral Large 2與Llama 3.1 70B和Llama 3.1 405B在MMLU測試中的準確率對比▲Mistral Large 2與Llama 3.1 70B和Llama 3.1 405B在MMLU測試中的準確率對比

在MMLU(Massive Multi-task Language Understanding)測試中,Mistral Large 2的準確率擊敗Llama 3.1 70B。MMLU為大規模多任務語言理解測試,是一項綜合評估,涵蓋57項任務,包括初等數學、美國歷史、計算機科學、法律等方面。在此測試中,Mistral Large 2準確率高達84%,意味著該模型在多種任務和語言環境中都有出色的性能和廣泛適應性。

02.訓練過程中著重減少「幻覺」

Mistral AI表示,團隊在訓練過程中花費大量成本來增強Mistral Large 2的代碼生成和推理能力。

在使用海量代碼進行訓練後,該模型的代碼生成能力遠超其前身Mistral Large,並且接近GPT-4o、Claude3 Opus和Llama 3 405B。

▲代碼生成基準測試中Mistral Large 2與其他模型的性能和準確率對比▲代碼生成基準測試中Mistral Large 2與其他模型的性能和準確率對比

▲Mistral Large 2與其他模型在GSM8K(8-shot)和MATH(0-shot,no CoT)生成基準測試中的性能和準確率對比

在推理能力訓練方面,Mistral Large 2的訓練重點之一還在於儘量降低模型產生「幻覺」的概率。「幻覺」是AI系統,尤其是生成模型(如大語言模型)在生成內容時出現的虛假、錯誤或不準確的信息。經過微調後,Mistral Large 2在響應時更加謹慎和敏銳,確保提供的信息是可靠、準確的。

Mistral AI稱,經過訓練後,該模型能在自己無法找到解決方案,或沒有足夠自信能提供準確答案時,會承認無法回答該問題,而不是繼續編造答案。

此外,Mistral AI還大幅改進了Mistral Large 2的指令遵循和對話能力。該模型在遵循精確指令和處理長時間多輪對話方面表現尤為出色。

▲Mistral Large 2與其他模型在通用對齊基準測試中的性能對比▲Mistral Large 2與其他模型在通用對齊基準測試中的性能對比

同時,Mistral Large 2在生成答案時儘量保持簡潔明了,以加快交互速度,增加該模型的成本效益。

▲Mistral Large 2與其他模型生成回答的平均長度對比▲Mistral Large 2與其他模型生成回答的平均長度對比

目前,Mistral Large 2可通過Mistral平台(la Plateforme)訪問,在Mistral研究許可下,該模型可供非商業使用。商業應用需要Mistral的商業許可。此外,用戶可以在le Chat上測試該模型,親身體驗其功能。

03.結語:在高性能和成本效益間找到平衡

AI模型研發正以前所未有的速度推進,全球科技巨頭以及新興初創公司之間競爭激烈,模型研發方向已不是一味地追求神經網絡的規模,Mistral Large 2的發佈預示著一個潛在的趨勢,即AI模型要在高性能和成本效益間找到平衡。

Mistral AI表示,Mistral Large 2是其在成本效益、生成速度和性能上的新嘗試。在參數量1230億的情況下,性能能接近4050億的Llama 3.1405B,同時能快速提供簡潔、準確的回答。幾天前,三個小模型(Mistral Nemo、GPT-4omini、SmolLM)的陸續發佈也表示,並不是參數量越大就越好。將來,我們期待更多更具成本效益的模型出現,提高AI生成模型生態的多元化。

來源:Mistral AI