Mistral AI推出24B開源模型,能運行於32GB RAM蘋果MacBook
同樣面對 AI 大模型領域的「鯰魚」DeepSeek,不同於美國 AI 公司 Anthropic CEO 達里奧·阿莫迪(Dario Amodei)用「萬字檄文」施壓白宮加強管製的敵對態度,法國明星 AI 公司 Mistral AI 則在發佈自家新模型的同時在其技術博文中兩次「致敬」DeepSeek。

當地時間 1 月 30 日,Mistral AI 發佈一款名為 Mistral Small 3 的開源模型。與此同時,其發表了一篇技術博文針對該模型加以詳細介紹。
Mistral AI 在博文中表示:「Mistral Small 3 既沒有經過強化學習訓練,也沒有經過合成數據訓練,因此比 Deepseek R1(一項偉大而互補的開源技術!)等模型更早進入模型生產流程。」
其還寫道:「對於開源社區來說,這是激動人心的日子!和最近發佈的 DeepSeek 一樣,Mistral Small 3 為大型開源推理模型帶來了補充,作為一款強大的基礎模型,其推理能力得到了更進一步的發展。」言辭之間,似乎流露著 Mistral AI 對於 DeepSeek 的惺惺相惜。

據介紹,Mistral Small 3 是一個經過預訓練和指導的模型,其參數為 240 億,其在大規模多任務語言理解(MMLU,Massive Multitask Language Understanding)上的準確率超過 81%,延遲為 150 tokens/秒,並可以被部署在任何設備上,甚至能在 32GB RAM 的蘋果 MacBook 上運行。
值得一提的是,Mistral Small 3 的層數遠少於同類模型,大大減少了每次前向傳播的時間。
Mistral Small 3 與 Llama 3.3 70B 的指令相當,但在相同硬件上速度快出 3 倍以上。這讓 Mistral Small 3 能與 Llama 3.3 70B 或 Qwen 32B 等參數更大的模型相媲美。
Mistral AI 表示,Mistral Small 3 是 GPT-4o mini 等閉源專有模型的優秀開源替代品,還稱 Mistral Small 3 在延遲上得到了優化。

在評估該模型的性能時,Mistral AI 與外部第三方供應商一起針對 1k 多個專有編碼和通才提示進行並排評估。這項評估任務旨在從 Mistral Small 3 與從另一個匿名模型生成的內容中,挑選出來更受歡迎的模型響應。
Mistral AI 在博文中寫道:「我們意識到在某些情況下,人類判斷的基準與公開可用的基準截然不同,但在核實公平評估時我們格外謹慎。因此我們相信,上述基準是有效的。」
評估結果顯示,相比三倍於其大小的開源權重模型和專有 GPT4o-mini 模型,Mistral Small 3 的指令調優模型在代碼、數學、常識和指令遵循基準測試上更加出色。
由於所有基準測試的性能準確性,均是通過相同的內部評估流程獲得。因此,測試結果可能與 Qwen2.5-32B-Instruct、Llama-3.3-70B-Instruct、Gemma-2-27B-IT 這幾款模型之前報告的性能略有不同。
而 Wildbench、Arena hard 和 MTBench 等基於評判的評估,均基於 OpenAI 於 2024 年 5 月 13 日發佈的 GPT-4o 模型。
Mistral AI 表示,Mistral Small 3 是目前同類產品中最有效的模型,它很好地補全了大型開源推理模型,其還稱 Mistral Small 3 極大降低了計算成本,並表示這可能會重塑先進 AI 部署的經濟性。
正因此,Mistral AI 在其領英主頁上稱 Mistral Small 3 是「加速全球各行各業採用生成式 AI 的遊戲規則改變者(game-changer)」。

Mistral AI 的聯合創始人兼首席科學官紀堯姆·蘭普萊(Guillaume Lample)也告訴媒體:「我們認為,它在所有參數小於 700 億的模型中是最好的。」「我們估計它基本上與幾個月前發佈的 Meta Llama 3.3 70B 相當,而 Mistral Small 3 卻比它小了近三倍。」
據介紹,Mistral AI 之所研發這款新模型,是為了在適合本地部署的規模上拉滿模型性能。Mistral AI 的技術方法側重於效率而非規模,其主要通過迭代模型訓練技術來提高模型性能,這樣一來無需再投入更多的計算能力。
事實上,不僅 Mistral AI 的模型訓練方式有所不同,其模型優化的方式也有所不同。據介紹,Mistral Small 3 在 8 萬億個 tokens 上進行訓練,而同類模型的訓練量為 15 萬億,這讓那些重視計算成本的企業更容易獲得先進的 AI 功能。
據該公司稱,Mistral Small 3 可以在單個圖形處理器(GPU,graphics processing unit)上運行,並能處理 80-90% 的典型業務,這些業務往往需要嚴格的語言和指令遵循表現、以及對於延遲要求非常低。與此同時,Mistral AI 在 Apache 2.0 協議下發佈了預訓練和指令調優的檢查點。

目前,該模型已經可以在 Hugging Face、Ollama、Kaggle、Together AI、Fireworks AI 等平台下載使用,未來不久開發者也能在 NVIDIA NIM、Amazon SageMaker、Groq、Databricks 和 Snowflake 等平台下載使用。
Mistral Small 3 允許企業自由修改和部署它,因此 Mistral AI 表示它非常期待開源社區來採用 Mistral Small 3 以及基於定製其進行模型性質,並表示非常歡迎開發者通過破解 Mistral Small 3 來使其變得更好。
同時,Mistral AI 還在官網預告稱,預計未來幾週內 Mistral AI 的小模型和大模型將具有更強的推理能力。
隨著 AI 行業的成熟,Mistral AI 對更小、更高效模型的關注,可能會被證明是一種具有先見之明的做法。目前,OpenAI 和 Anthropic 等公司更專注於開發越來越大、越來越昂貴的模型,而 Mistral AI 的做法則和其形成鮮明對比。
該公司的聯合創始人兼首席科學官紀堯姆·蘭普萊(Guillaume Lample)也預測稱:「很多開源模型都可能帶有非常寬鬆的許可證。我們認為,這種‘條件型(conditional)’模型很可能會成為一種商品。」
另據悉,Mistral AI 成立於 2023 年 4 月,一共有三位創始人。他們分別是:擔任聯合創始人兼 CEO 的阿瑟·曼斯(Arthur Mensch)、擔任聯合創始人兼首席科學家的紀堯姆·蘭普萊(Guillaume Lample)以及擔任聯合創始人兼 CTO 的蒂莫西·拉克魯瓦(Timothée Lacroix)。

圖 | 三位聯合創始人(來源:https://medium.com/lightspeed-venture-partners/meet-europes-next-great-generative-ai-startup-mistral-ai-25ee537b1f9e)
聯合創始人兼 CEO 阿瑟·曼斯(Arthur Mensch)此前曾在 DeepMind 的法國工作室擔任研究員。其本科畢業於法國巴黎綜合理工學院,碩士畢業於法國巴黎薩基爾高等師範學校,博士畢業於法國巴黎薩基爾大學。

聯合創始人兼首席科學家紀堯姆·蘭普萊(Guillaume Lample)此前曾在 Meta 法國分公司工作過六年多之久。早年其先後在法國巴黎綜合理工學院和美國卡內基梅隆大學獲得兩個碩士學位,並在法國巴黎第六大學獲得博士學位。

圖 | 紀堯姆·蘭普萊(Guillaume Lample)(來源:https://www.actuia.com/acteur/guillaume-lample/)
聯合創始人兼 CTO 蒂莫西·拉克魯瓦(Timothée Lacroix)此前也在 Meta 法國分公司工作過數年之久,早年其在法國巴黎高等師範學院獲得了本科學位。

圖 | 蒂莫西·拉克魯瓦(Timothée Lacroix)(來源:https://soundcloud.com/timothee-lacroix)
2024 年夏,Mistral AI 獲得 6 億歐元的融資,投資者中包含微軟和英偉達。目前,Mistral AI 公司估值約為 60 億美元,其將自己定位為全球 AI 競賽中的「歐洲榜首」。
2025 年 1 月,Mistral AI 與法新社簽署了一項協議,這讓用戶使用 Mistral AI 的產品能夠訪問法新社以六種語言發佈的新聞。
最近,該公司的聯合創始人兼 CEO 阿瑟·曼斯(Arthur Mensch)在參加達沃斯世界經濟論壇時,接受了彭博社的採訪。採訪中其表示,Mistral AI 正在為最終的首次公開募股(IPO,Initial Public Offering)做準備。
在全球 AI 領域,「法國 AI」是一股不可忽視的力量。圖靈獎得主&Meta 首席科學家楊立昆(Yann LeCun)、「Keras 之父」& 前Google高級工程師弗朗索瓦·肖萊(François Chollet)均出生於法國。
法國現任法國總統馬克龍也曾表示希望將法國變為歐洲的一個創業國家,此前馬克龍還親自出席過巴黎一家孵化器的落成典禮。
儘管如此,作為一家 AI 公司要想在全世界都能「吃得開」那就必須擁抱美國市場,此前有報導稱 Mistral AI 將在美國加州舊金山灣區帕洛阿托建立辦事處。
與此同時,該公司還計劃在新加坡開設一個辦事處,以便更好地拓展亞太地區業務。總之,Mistral AI 早已不滿足於在法國發展而是誌在全球。
參考資料:
https://mistral.ai/news/mistral-small-3/
https://www.zdnet.com/article/mistral-ai-says-its-small-3-model-is-a-local-open-source-alternative-to-gpt-4o-mini/
https://www.linkedin.com/feed/update/urn:li:activity:7290735119026257921/
https://www.ibm.com/think/news/french-ai-goes-west
運營/排版:何晨龍