Mistral 發佈了2個7B小模型: Codestral Mamba 7B 和 Mathstral 7B
Mistral 通過 Mamba 2架構訓練了一個7B 的代碼模型:Codestral Mamba,以及新推出一個與 Mistral 7B 相同的架構的數學推理和科學發現的模型:Mathstral 7B
Codestral Mamba超越了 DeepSeek QwenCode,成為小於 10B 參數的最佳模型,並且可以與 Codestral 22B 競爭,並且支持256K的上下文。
與傳統的Transformer模型不同,Mamba模型在處理時間上更高效,並且可以處理無限長度的輸入序列。用戶可以免費使用、修改和分發該模型,適用於各種代碼相關的應用場景。
Codestral Mamba 具有以下特點:
-
線性時間推理:Mamba 模型在推理時間上具有線性時間優勢,這使得它可以更高效地處理大規模輸入數據。
-
無限長度序列建模:理論上可以處理無限長度的序列,使其在處理長文本或代碼時表現出色。
-
高級代碼和推理能力:該模型專門針對代碼生產力進行了訓練,具備高級的代碼理解和推理能力,可以在代碼相關任務中表現優異。
-
高效上下文檢索:在上下文檢索能力測試中,Mamba 模型能夠處理多達 256k tokens 的上下文,適合需要處理大量上下文信息的應用場景。
-
多平台部署:
- 支持通過 mistral-inference SDK 部署,該 SDK 依賴於 Mamba 的 GitHub 倉庫中的參考實現。
- 也可以通過 TensorRT-LLM 部署,並計劃在 llama.cpp 中提供本地推理支持。
與其他開源模型對比,Codestral Mamba 的性能如下:
- CodeGemma 1.1 7B:在大多數測試中,Codestral Mamba 表現更好,特別是在 HumanEval 和 HumanEval C++ 測試中。
- CodeLlama 7B:Codestral Mamba 明顯優於 CodeLlama 7B,特別是在 HumanEval 和 MBPP 基準測試中。
- DeepSeek v1.5 7B:儘管 DeepSeek 在某些基準上表現較好,但總體而言,Codestral Mamba 在 HumanEval 和 HumanEval C++ 中表現更為突出。
- Codestral 22B:相比於更大的 Codestral 22B,Mamba 在一些測試中略遜一籌,但在 HumanEval 和 HumanEval Bash 中表現依然優異。
- CodeLlama 34B:Codestral Mamba 的表現超過了 CodeLlama 34B 在多數測試中的結果。
官方介紹:https://mistral.ai/news/codestral-mamba/
模型下載:https://huggingface.co/mistralai/mamba-codestral-7B-v0.1
Mathstral 的特點:
-
高效數學推理:專為處理複雜、多步邏輯推理的高級數學問題而設計,在數學和科學領域表現出色,能夠處理複雜的多步推理問題,如數學證明和複雜的科學計算。
-
大上下文窗口:擁有32k的上下文窗口,能夠處理和理解更大範圍的輸入信息,對於複雜問題和長文本推理非常有用。
-
先進的性能:
- 在各種行業標準基準測試中表現優異,例如在MATH測試中取得56.6%的成績,在MMLU測試中取得63.47%的成績。
- 使用多數投票方法時,Mathstral 7B在MATH測試中的得分可以提高到68.37%,在64個候選者中使用強獎勵模型時得分為74.59%。
-
模型架構:Mathstral 7B 構建在Mistral 7B的基礎上,繼承了其強大的基礎能力和架構優勢。該模型具有7B參數,
-
定製和微調能力:
- 用戶可以通過mistral-inference和mistral-finetune工具進行模型部署和微調,以滿足特定需求。
- 提供靈活的微調能力,用戶可以根據具體應用場景對模型進行優化。
官方介紹:https://mistral.ai/news/codestral-mamba/
模型下載:https://huggingface.co/mistralai/mathstral-7B-v0.1