Mistral 發佈了2個7B小模型： Codestral Mamba 7B 和 Mathstral 7B

Mistral 通過 Mamba 2架構訓練了一個7B 的代碼模型：Codestral Mamba，以及新推出一個與 Mistral 7B 相同的架構的數學推理和科學發現的模型：Mathstral 7B

Codestral Mamba超越了 DeepSeek QwenCode，成為小於 10B 參數的最佳模型，並且可以與 Codestral 22B 競爭，並且支持256K的上下文。

與傳統的Transformer模型不同，Mamba模型在處理時間上更高效，並且可以處理無限長度的輸入序列。用戶可以免費使用、修改和分發該模型，適用於各種代碼相關的應用場景。

Codestral Mamba 具有以下特點：

線性時間推理：Mamba 模型在推理時間上具有線性時間優勢，這使得它可以更高效地處理大規模輸入數據。
無限長度序列建模：理論上可以處理無限長度的序列，使其在處理長文本或代碼時表現出色。
高級代碼和推理能力：該模型專門針對代碼生產力進行了訓練，具備高級的代碼理解和推理能力，可以在代碼相關任務中表現優異。
高效上下文檢索：在上下文檢索能力測試中，Mamba 模型能夠處理多達 256k tokens 的上下文，適合需要處理大量上下文信息的應用場景。
多平台部署：
- 支持通過 mistral-inference SDK 部署，該 SDK 依賴於 Mamba 的 GitHub 倉庫中的參考實現。
- 也可以通過 TensorRT-LLM 部署，並計劃在 llama.cpp 中提供本地推理支持。

與其他開源模型對比，Codestral Mamba 的性能如下：

CodeGemma 1.1 7B：在大多數測試中，Codestral Mamba 表現更好，特別是在 HumanEval 和 HumanEval C++ 測試中。
CodeLlama 7B：Codestral Mamba 明顯優於 CodeLlama 7B，特別是在 HumanEval 和 MBPP 基準測試中。
DeepSeek v1.5 7B：儘管 DeepSeek 在某些基準上表現較好，但總體而言，Codestral Mamba 在 HumanEval 和 HumanEval C++ 中表現更為突出。
Codestral 22B：相比於更大的 Codestral 22B，Mamba 在一些測試中略遜一籌，但在 HumanEval 和 HumanEval Bash 中表現依然優異。
CodeLlama 34B：Codestral Mamba 的表現超過了 CodeLlama 34B 在多數測試中的結果。

官方介紹：https://mistral.ai/news/codestral-mamba/

模型下載：https://huggingface.co/mistralai/mamba-codestral-7B-v0.1

Mathstral 的特點：

高效數學推理：專為處理複雜、多步邏輯推理的高級數學問題而設計，在數學和科學領域表現出色，能夠處理複雜的多步推理問題，如數學證明和複雜的科學計算。
大上下文窗口：擁有32k的上下文窗口，能夠處理和理解更大範圍的輸入信息，對於複雜問題和長文本推理非常有用。
先進的性能：
- 在各種行業標準基準測試中表現優異，例如在MATH測試中取得56.6%的成績，在MMLU測試中取得63.47%的成績。
- 使用多數投票方法時，Mathstral 7B在MATH測試中的得分可以提高到68.37%，在64個候選者中使用強獎勵模型時得分為74.59%。
模型架構：Mathstral 7B 構建在Mistral 7B的基礎上，繼承了其強大的基礎能力和架構優勢。該模型具有7B參數，
定製和微調能力：
- 用戶可以通過mistral-inference和mistral-finetune工具進行模型部署和微調，以滿足特定需求。
- 提供靈活的微調能力，用戶可以根據具體應用場景對模型進行優化。

官方介紹：https://mistral.ai/news/codestral-mamba/

模型下載：https://huggingface.co/mistralai/mathstral-7B-v0.1