Mistral 發佈了2個7B小模型: Codestral Mamba 7B 和 Mathstral 7B

Mistral 通過 Mamba 2架構訓練了一個7B 的代碼模型:Codestral Mamba,以及新推出一個與 Mistral 7B 相同的架構的數學推理和科學發現的模型:Mathstral 7B

Codestral Mamba超越了 DeepSeek QwenCode,成為小於 10B 參數的最佳模型,並且可以與 Codestral 22B 競爭,並且支持256K的上下文。

與傳統的Transformer模型不同,Mamba模型在處理時間上更高效,並且可以處理無限長度的輸入序列。用戶可以免費使用、修改和分發該模型,適用於各種代碼相關的應用場景。

Codestral Mamba 具有以下特點:

  1. 線性時間推理Mamba 模型在推理時間上具有線性時間優勢,這使得它可以更高效地處理大規模輸入數據。

  2. 無限長度序列建模理論上可以處理無限長度的序列,使其在處理長文本或代碼時表現出色。

  3. 高級代碼和推理能力該模型專門針對代碼生產力進行了訓練,具備高級的代碼理解和推理能力,可以在代碼相關任務中表現優異。

  4. 高效上下文檢索在上下文檢索能力測試中,Mamba 模型能夠處理多達 256k tokens 的上下文,適合需要處理大量上下文信息的應用場景。

  5. 多平台部署

    • 支持通過 mistral-inference SDK 部署,該 SDK 依賴於 Mamba 的 GitHub 倉庫中的參考實現。
    • 也可以通過 TensorRT-LLM 部署,並計劃在 llama.cpp 中提供本地推理支持。

與其他開源模型對比,Codestral Mamba 的性能如下:

  • CodeGemma 1.1 7B:在大多數測試中,Codestral Mamba 表現更好,特別是在 HumanEval 和 HumanEval C++ 測試中。
  • CodeLlama 7B:Codestral Mamba 明顯優於 CodeLlama 7B,特別是在 HumanEval 和 MBPP 基準測試中。
  • DeepSeek v1.5 7B:儘管 DeepSeek 在某些基準上表現較好,但總體而言,Codestral Mamba 在 HumanEval 和 HumanEval C++ 中表現更為突出。
  • Codestral 22B:相比於更大的 Codestral 22B,Mamba 在一些測試中略遜一籌,但在 HumanEval 和 HumanEval Bash 中表現依然優異。
  • CodeLlama 34B:Codestral Mamba 的表現超過了 CodeLlama 34B 在多數測試中的結果。

官方介紹:https://mistral.ai/news/codestral-mamba/

模型下載:https://huggingface.co/mistralai/mamba-codestral-7B-v0.1

Mathstral 的特點:

  1. 高效數學推理專為處理複雜、多步邏輯推理的高級數學問題而設計,在數學和科學領域表現出色,能夠處理複雜的多步推理問題,如數學證明和複雜的科學計算。

  2. 大上下文窗口擁有32k的上下文窗口,能夠處理和理解更大範圍的輸入信息,對於複雜問題和長文本推理非常有用。

  3. 先進的性能

    • 在各種行業標準基準測試中表現優異,例如在MATH測試中取得56.6%的成績,在MMLU測試中取得63.47%的成績。
    • 使用多數投票方法時,Mathstral 7B在MATH測試中的得分可以提高到68.37%,在64個候選者中使用強獎勵模型時得分為74.59%。
  4. 模型架構:Mathstral 7B 構建在Mistral 7B的基礎上,繼承了其強大的基礎能力和架構優勢。該模型具有7B參數,

  5. 定製和微調能力

    • 用戶可以通過mistral-inference和mistral-finetune工具進行模型部署和微調,以滿足特定需求。
    • 提供靈活的微調能力,用戶可以根據具體應用場景對模型進行優化。

官方介紹:https://mistral.ai/news/codestral-mamba/

模型下載:https://huggingface.co/mistralai/mathstral-7B-v0.1