Mistral多模態大模型來了！120億參數，原生支持任意大小/數量圖像，公司估值已達420億

09月12日 11:46 新浪網 news-china-auto-hilite

明敏發自凹非寺

量子位 | 公眾號 QbitAI

Mistral的多模態大模型來了！

Pixtral 12B正式發佈，同時具備語言和視覺處理能力。

它建立在文本模型Nemo 12B基礎上，包含一個專門的視覺編碼器。

大概24GB，原生支持任意數量和尺寸的圖像，大約有40層神經網絡、14,336 個隱藏維度大小和32個注意力頭，以及一個專用的視覺編碼器，支持高解像度圖像（1024×1024）處理。

發佈形式還是簡單直接一個種子鏈接。

現在可以通過鏈接、GitHub或Hugging Face下載模型。

Mistral的開發主管表示，後續也會在Chatbot上接入模型，並提供API服務。

超越Qwen、LLaVA等

雖然目前模型的訓練數據、細節都未公開，但是通過模型代碼網民們發現了更多細節。

1、先進架構：40層網絡、14336隱藏維度大小、32個注意力頭。

2、視覺能力：專用視覺編碼器，支持1024×1024圖像大小和24個隱藏層，用於高級圖像處理。

3、更大詞彙量：131072tokens，支持更細緻語言理解和生成。

4、使用GeLU(用於視覺適配器)和2D RoPE(用於視覺編碼器)。

5、Patch大小：16×16像素。

6、在mistral_common中支持tokenizer。

7、模型權重bf16。

與此同時，還有人在放出了Mistral發佈會上公佈的模型基準情況。

Pixtral 12B和Qwen2-VL-7B、LLaVA-OV-7B、Phi-3 Vision做了對比。

多模態知識和推理、QA等方面都表現不錯。

歐洲版OpenAI估值達60億美元

最近幾個月Mistral的動作還是非常密集的。

今年6月，他們通過股權債務融資完成約6.4億美元B輪融資。估值已達60億美元（折合人民幣約420億）。

完成融資後，他們便發佈了Mistral Large 2旗艦模型、SMoE模型Mistral 8×22B以及開源模型Codestral等。

目前，微軟、AWS、Snowflake等巨頭均投資Mistral。尤其是微軟的入股，使得Mistral成為OpenAI以外，微軟Azure第二個商業閉源模型供應商。這也進一步夯實了Mistral「歐洲版OpenAI」的地位。

參考鏈接：

[1]https://x.com/_philschmid/status/1833954941624615151

[2]https://venturebeat.com/ai/pixtral-12b-is-here-mistral-releases-its-first-ever-multimodal-ai-model/

[3]https://x.com/theresanaiforit/status/1833784474342977627