突破Transformer架構,MiniMax 01首次開源,海外開發者再一次被中國模型震驚了
2025開年,MiniMax 又上新了。
繼公佈全模態模型家族後,時隔5個月,MiniMax再亮相兩大模型,且模型權重完全開源。而且與GPT-4o和Claude-3.5-Sonnet性能平起平坐,尤其在上下文窗口方面表現出色,處理能力甚至達到其他頂尖模型的 20 – 32倍。

更重要的是,這兩款全新模型擴展了新型Lightning Attention架構,突破了傳統Transformer架構,同時也是線性注意力機制的首次大規模實現。
什麼概念?
線性注意力機制是對傳統注意力機制的優化升級,即將傳統注意力機制的二次計算複雜度轉變為線性複雜度,可以降低計算的複雜度,提升模型訓練速度。早在2019年就有人提出了這一理論,但從來沒有人在大規模的模型上實現過。
如今,MiniMax率先找瞭解題答案,無疑為處理長文本、大規模數據等複雜任務提供了有力支持,實力證明了線性注意力機制在大規模商用模型中的可行性。
消息一出,網民炸鍋了。
有網民表示: 來自中國的AI變革!MiniMax 01成本比GPT-4o 低 10 倍,將引發新一輪AI革命。

也有網民直接上手測評表示:模型不僅好用且成本低廉,簡直給2025開源模型之爭提高了一個level!

01 MiniMax連發兩款大模型
CSDN瞭解到,此次MiniMax更新的兩大模型基礎語言大模型MiniMax-Text-01和視覺多模態大模型MiniMax-VL-01進一步拓展了文本和視覺多模態領域的能力。
那麼,這兩款大模型的實力究竟如何呢?
MiniMax-Text-01
首先來看基礎語言大模型MiniMax-Text-01。
評測結果顯示,MiniMax-Text-01在大多數任務上成功追平海外最先進的 GPT – 40 – 1120 及 Claude – 3.5 – sonnet – 1022 等頂級閉源模型以及 Qwen2.5、DeepSeek v3、Llama 3.1 等 SOTA 開源模型,甚至在某些特定場景下,其響應速度和準確率更勝一籌,展現出驚人的潛力。

例如,在MMLU基準測試中,MiniMax-Text-01得分與DeepSeek-V3得分相同,均為88.5分;明顯高於GPT-4o的85.7分。
在HumanEval上,MiniMax-Text-01 與 Instruct Qwen2.5-72B 相比表現出色。此外,MiniMax-Text-01 在 GPQA Diamond 這樣具有挑戰性問答的數據集上取得了 54.4 的成績,超過了大多數開源指令微調的 LLM 以及最新版本的 GPT-4o。
在模型處理能力方面,MiniMax-Text-01表現同樣出色,不僅能夠高效處理超過百萬字符的長文本,且與海外模型相比,延遲更低,穩定性更強,確保了大規模數據處理的高效性和可靠性。

這些成績表明MiniMax-Text-01不僅在技術層面達到國際領先水平,更在實際應用中展現出高效穩定的性能。
在長上下文理解能力方面,與 Google的 Gemini 模型相比,MiniMax-Text-01在長上下文檢索、理解和學習任務中表現出色,在64K輸入級別的表現與頂尖模型GPT-4o、Claude-3.5-Sonnet等實力相當,但從128K開始顯現出明顯的優勢,並超越了所有基準模型。

並且隨著輸入長度的增加,MiniMax-Text-01的性能衰減最慢,這意味著它在處理長文檔、長篇對話等場景時,能夠更好地保持對信息的理解和處理能力,提供更準確、連貫的輸出。
同時,MiniMax-Text-01還構建了一個利用真實數據的助手場景使用的測試集,結果顯示,MiniMax-Text-01在多個內部基準任務上與其他模型相比具有競爭力,尤其在創意寫作、長上下文和安全等方面表現出色。這一突破性進展,不僅提升了長文任務的效率,也為學術研究、內容創作等領域提供了強大工具,驗證了線性注意力機制在處理大規模數據中的實際應用價值。

MiniMax-VL-01
接著我們來聊一聊視覺多模態大模型MiniMax-VL-01。
MiniMax-VL-01是一款將圖像編碼器和圖像適配器集成到MiniMax-Text-01模型基礎上開發的多模態模型,採用多模態大語言模型常用的ViT-MLP-LLM框架,具有動態解像度功能,可以根據預設網格調整輸入圖像的大小,調整後的圖像被分割成大小相同的不重疊塊,這些塊和縮略圖分別編碼後組合,形成完整的圖像表示。它不僅繼承了文本處理的高效性,還具備強大的視覺理解能力,在多種視覺語言任務基準測試中展現出與頂尖模型相媲美的性能。
此外,MiniMax-VL-01進行了四個階段的訓練,處理數據集總量達到5120億token。
結合評測結果可以看到,經過四個階段訓練,MiniMax-VL-01模型在多個基準測試中均取得了優異成績。尤其在VQA(視覺問答)任務中表現出色,性能與GPT-4o相當,在長文本理解與檢索能力的評估中,MiniMax-VL-01同樣表現亮眼,優於多數同類模型。

一直以來,MiniMax給外界的印像是強調技術研發創新和突破,憑藉從文本到視覺、從文本到語音、從文本到文本的三大模態基礎模型架構,MiniMax在創業公司中已經殺出了一條生路。
在底層技術上,MiniMax的目標是更快更強。
其創始人曾公開表示:大語言模型領域,兩個模型性能相似,一定是速度更快的那個模型更容易帶來產品數據增長。就好像Scaling Law一樣,算法相同情況下,訓練數據量更大的模型往往會取得更好的效果。
因此,MiniMax創新性地將MOE架構和Linear Attention相結合,理論上可以處理的token接近無限長,而且模型效率也獲得了大幅提升——在處理10萬token的時候,速度是其他模型的2-3倍,並且隨著長度越長,效率提升越明顯。
此次發佈的兩款大模型更是其理念的集中體現,同時也是業內首次線性注意力機制大規模實現的實例。在架構方面,創新性地採用了混合架構,結合了Lightning Attention、Softmax Attention以及Mixture-of-Experts(MoE),同時通過LASP+、varlen ring attention、ETP等優化的並行策略和高效的計算通信重疊方法,最終模型參數達4560億,每次激活459億。

02 首次開源,模型應用低成本且完全開放
目前,MiniMax 01模型已在海螺AI(國內 APP、hailuoai.com)以及海外平台(hailuo.ai)上線,用戶可以通過這些平台便捷地體驗 MiniMax 01 的強大功能。無論是文本創作、智能問答,還是多模態交互等場景,用戶都能感受到 MiniMax 01 帶來的智能體驗 。
此外,MiniMax還在開放平台上提供了完整的API,基於Linear Attention架構創新、算力優化,以業內最低價格提供文本和多模態理解API服務。
更重要的是這兩款模型的完整權重完全開源,並且MiniMax也承諾後續更新也會及時上傳。
下面是開源地址,感興趣的現在就可以嚐嚐鮮了。
https://github.com/MiniMax-Ai
談及為何開源,MiniMax也向CSDN表示其有兩方面的考量:
其一,開源作為技術交流的重要橋樑,能夠讓更多的開發者,包括初學者和小型團隊,接觸和使用先進的模型技術,能夠幫助MiniMax更高質量的完成後續的模型研發。同時,這也與MiniMax的初衷不謀而合——Intelligence with Everyone。
其二,MiniMax01提供了一個可參考和借鑒的範例,同時可以啟發行業思考,其他企業和開發者可以在其基礎上進行二次開發和創新,根據自身業務需求和場景,定製化開發出更符合特定領域的應用和解決方案,進而更快的促進Agent時代的到來。
MiniMax 01模型完全開源的消息也吸引了一大批KOL進行了實測:
CSDN知名KOL博主紅目香薰表示:
對於高校的計算機教學工作而言,MiniMax 01的上下文處理能力在實際教學過程中大有益處,並且開源後可用於輔助備課、解答疑問,提升教學效率。簡直是福利!
CSDN知名博主申屠鵬會則表示:
MiniMax開源模型帶來的好處在我看來主要有以下兩點:一是降低了企業入局大模型的門檻,在顯卡成本居高不下的現狀下,MiniMax 01開源就能為企業節省更多成本,二是參數量增大也意味著能拓展的AI應用範圍擴大,更多圈層人群的參與,也有更大的想像空間。
03 劍指Agent 時代
進入2025年,Agent的時代趨勢也愈加明顯。
而MiniMax對於Agent時代到來的嗅覺則更為靈敏。2024年,創始人就曾在採訪中表示:2025 年是 AI Agent 時代。通用人工智能是技術變革的標誌,AI 已成為日常生活的一部分。中外在 AI 領域的差距正在縮小,國內在特定領域如多模態理解和生成已進入全球第一梯隊甚至部分領先。
這進一步決定了MiniMax的前進腳步。
截至目前,MiniMax自主研發了文本大模型、語音&音樂大模型、圖像大模型以及影片大模型。基於不同模態的通用大模型,MiniMax推出生產力工具海螺AI、AI內容社區星野等原生應用,開放平台為40000+企業和開發者提供API服務。
可以看到,以「全模態模型+APP產品+開放平台」是MiniMax選擇的增長飛輪,同時也是MiniMax在AI時代大模型如何實現商業化找到的一條通往AGI的道路。而底層模型的技術創新,為這一切提供了基礎。
本文來自微信公眾號「CSDN」,作者:CSDN,36氪經授權發佈。