阿里發佈千問Qwen3.7-Max模型:國產最佳,可全自主完成35小時長程任務
新浪科技訊 5月20日上午消息,阿里巴巴發佈新一代千問旗艦模型Qwen3.7-Max,在三方機構Arena全球大模型盲測總榜中,Qwen3.7-Max超過Kimi-K2.6、DeepSeek-v4-pro、GLM-5.1,與GPT、Claude、Gemini最強模型接近,位列國產模型第一。
據悉,千問3.7面向當下智能體(Agent)全新設計,實現了編程、推理等核心能力的持續突破,甚至可全自主完成35小時的超長程智能體複雜任務:在一個全新的芯片平台上,Qwen3.7-Max通過自主編程和超1000次工具調用,實現了一個關鍵內核的自我進化,推理速度較原版本提升10倍。
當下,編程能力已成為衡量LLM大語言模型的核心指標,Qwen3.7-Max較上代模型實現了大幅提升,從前端原型開發到複雜的多文件工程均能駕馭。在評估AI解決真實世界的實戰編程任務SWE-bench系列測評、面向真實科學問題的編程測評SciCode中,Qwen3.7-Max較Qwen3.6-Plus大幅提升,並超越了Claude Opus 4.6-Max、Kimi-K2.6、DeepSeek-v4-Pro-Max等模型。千問3.7是出色的編程智能體,可自主編寫代碼創造工具,精準執行任務,完成複雜編程的自我糾錯迭代,就像個資深工程師,跑完從需求分析到測試迭代的全流程,自主產出可用的工業級成果。
不斷提升的編程能力,也為智能體完成更複雜、更長週期的任務打下堅實基礎。千問3.7具有極強的Agent能力,並湧現出跨多種智能體框架的泛化能力,在 Claude Code、OpenClaw、Qwen Code 等框架下都能穩定發揮,有望成為各類智能體系統的可靠底座。通過MCP集成和多智能體協作,Qwen3.7-Max在企業級辦公場景實現工作流自動化,在辦公自動化基準 SpreadSheetBench-v1上斬獲87分,處於頂尖水平,是可靠的辦公與生產力助手。以往需專業團隊耗時一至兩週的複雜項目,現由 Qwen3.7-Max 驅動的智能體可在數小時內完成端到端交付閉環。
實戰任務測試中,Qwen3.7-Max還展示了當下智能體所能達到的長程任務極限。在一個模型訓練時從未接觸過的全新硬件平台——平頭哥真武M890芯片上,千問3.7自主完成了一個複雜的推理內核優化任務。在沒有任何性能分析數據、硬件文檔或新架構的示例內核情況下,千問3.7僅從一個包含任務描述、SGLang Triton 參考實現和評測腳本的空白工作空間出發,從“零”開始持續編程 35 小時,獨立進行了 432 次內核評估、1158 次工具調用,完全自主地完成了編寫、編譯、性能分析與迭代改進的全流程。(文猛)




















