阿里除夕發佈 Qwen2.5-Max 反超 DeepSeek V3，一句話開發小遊戲

01月29日 19:08 新浪網 tech-auto-hilite

西風夢晨發自凹非寺

量子位 | 公眾號 QbitAI

昨晚，杭州大模型又雙叒不睡，給大夥兒拜年啦～

就在春晚直播進行時，阿裡通義Qwen發佈新春節禮第三彈：

Qwen2.5-Max來襲，多個基準測試中超越當紅炸子雞DeepSeek V3。

Arena-Hard、LiveBench、LiveCodeBench、GPQA-Diamond等基準統統拿下，Qwen2.5-Max整體表現優於DeepSeek V3、Llama-3.1-405B以及閉源模型GPT-4o，和Claude-3.5-Sonnet也能比一比。

基座模型對比中，Qwen2.5-Max同樣超越DeepSeek V3、Llama-3.1-405B，在針對模型知識理解和推理能力的MMLU-Pro等基準上均表現不凡。

更令AI社區關注的是，Qwen2.5-Max同DeepSeek V3一樣是超大規模的MoE模型，經超20萬億token的預訓練數據及精心設計SFT+RLHF後訓練方案訓練而成。

Qwen2.5-Max這份春節禮包被網民們齊刷刷收入囊中。前有DeepSeek，還有阿裡通義Qwen，網民們不忘艾特奧特曼：

祝大家新年快樂，特別祝Sam。

阿里研究員在模型發佈後也都還不睡，紛紛當起了自個兒的自來水。

阿里高級算法專家林俊暘開麥：

Qwen2.5-Max在基準測試中表現良好，希望大家可以試試看，新年快樂！

之前曾自曝阿里大模型員工996作息表的Binyuan Hui也再次現身：

外面的煙花照亮了天空，我卻坐在電腦跟前。

多模態能力展示

下面是Qwen2.5-Max在四個使用場景上的演示。

首先是聯網搜索功能，輸出的每句話來源出處都有標註，整體運行也很絲滑。

代碼能力上，Qwen2.5-Max能夠幫助用戶完成各種可視化創作，一句話就能做出下面這樣旋轉的球體：

有網民改造了一下，讓球體內部有三個彈跳的黃色小球。

結果只嘗試了一次就成功了，而且三個小球始終在大球內部運動，能正確處理碰撞：

Qwen2.5-Max也有Artifacts功能，同樣一句話，能開發各種小應用、小遊戲。

比如製作一個掃雷小遊戲，秒秒鍾「啪」一下直接就能玩：

另外Qwen2.5-Max數單詞中的特定字母數量也不在話下。

現在，Qwen2.5-Max已在Qwen Chat中上線。

此外也有Hugging Face的Demo可玩，還上線了Any Chat，並且可通過阿里雲服務使用API。

感興趣的童鞋趕緊試試吧～

參考鏈接：

[1]https://qwenlm.github.io/blog/qwen2.5-max/

[2]https://x.com/JustinLin610/status/1884263803451498794

[3]https://x.com/_akhaliq/status/1884278071093502253

[4]https://x.com/huybery/status/1884263539675934860