阿里除夕發佈 Qwen2.5-Max 反超 DeepSeek V3,一句話開發小遊戲
西風 夢晨 發自 凹非寺
量子位 | 公眾號 QbitAI
昨晚,杭州大模型又雙叒不睡,給大夥兒 拜 年 啦~
就在春晚直播進行時,阿裡通義Qwen發佈新春節禮第三彈:
Qwen2.5-Max來襲,多個基準測試中超越當紅炸子雞DeepSeek V3。
![](http://n.sinaimg.cn/spider20250129/737/w1080h457/20250129/9d0e-60edcd83a88ae85e619bec3ccf24d694.png)
Arena-Hard、LiveBench、LiveCodeBench、GPQA-Diamond等基準統統拿下,Qwen2.5-Max整體表現優於DeepSeek V3、Llama-3.1-405B以及閉源模型GPT-4o,和Claude-3.5-Sonnet也能比一比。
![](http://n.sinaimg.cn/spider20250129/94/w1080h614/20250129/371c-6320cc4b198eeff9bc2893724c9b2483.png)
基座模型對比中,Qwen2.5-Max同樣超越DeepSeek V3、Llama-3.1-405B,在針對模型知識理解和推理能力的MMLU-Pro等基準上均表現不凡。
![](http://n.sinaimg.cn/spider20250129/88/w1080h608/20250129/5c47-52d2176e18709d8d2c4f44b8f1426742.png)
更令AI社區關注的是,Qwen2.5-Max同DeepSeek V3一樣是超大規模的MoE模型,經超20萬億token的預訓練數據及精心設計SFT+RLHF後訓練方案訓練而成。
![](http://n.sinaimg.cn/spider20250129/452/w786h1266/20250129/2b34-27ded1d4523028942bae177e9b36de1d.png)
Qwen2.5-Max這份春節禮包被網民們齊刷刷收入囊中。前有DeepSeek,還有阿裡通義Qwen,網民們不忘艾特奧特曼:
祝大家新年快樂,特別祝Sam。
![](http://n.sinaimg.cn/spider20250129/138/w780h158/20250129/1aa2-a61ea6821cf5bf0fb4644281e8b0aa20.png)
阿里研究員在模型發佈後也都還不睡,紛紛當起了自個兒的自來水。
阿里高級算法專家林俊暘開麥:
Qwen2.5-Max在基準測試中表現良好,希望大家可以試試看,新年快樂!
![](http://n.sinaimg.cn/spider20250129/552/w784h568/20250129/6435-5058a76924f6b58784873d3ba14d3e7e.png)
之前曾自曝阿里大模型員工996作息表的Binyuan Hui也再次現身:
外面的煙花照亮了天空,我卻坐在電腦跟前。
![](http://n.sinaimg.cn/spider20250129/382/w792h390/20250129/a430-47ce1f92ea3250a5afe68a533ce606f0.png)
多模態能力展示
下面是Qwen2.5-Max在四個使用場景上的演示。
首先是聯網搜索功能,輸出的每句話來源出處都有標註,整體運行也很絲滑。
![](http://n.sinaimg.cn/spider20250129/504/w840h464/20250129/b4a2-giff523abd941a29929fb4f123940ae6438.gif)
代碼能力上,Qwen2.5-Max能夠幫助用戶完成各種可視化創作,一句話就能做出下面這樣旋轉的球體:
![](http://n.sinaimg.cn/spider20250129/504/w840h464/20250129/06df-gifeeaacc5005add4c76d52859fdf6f18f8.gif)
有網民改造了一下,讓球體內部有三個彈跳的黃色小球。
![](http://n.sinaimg.cn/spider20250129/368/w856h1112/20250129/6f82-2ad26b3d1eb85583f6dbfa18b685ab76.png)
結果只嘗試了一次就成功了,而且三個小球始終在大球內部運動,能正確處理碰撞:
![](http://n.sinaimg.cn/spider20250129/190/w612h378/20250129/a7b9-gif7ed1abc3f6abe45277c4693f58a45523.gif)
Qwen2.5-Max也有Artifacts功能,同樣一句話,能開發各種小應用、小遊戲。
比如製作一個掃雷小遊戲,秒秒鍾「啪」一下直接就能玩:
![](http://f.sinaimg.cn/spider20250129/504/w840h464/20250129/06c5-gifcccb5096596a75031234eaa204d5cf20.gif)
另外Qwen2.5-Max數單詞中的特定字母數量也不在話下。
![](http://n.sinaimg.cn/spider20250129/504/w840h464/20250129/bea8-gif8a1568056aec419eee0eb128b0798631.gif)
現在,Qwen2.5-Max已在Qwen Chat中上線。
此外也有Hugging Face的Demo可玩,還上線了Any Chat,並且可通過阿里雲服務使用API。
![](http://n.sinaimg.cn/spider20250129/691/w900h591/20250129/b2e9-728657eda17986264b2dd2e4a5db405b.png)
感興趣的童鞋趕緊試試吧~
參考鏈接:
[1]https://qwenlm.github.io/blog/qwen2.5-max/
[2]https://x.com/JustinLin610/status/1884263803451498794
[3]https://x.com/_akhaliq/status/1884278071093502253
[4]https://x.com/huybery/status/1884263539675934860