阿里除夕發佈 Qwen2.5-Max 反超 DeepSeek V3,一句話開發小遊戲

西風 夢晨 發自 凹非寺

量子位 | 公眾號 QbitAI

昨晚,杭州大模型又雙叒不睡,給大夥兒 拜 年 啦~

就在春晚直播進行時,裡通義Qwen發佈新春節禮第三彈

Qwen2.5-Max來襲,多個基準測試中超越當紅炸子雞DeepSeek V3。

Arena-Hard、LiveBench、LiveCodeBench、GPQA-Diamond等基準統統拿下,Qwen2.5-Max整體表現優於DeepSeek V3、Llama-3.1-405B以及閉源模型GPT-4o,和Claude-3.5-Sonnet也能比一比。

基座模型對比中,Qwen2.5-Max同樣超越DeepSeek V3、Llama-3.1-405B,在針對模型知識理解和推理能力的MMLU-Pro等基準上均表現不凡。

更令AI社區關注的是,Qwen2.5-Max同DeepSeek V3一樣是超大規模的MoE模型,經超20萬億token的預訓練數據及精心設計SFT+RLHF後訓練方案訓練而成。

Qwen2.5-Max這份春節禮包被網民們齊刷刷收入囊中。前有DeepSeek,還有阿裡通義Qwen,網民們不忘艾特奧特曼:

祝大家新年快樂,特別祝Sam。

阿里研究員在模型發佈後也都還不睡,紛紛當起了自個兒的自來水。

阿里高級算法專家林俊暘開麥:

Qwen2.5-Max在基準測試中表現良好,希望大家可以試試看,新年快樂!

之前曾自曝阿里大模型員工996作息表的Binyuan Hui也再次現身:

外面的煙花照亮了天空,我卻坐在電腦跟前。

多模態能力展示

下面是Qwen2.5-Max在四個使用場景上的演示。

首先是聯網搜索功能,輸出的每句話來源出處都有標註,整體運行也很絲滑。

代碼能力上,Qwen2.5-Max能夠幫助用戶完成各種可視化創作,一句話就能做出下面這樣旋轉的球體:

有網民改造了一下,讓球體內部有三個彈跳的黃色小球。

結果只嘗試了一次就成功了,而且三個小球始終在大球內部運動,能正確處理碰撞:

Qwen2.5-Max也有Artifacts功能,同樣一句話,能開發各種小應用、小遊戲。

比如製作一個掃雷小遊戲,秒秒鍾「啪」一下直接就能玩:

另外Qwen2.5-Max數單詞中的特定字母數量也不在話下。

現在,Qwen2.5-Max已在Qwen Chat中上線。

此外也有Hugging Face的Demo可玩,還上線了Any Chat,並且可通過阿里雲服務使用API。

感興趣的童鞋趕緊試試吧~

參考鏈接:

[1]https://qwenlm.github.io/blog/qwen2.5-max/

[2]https://x.com/JustinLin610/status/1884263803451498794

[3]https://x.com/_akhaliq/status/1884278071093502253

[4]https://x.com/huybery/status/1884263539675934860