全網首測! Qwen3 vs Deepseek-R1 數據分析哪家強?

作者 | 李飛

昨天淩晨,阿里巴巴開源新一代通義千問模型 Qwen3,AI Agent 廠商數勢科技的數據分析智能體 SwiftAgent 已率先完成全面適配,並發佈了 Qwen3 與 DeepSeek-R1 的測評報告,下面是具體評測內容,我們來看看在企業級的數據分析和智能決策場景上,Qwen3 與 DeepSeek-R1 到底有哪些差異?

(聲明: 本次測評主要針對 Qwen3-32B 和 Qwen3-235B-A22B, 對比 Qwen2.5-72B 和 R1 效果)

針對數據分析 Data Agent,我們有如下關鍵節點 (如圖 1),分別是改寫,任務編排,工具選擇和參數解析,工具運行和總結等。其中數據查詢工具又涵蓋了複雜的能力,例如如何將用戶的查詢語句解析成對應的語義層要素 (時間,指標,維度,邏輯算子等)。不同節點的準確性對最終結果都會造成較大的影響。

圖 1:數據分析 Agent 流程概要圖 1:數據分析 Agent 流程概要

當前在落地的過程中,不同廠商針對其中節點的準確性優化基本都是三種手段,分別是提示詞工程、RAG 增強判斷和模型微調等。這三種手段的實施成本是遞進的,效果也不可控。因此,數勢科技一直秉持積極擁抱最先進的開源大模型的原則,踐行第一時間適配,以提高 Agent 產品的效果,降低交付中的實施成本。先說結論,在上下文改寫、任務編排和工具調用、數據查詢、圖表生成、總結反思五個方面,Qwen3 對比 Qwen2.5 有極大的效果提升,對比 DeepSeek-R1 模型也不遑多讓,甚至在某些環節上還有意外的驚喜。成本上,根據阿里官方的報告,Qwen3 模型在整體部署上成本極大地降低,進一步降低了各個企業部署和使用的門檻。

本次,數勢科技的 SwiftAgent 產品針對其中的不同節點,對 Qwen3 大模型進行整體測評,並對比以往模型的效果。

上下文改寫

Chat 類產品首先接收的就是用戶的輸入語句,由於會話通常存在上下文干擾,以及用戶的輸入往往都是非標準的,因此我們必須對用戶當次的輸入語句進行改寫判斷,符合「優質進,優質出」的原則。以下測試我們分別把上下文帶入到大模型中進行改寫,讓大模型判斷用戶問題的語境並進行改寫的判斷。

總結:針對 Case1 的語境,不應該進行改寫,出乎意料的只有 Qwen3-32B 回答準確;針對 Case2,由於本輪提問的語境是絕對時間,Qwen2.5-72B 會基於上輪時間進行推理,對本輪 Query 進行改寫,其他模型則理解語境不會判斷成改寫。針對 Case3,INV 代表「當日庫存量」的縮寫,當大模型不理解該術語時,會擅自繼承上輪內容並改寫本輪 Query,4 個模型均沒辦法正確回答。

任務編排和工具調用

總結:Qwen2.5-72B 在數據分析任務拆解和工具調用選擇上,均落後於其它三個模型。其中,Case2 中我們期望通過子任務的拆解執行提高最終結果生成的準確性,DeepSeek-R1 以及 Qwen3-32B 和 Qwen3-235B-A22B 推理和非推理模式均表現優秀,Qwen2.5-72B 無法成功拆解相應任務,Case3 中,Qwen2.5-72B 在第 5 步任務中無法識別到應該調用歸因分析工具,其它三個模型均能做到。可見 Qwen3-32B 做到了成本下降了,效果反而更好了

數據查詢

數據要素解析中,對時間要素的識別往往是較難的,因為時間是帶動態更新和邏輯推理特性的。例如:「我行銷售額較去年增加多少」是時間的隱性推理,實際表達的時間是「今年」和「去年」。此外還有相對時間和絕對時間理解,以及周的開始和結束時間推理識別等。

總結:在這三種時間難例 Case 下,DeepSeek-R1 以及 Qwen3-32B 和 Qwen3-235B-A22B 推理和非推理模式均領先於 Qwen2.5-72B,其中 Qwen3-32B 的效果已經完全接近 R1 的識別效果。

數據要素解析中,對實體的抽取也是要素匹配的一個前提條件,實體抽取的質量好壞會幹擾後面要素匹配的效果,針對以往的難例 case,不同模型的測試情況如下:

總結:DeepSeek-R1 和 Qwen3-32B 在 Case1 和 Case2 的效果優於其他模型,然而 DeepSeek-R1 在 Case3 上漏識別了維度,總體來看,實體語義識別的效果差距不大,反而 Qwen3-32B 的 Dense 模型效果要優於其他模型。

圖表生成

本次評測中,我們採用 Echart 圖表生成的方式來驗證不同模型基於數據的理解後,生成並渲染圖表的效果

總結:Qwen72B 對於數據理解和代碼生成的能力弱於 Qwen3-32B, Case2 和 Case3 中甚至出現了數據遺漏的現象。此外,Qwen3-32B 在渲染排版上略遜色於 Qwen3-235B-A22B 和 DeepSeek-R1 模型。

總結反思

這裏,我們測試了針對生成的錯誤代碼,大模型是否可以結合錯誤反思並生成準確的代碼。

總結:原始代碼存在包括【類型錯誤】【潛在的空列表錯誤】【字符串與整數操作問題】等數據分析中常見的代碼問題。經過四個不同模型反思優化後,Qwen2.5-72B 選擇直接丟棄不符合數值格式的數據,雖然能夠跑通,但並不是數據預處理時的最佳選擇,優化了潛在的空列表錯誤。DeepSeek-R1 對數據進行了強製轉換,但傳入無法強製轉換的類型時,依舊會報錯,且並未解決潛在的空列表錯誤。Qwen3 的兩個模型對數據類型做了最符合預期地處理,優先嘗試轉換為數值,無法強製轉換才選擇拋棄,但同樣並未解決潛在的空列表錯誤。關於潛在的空列表錯誤,在二次提示優化後,四個模型均給出優化方案,達到預期。

此外,我們還測了一些其他和數據分析相關的大模型能力,例如數學推理計算能力,我們從網上借鑒了一些數學測試題,先說結論,DeepSeek-R1 模型和 Qwen3-235B-A22B 在數學計算推理能力上要優於另外兩種模型,符合 Scale Law 的認知

具體來說,Case1 中,DeepSeek-R1 模型和 Qwen3-235B-A22B 均回答正確,其他兩個模型回答錯誤。Case2 和 Case3 中所有模型均回答準確。

綜上所述,在數據分析 Agent 構建方面,Qwen3 模型的發佈對於 Agent 的構建有極大的提升作用。無論是在任務規劃、代碼生成、數學計算和語義識別等方面,Qwen3 模型都表現較為出色,其中 Qwen3-32B 模型也遠優於上一代模型,甚至接近於 DeepSeek-R1 模型,且部署成本更低,消費級顯卡即可實現推理自由,對企業使用大模型來說,是重大的利好

在 Qwen3 模型發佈的首日,數勢科技 SwiftAgent 率先完成了對 Qwen3 的全面適配,並對 Agent 的中間環節進行了能力升級和創新性功能開發,為企業客戶構建 AI 驅動的數據分析和智能決策提供了更高性能、更低成本的智能產品。