實測豆包剛剛上線的新版深度思考,他們也向DeepSearch邁出了一步。
今天晚上,就在剛剛,豆包終於上了之前很多人期待的功能。
深度思考。

我之前用別人的帳號體驗過這功能,就是推理模型,而今天看到的第一刻,我以為的是,豆包的推理模型終於全量上線了。
但是當我體驗了一下以後,發現他們這個深度思考,跟之前的推理模型、還有其他的AI聯網還真的有點不太一樣。
它不止是是個推理模型,還直接把思考和搜索,給融合在了一起,有點DeepSearch那個做法。
而不是像DeepSeek一樣,把深度思考和搜索分開去處理,用戶自己選擇是否打開思考和聯網。

這個說法可能有點難理解,看個案例。
比如說,我最近有一部非常喜歡的情景喜劇在看,是《鵲刀門傳奇2》,今天終於看到大結局了,還挺捨不得的。。。

小聲比比:我強烈安利所有沒看過的人去看,真的超級無敵爆炸好看。
這裡面的演員呢,其實很多都是趙家班的,我在彈幕上天天看到有人說,這人是《鄉村愛情》裡面的誰誰誰。
於是,我就想搜一下,鵲刀門傳奇2中的演員,在鄉村愛情中分別出演過什麼樣的角色?
如果你把這個問題,問DeepSeek的話,他的做法和答案是這樣的。

你會看到,流程是先根據我的問題,去聯網查詢,查到了所有的內容以後,再根據這些搜到的內容和我的問題,來給我進行回答。
而最後的回答是這樣的。

我當時臉都看懵了,一半是配角,一半是未透露。
不是,那幾個主角,你是一句沒提啊。。。

這個其實就是現在很多AI搜索的弊端,在一些稍微複雜一點的問題上,根本就不夠準確。
而像我一直狂吹的OpenAI的DeepResearch之所以效果那麼好,是因為他除了底模是o3強到爆炸之外,也是一個Agent,不是上來對著這句話先搜,而是先思考,先規劃,規劃完了再去一點一點搜索,得到答案。
豆包這個深度思考,是一樣的邏輯。
比如我把剛才那句話,問豆包。

你會看到,跟DeepSeek的搜索不一樣的是,豆包的深度推理是先思考,再搜索。
先把問題拆成了4步:
-
搜索《鵲刀門傳奇 2》的主要演員名單。
-
對每個演員,搜索他們在《鄉村愛情》系列中飾演的角色。
-
整理這些信息,確保每個演員的對應角色正確無誤。
-
注意可能的重覆角色或演員替換情況,避免錯誤。
然後才去搜索相關資料。
在過程中,也不是搜索一次以後就結束了,而是思考 – 搜索 – 思考 – 繼續搜索。

所以你會看到,在一次任務中,可能會出現好幾次搜索。
我的這個任務,在豆包經歷了兩次搜索之後,給出了一篇答案。


主角都抓出來了,回答質量上也好不少,整體的正確率能達到80%。
當然,一些細節的錯誤也有,就單說鵲刀門傳奇2的角色。
比如高大毛並不是鵲刀門的弟子,他是天池幫的;比如唐鑒軍老師在鵲刀門傳奇2中飾演的角色是絕絕子,不是公孫麗蓉,公孫麗蓉是張小英老師演的;比如王小虎飾演的是王公公,並不是任我翔。
細節的幻覺部分還是難以避免。
除了這個兩部戲的演員關聯,我也測了一些其他的例子。
比如我有一個很有意思的prompt,是:
《哈利·樸達》系列電影中,每部電影出現但被大多數觀眾忽略的關鍵細節分別是什麼?
豆包想了很久,整整搜索了3輪。
第一輪搜索,豆包把任務拆完分步驟以後,知道了大概的隱藏細節是什麼樣子的,知道純靠自己估計答不好,需要去參考影迷社區的討論。

可以在右邊看到,搜索的還是很精準的,幾乎都是精準的細節帖子。
在第一輪搜索結束之後,其實已經拿到不少內容了。但是豆包自己PUA自己了一圈以後,發現怎麼只有第一、三、四、七部的,哈利樸達總共8部的,缺了另外4部的一些內容,然後,它又開始了第二輪搜索。

拿了不少關於魂器和鳳凰社的信息。
而第三輪搜索,則是給自己,繼續補充細節。

最後,豆包自己感覺,信息基本都夠了,再搜可能沒什麼增量信息了,決定停了,也差不多了,可以整合整合給用戶回答了。

最後,回答的效果是這樣的。

很全面,很細節,又勾起了我的很多的回憶。
比如我最近想買一個數碼相機,學一學攝影。我是這麼問豆包的:
我想買一台數碼相機,預算1萬左右,主要用途是旅遊拍照和短影片拍攝。請你先在國內外評測網站搜索該價位區間內畫質、影片防抖表現都不錯的機型,然後再比較這些機型在鏡頭群、重量和售後服務方面的優劣。根據實際使用場景給出購買建議。
同樣,也搜索了3輪,自己想了N多的回答。

最後,給我列了一個對比表。

對比了一通後,非常推薦我富士 X-T4 單機身,說是搭配二手鏡頭是最優解;若能接受小幅超支,佳能 EOS R8的綜合性能更值得投資。
不知道有沒有懂攝影的朋友,來看看豆包這個推薦的怎麼樣。
目前從我的測試來看,大多數的回答,都回在2~3輪會結束,時間最長在50秒左右,大多數情況在20多秒的時候都能出回答。
我個人對豆包的新版深度思考的評價是:
最終質量中規中矩,但是補上了一個生態位。
現在所有跟AI搜索相關的功能(包括AI搜索、深度思考、DeepResearch、DeeperSearch等等),其實可以列成一個四象限。
橫軸是最後搜索結果的質量,從一般到高;縱軸是消耗時長(也可以說是成本)從高到低。
我自己也做了一下評測,然後做了一張圖。(疊個甲:根據我自己日常使用場景進行測試,純個人主觀,如果不同意見勿噴。)

單從輸出質量看,T0肯定是OpenAI的DeepResearch,但是消耗時間也最高,十幾分鐘是長有的事,也是最貴的模型,一次查詢就是2美刀。
他們強就強在是一個極度完整的Agent,擁有最強基座o3模型。
其次就是Grok前幾天更新的DeeperSearch,擁有X獨特的資源,同時也大幅增加了搜索的時長,效果比之前牛逼很多。
而豆包的生態,就在於質量還不錯,同時擁有最快的速度。性價比最高,而且,還無限免費用。
從這也能看出各家的打法,坦率的講,DeepResearch原來就沒法給國內的普通人用。
即使Gemini的DeepResearch可以一個月用5次,但是還是不夠平權。
而豆包的深度思考,邊想邊搜的模式,有了Agent的雛形,同時把成本打得足夠低,人人都能免費用的上。
而且是免費無限用。
這一點,我覺得他的意義更加重要。
再牛逼的東西,高高在上,處於雲端之間,只可遠觀,虛無縹緲,那還有什麼意思呢?
願更多人。
與觸手可及的寶刀相遇。
然後屠龍。