實測豆包剛剛上線的新版深度思考,他們也向DeepSearch邁出了一步。

今天晚上,就在剛剛,豆包終於上了之前很多人期待的功能。

深度思考。

我之前用別人的帳號體驗過這功能,就是推理模型,而今天看到的第一刻,我以為的是,豆包的推理模型終於全量上線了。

但是當我體驗了一下以後,發現他們這個深度思考,跟之前的推理模型、還有其他的AI聯網還真的有點不太一樣。

它不止是是個推理模型,還直接把思考和搜索,給融合在了一起,有點DeepSearch那個做法。

而不是像DeepSeek一樣,把深度思考和搜索分開去處理,用戶自己選擇是否打開思考和聯網。

這個說法可能有點難理解,看個案例。

比如說,我最近有一部非常喜歡的情景喜劇在看,是《鵲刀門傳奇2》,今天終於看到大結局了,還挺捨不得的。。。

小聲比比:我強烈安利所有沒看過的人去看,真的超級無敵爆炸好看。

這裡面的演員呢,其實很多都是趙家班的,我在彈幕上天天看到有人說,這人是《鄉村愛情》裡面的誰誰誰。

於是,我就想搜一下,鵲刀門傳奇2中的演員,在鄉村愛情中分別出演過什麼樣的角色?

如果你把這個問題,問DeepSeek的話,他的做法和答案是這樣的。

你會看到,流程是先根據我的問題,去聯網查詢,查到了所有的內容以後,再根據這些搜到的內容和我的問題,來給我進行回答。

而最後的回答是這樣的。

我當時臉都看懵了,一半是配角,一半是未透露。

不是,那幾個主角,你是一句沒提啊。。。

這個其實就是現在很多AI搜索的弊端,在一些稍微複雜一點的問題上,根本就不夠準確。

而像我一直狂吹的OpenAI的DeepResearch之所以效果那麼好,是因為他除了底模是o3強到爆炸之外,也是一個Agent,不是上來對著這句話先搜,而是先思考,先規劃,規劃完了再去一點一點搜索,得到答案。

豆包這個深度思考,是一樣的邏輯。

比如我把剛才那句話,問豆包。

你會看到,跟DeepSeek的搜索不一樣的是,豆包的深度推理是先思考,再搜索。

先把問題拆成了4步:

  1. 搜索《鵲刀門傳奇 2》的主要演員名單。

  2. 對每個演員,搜索他們在《鄉村愛情》系列中飾演的角色。

  3. 整理這些信息,確保每個演員的對應角色正確無誤。

  4. 注意可能的重覆角色或演員替換情況,避免錯誤。

然後才去搜索相關資料。

在過程中,也不是搜索一次以後就結束了,而是思考 – 搜索 – 思考 – 繼續搜索。

所以你會看到,在一次任務中,可能會出現好幾次搜索。

我的這個任務,在豆包經歷了兩次搜索之後,給出了一篇答案。

主角都抓出來了,回答質量上也好不少,整體的正確率能達到80%。

當然,一些細節的錯誤也有,就單說鵲刀門傳奇2的角色。

比如高大毛並不是鵲刀門的弟子,他是天池幫的;比如唐鑒軍老師在鵲刀門傳奇2中飾演的角色是絕絕子,不是公孫麗蓉,公孫麗蓉是張小英老師演的;比如王小虎飾演的是王公公,並不是任我翔。

細節的幻覺部分還是難以避免。

除了這個兩部戲的演員關聯,我也測了一些其他的例子。

比如我有一個很有意思的prompt,是:

《哈利·樸達》系列電影中,每部電影出現但被大多數觀眾忽略的關鍵細節分別是什麼?

豆包想了很久,整整搜索了3輪。

第一輪搜索,豆包把任務拆完分步驟以後,知道了大概的隱藏細節是什麼樣子的,知道純靠自己估計答不好,需要去參考影迷社區的討論。

可以在右邊看到,搜索的還是很精準的,幾乎都是精準的細節帖子。

在第一輪搜索結束之後,其實已經拿到不少內容了。但是豆包自己PUA自己了一圈以後,發現怎麼只有第一、三、四、七部的,哈利樸達總共8部的,缺了另外4部的一些內容,然後,它又開始了第二輪搜索。

拿了不少關於魂器和鳳凰社的信息。

而第三輪搜索,則是給自己,繼續補充細節。

最後,豆包自己感覺,信息基本都夠了,再搜可能沒什麼增量信息了,決定停了,也差不多了,可以整合整合給用戶回答了。

最後,回答的效果是這樣的。

很全面,很細節,又勾起了我的很多的回憶。

比如我最近想買一個數碼相機,學一學攝影。我是這麼問豆包的:

我想買一台數碼相機,預算1萬左右,主要用途是旅遊拍照和短影片拍攝。請你先在國內外評測網站搜索該價位區間內畫質、影片防抖表現都不錯的機型,然後再比較這些機型在鏡頭群、重量和售後服務方面的優劣。根據實際使用場景給出購買建議。

同樣,也搜索了3輪,自己想了N多的回答。

最後,給我列了一個對比表。

對比了一通後,非常推薦我富士 X-T4 單機身,說是搭配二手鏡頭是最優解;若能接受小幅超支,佳能 EOS R8的綜合性能更值得投資。

不知道有沒有懂攝影的朋友,來看看豆包這個推薦的怎麼樣。

目前從我的測試來看,大多數的回答,都回在2~3輪會結束,時間最長在50秒左右,大多數情況在20多秒的時候都能出回答。

我個人對豆包的新版深度思考的評價是:

最終質量中規中矩,但是補上了一個生態位。

現在所有跟AI搜索相關的功能(包括AI搜索、深度思考、DeepResearch、DeeperSearch等等),其實可以列成一個四象限。

橫軸是最後搜索結果的質量,從一般到高;縱軸是消耗時長(也可以說是成本)從高到低。 

我自己也做了一下評測,然後做了一張圖。(疊個甲:根據我自己日常使用場景進行測試,純個人主觀,如果不同意見勿噴。)

單從輸出質量看,T0肯定是OpenAI的DeepResearch,但是消耗時間也最高,十幾分鐘是長有的事,也是最貴的模型,一次查詢就是2美刀。

他們強就強在是一個極度完整的Agent,擁有最強基座o3模型。

其次就是Grok前幾天更新的DeeperSearch,擁有X獨特的資源,同時也大幅增加了搜索的時長,效果比之前牛逼很多。

而豆包的生態,就在於質量還不錯,同時擁有最快的速度。性價比最高,而且,還無限免費用。

從這也能看出各家的打法,坦率的講,DeepResearch原來就沒法給國內的普通人用。

即使Gemini的DeepResearch可以一個月用5次,但是還是不夠平權。

而豆包的深度思考,邊想邊搜的模式,有了Agent的雛形,同時把成本打得足夠低,人人都能免費用的上。

而且是免費無限用。

這一點,我覺得他的意義更加重要。

再牛逼的東西,高高在上,處於雲端之間,只可遠觀,虛無縹緲,那還有什麼意思呢?

願更多人。

與觸手可及的寶刀相遇。

然後屠龍。