實測豆包剛剛上線的新版深度思考，他們也向DeepSearch邁出了一步。

03月27日 20:57 新浪網 tech-auto-hilite

今天晚上，就在剛剛，豆包終於上了之前很多人期待的功能。

深度思考。

我之前用別人的帳號體驗過這功能，就是推理模型，而今天看到的第一刻，我以為的是，豆包的推理模型終於全量上線了。

但是當我體驗了一下以後，發現他們這個深度思考，跟之前的推理模型、還有其他的AI聯網還真的有點不太一樣。

它不止是是個推理模型，還直接把思考和搜索，給融合在了一起，有點DeepSearch那個做法。

而不是像DeepSeek一樣，把深度思考和搜索分開去處理，用戶自己選擇是否打開思考和聯網。

這個說法可能有點難理解，看個案例。

比如說，我最近有一部非常喜歡的情景喜劇在看，是《鵲刀門傳奇2》，今天終於看到大結局了，還挺捨不得的。。。

小聲比比：我強烈安利所有沒看過的人去看，真的超級無敵爆炸好看。

這裡面的演員呢，其實很多都是趙家班的，我在彈幕上天天看到有人說，這人是《鄉村愛情》裡面的誰誰誰。

於是，我就想搜一下，鵲刀門傳奇2中的演員，在鄉村愛情中分別出演過什麼樣的角色？

如果你把這個問題，問DeepSeek的話，他的做法和答案是這樣的。

你會看到，流程是先根據我的問題，去聯網查詢，查到了所有的內容以後，再根據這些搜到的內容和我的問題，來給我進行回答。

而最後的回答是這樣的。

我當時臉都看懵了，一半是配角，一半是未透露。

不是，那幾個主角，你是一句沒提啊。。。

這個其實就是現在很多AI搜索的弊端，在一些稍微複雜一點的問題上，根本就不夠準確。

而像我一直狂吹的OpenAI的DeepResearch之所以效果那麼好，是因為他除了底模是o3強到爆炸之外，也是一個Agent，不是上來對著這句話先搜，而是先思考，先規劃，規劃完了再去一點一點搜索，得到答案。

豆包這個深度思考，是一樣的邏輯。

比如我把剛才那句話，問豆包。

你會看到，跟DeepSeek的搜索不一樣的是，豆包的深度推理是先思考，再搜索。

先把問題拆成了4步：

搜索《鵲刀門傳奇 2》的主要演員名單。
對每個演員，搜索他們在《鄉村愛情》系列中飾演的角色。
整理這些信息，確保每個演員的對應角色正確無誤。
注意可能的重覆角色或演員替換情況，避免錯誤。

然後才去搜索相關資料。

在過程中，也不是搜索一次以後就結束了，而是思考 – 搜索 – 思考 – 繼續搜索。

所以你會看到，在一次任務中，可能會出現好幾次搜索。

我的這個任務，在豆包經歷了兩次搜索之後，給出了一篇答案。

主角都抓出來了，回答質量上也好不少，整體的正確率能達到80%。

當然，一些細節的錯誤也有，就單說鵲刀門傳奇2的角色。

比如高大毛並不是鵲刀門的弟子，他是天池幫的；比如唐鑒軍老師在鵲刀門傳奇2中飾演的角色是絕絕子，不是公孫麗蓉，公孫麗蓉是張小英老師演的；比如王小虎飾演的是王公公，並不是任我翔。

細節的幻覺部分還是難以避免。

除了這個兩部戲的演員關聯，我也測了一些其他的例子。

比如我有一個很有意思的prompt，是：

《哈利·樸達》系列電影中，每部電影出現但被大多數觀眾忽略的關鍵細節分別是什麼？

豆包想了很久，整整搜索了3輪。

第一輪搜索，豆包把任務拆完分步驟以後，知道了大概的隱藏細節是什麼樣子的，知道純靠自己估計答不好，需要去參考影迷社區的討論。

可以在右邊看到，搜索的還是很精準的，幾乎都是精準的細節帖子。

在第一輪搜索結束之後，其實已經拿到不少內容了。但是豆包自己PUA自己了一圈以後，發現怎麼只有第一、三、四、七部的，哈利樸達總共8部的，缺了另外4部的一些內容，然後，它又開始了第二輪搜索。

拿了不少關於魂器和鳳凰社的信息。

而第三輪搜索，則是給自己，繼續補充細節。

最後，豆包自己感覺，信息基本都夠了，再搜可能沒什麼增量信息了，決定停了，也差不多了，可以整合整合給用戶回答了。

最後，回答的效果是這樣的。

很全面，很細節，又勾起了我的很多的回憶。

比如我最近想買一個數碼相機，學一學攝影。我是這麼問豆包的：

我想買一台數碼相機，預算1萬左右，主要用途是旅遊拍照和短影片拍攝。請你先在國內外評測網站搜索該價位區間內畫質、影片防抖表現都不錯的機型，然後再比較這些機型在鏡頭群、重量和售後服務方面的優劣。根據實際使用場景給出購買建議。

同樣，也搜索了3輪，自己想了N多的回答。

最後，給我列了一個對比表。

對比了一通後，非常推薦我富士 X-T4 單機身，說是搭配二手鏡頭是最優解；若能接受小幅超支，佳能 EOS R8的綜合性能更值得投資。

不知道有沒有懂攝影的朋友，來看看豆包這個推薦的怎麼樣。

目前從我的測試來看，大多數的回答，都回在2~3輪會結束，時間最長在50秒左右，大多數情況在20多秒的時候都能出回答。

我個人對豆包的新版深度思考的評價是：

最終質量中規中矩，但是補上了一個生態位。

現在所有跟AI搜索相關的功能（包括AI搜索、深度思考、DeepResearch、DeeperSearch等等），其實可以列成一個四象限。

橫軸是最後搜索結果的質量，從一般到高；縱軸是消耗時長（也可以說是成本）從高到低。

我自己也做了一下評測，然後做了一張圖。（疊個甲：根據我自己日常使用場景進行測試，純個人主觀，如果不同意見勿噴。）

單從輸出質量看，T0肯定是OpenAI的DeepResearch，但是消耗時間也最高，十幾分鐘是長有的事，也是最貴的模型，一次查詢就是2美刀。

他們強就強在是一個極度完整的Agent，擁有最強基座o3模型。

其次就是Grok前幾天更新的DeeperSearch，擁有X獨特的資源，同時也大幅增加了搜索的時長，效果比之前牛逼很多。

而豆包的生態，就在於質量還不錯，同時擁有最快的速度。性價比最高，而且，還無限免費用。

從這也能看出各家的打法，坦率的講，DeepResearch原來就沒法給國內的普通人用。

即使Gemini的DeepResearch可以一個月用5次，但是還是不夠平權。

而豆包的深度思考，邊想邊搜的模式，有了Agent的雛形，同時把成本打得足夠低，人人都能免費用的上。

而且是免費無限用。

這一點，我覺得他的意義更加重要。

再牛逼的東西，高高在上，處於雲端之間，只可遠觀，虛無縹緲，那還有什麼意思呢？

願更多人。

與觸手可及的寶刀相遇。

然後屠龍。