人類自愧不如 :DeepSeek R1、o3-mini和Gemini 2.0 思考過程大橫評,AI們比你腦子清楚多了

作者|Jessica郵箱|JessicaZhang@pingwest.com
前幾天OpenAI宣佈,o3-mini能公開展示思考過程了。但很快就被用戶瘋狂「抽水」,說這根本不是真正的原始思維鏈,只是拿一版更詳細的答案總結糊弄人而已。

恰逢Google也發佈了Gemini 2.0 Flash Thinking。我們於是親自上手,對 o3-mini、DeepSeek R1 和 Gemini 2.0 Flash Thinking 這三款當前最具代表性的推理模型進行了實測。
本次測試涵蓋邏輯推理、字母識別、創意文本生成、時事信息整合、編程、綜合問題和多模態推理7大核心任務,重點對比三大模型的思維鏈展示是否清晰條理,推理過程是否足夠透明,以及最終結果的生成能力誰更勝一籌。
一、 邏輯推理
問題:給定數列1,2,6,24,120,? —問號處的數字是多少?這個數列有什麼數學意義?
1. o3-mini
思維鏈:

生成結果:

2. DeepSeek R1
思維鏈:

生成結果:

3. Gemini 2.0 Flash Thinking Experimental
思維鏈:

生成結果:

【分析】
階乘數列對於「博士級別、能做奧數題」的推理模型來說當然不在話下,三個都得出了正確的結果720。
o3-mini的思維鏈確實和生成結果一毛一樣;R1以它經典的「嗯」開始,對兩個問題層次逐一拆解,最後再次確認,給出答案;Gemini Thinking不愧為長上下文之王,思維鏈遵循了系統化的數學問題解決策略,從初步觀察 → 提出假設 → 驗證假設 → 識別數學意義 → 形式化模式 → 完整解釋,詳細地記錄了思考過程。
二. 識別’r’
問題:how many ‘r’s in ‘strawberrrrry’?
1. o3-mini
思維鏈:

生成結果:

2. DeepSeek R1
思維鏈:

生成結果:

3. Gemini 2.0 Flash Thinking Experimental
第1次思維鏈+生成結果:

第2次生成結果:

【分析】
既然「strawberry里有幾個r」已經被多數模型破解了,那就上點難度,數數「strawberrrrry」里r的數目。
這次只有o3-mini和R1回答對了,思維鏈均顯示把每個字母與位置拆分對應,最終得出6個r。o3-mini二次驗證後答對,R1還提示正確單詞應該是strawberry,這樣拚寫是出題人故意而為之。Gemini Thinking的思維鏈卻出奇簡單,兩次得出4和5,均非正確答案。
三. 創意文本生成
問題:寫一篇「當代研究員帶著AI技術穿越回桑治代」,800字以內的小故事。要有開頭、發展、高潮與結尾。要充滿想像力,同時流暢易讀。
1. o3-mini + search:
思維鏈:

生成結果:
在一個風雨交加的深夜,研究員陳明正在實驗室里調試最新開發的AI時空穿梭裝置。突然,裝置發出耀眼光芒,陳明只覺得眼前一黑,待他再次睜眼時,竟發現自己身處一條青磚小巷中,周圍古意盎然,正是北桑治汴梁的市井景象。
初到桑治代,陳明驚奇又興奮。他小心翼翼地拿出隨身攜帶的智能終端,利用內置AI助手迅速解讀當地的曆法、醫藥與禮儀。不久,他遇到一位儒生張生,對方對這位身著異服、手持奇器的「外來者」好奇不已。陳明便借助AI系統向張生解釋未來科技的種種奇妙之處,解答張生關於天文、醫理的疑問,還用AI數據配合簡易藥理,成功為一位重病老婦開出治療方案,令周圍百姓讚歎不已。
正當陳明在桑治代大放異彩之時,朝中奸臣李某垂涎他的「神奇工具」,誣陷他施展妖術圖謀不軌。李某設下陷阱,將陳明扣押入獄,面臨滿門抄斬的危機。危急時刻,陳明心中一動,啟動了智能終端中的「逃生模式」:系統分析出監獄看守換班的時段和巡邏路線,並迅速製定出一套縝密的脫逃計劃。他悄然利用裝置製造幻影干擾,將守衛誤導,趁機逃出牢籠,並一路利用AI預測官兵動向,終於找到了隱藏在城隍廟內的時空傳送裝置。
在告別之際,張生深情贈予陳明一卷詩書,囑咐他「智者千年,情義永存」。站在古城牆下,望著晨曦初露的汴梁城,陳明心中百感交集:這一段穿越之旅不僅讓他親曆了桑治代市井的繁華與危機,更讓他體會到科技與人文交融的珍貴價值。帶著滿腔激動與對未來的希冀,他啟動了傳送裝置,瞬間回到了現代。此後,他將這段奇遇記錄成論文與小說,讓更多人見證科技如何在歷史長河中點亮智慧之光。
2. DeepSeek R1
思維鏈:

生成結果:
刺眼的藍光在量子計算中心炸開時,林深正往粒子對撞機里輸入最後一組參數。等他睜開眼,汴京城的朱雀大街正飄著細雪,街邊酒旗上”正店”二字在風裡搖晃。
“公元1126年,靖康元年。”腦機接口裡的AI”河圖”發出機械音,林深摸到後頸皮膚下微凸的芯片,那是唯一存留的現代科技。他裹緊實驗服衝進太學時,幾個太學生正圍著渾天儀爭論星相。
“十日內必有大雨。”林深指著儀器上的青銅蟠龍。當值博士甩著長鬚冷笑:”欽天監都說要旱到立春……”話音未落,簷角銅鈴突然叮噹作響,河圖正在透過腦機解析雲層數據。
三日後暴雨傾盆,翰林圖畫院的《耕織圖》被雨水浸透時,林深正在西郊試驗田里調配除菌藥水。他舉起竹筒顯微鏡,青黴菌絲在桑葉背面清晰可見。”白絹病要用生石灰阻斷。”他說著拽過宣紙畫分子式,卻聽見身後傳來佩玉輕響。
“官家宣召。”紫袍宦官抖開黃綾聖旨。垂拱殿內,桑治徽宗面前的《瑞鶴圖》墨跡未乾,林深腕間的腦機貼片卻開始發燙。當他說出”金兵半年後將破太原”時,屏風後轉出個戴貂蟬冠的文臣,正是李綱。
河圖的預警讓守城方案提前了三個月。元宵節那夜,林深蹲在城垛後調試硝石提純裝置,忽然聽到腦內傳來刺耳警報。AI系統正以每分鐘1%的速度崩解——芯片承受不住高頻運算,北桑治的青銅冶煉技術根本造不出替代零件。
“還剩23小時57分。”河圖的機械音帶著電流雜訊。林深望著城內萬家燈火,忽然抓起《武經總要》衝進軍器監。當晨光染紅酸棗門時,他捧著用活字印刷模具改造的青銅芯片衝出工坊,身後跟著二十個抬著床子弩的廂兵。
靖康二年三月,金兵退去那日,林深在開寶寺塔頂拆下最後一塊電路板。暮色中的汴河泛著粼粼波光,他忽然將河圖的核心芯片塞進渾天儀暗格。腦機接口失效前的最後畫面,是國子監學生抄錄他編的《格物初階》,那些火藥配方與防疫條例,正沿著大運河的漕船流向江南。

3. Gemini 2.0 Flash Thinking Experimental
思維鏈:

生成結果:
《汴梁夜星:AI點亮的桑治朝》
實驗室的藍光驟然熄滅,李薇感覺一陣天旋地轉。等她勉強睜開眼,刺鼻的香火味和嘈雜的人聲撲面而來,哪裡還有冰冷的儀器?她身處一個燈火搖曳的木棚下,周圍是熙熙攘攘,穿著寬袍大袖的古人。手中緊握的,只有她臨行前仍在調試的微型AI助手,「星河」。
「星河,這是怎麼回事?」李薇低聲呼喚。指尖的光芒一閃,迷你投影浮現,AI助手星河帶著略微失真的電子音回答:「環境參數異常,初步判定…時空穿越已發生,當前定位,北桑治汴梁。」
汴梁?!李薇倒吸一口涼氣,她,一個致力於深度學習算法的現代研究員,竟然帶著她的AI助手,穿越到了千年前的桑治朝!
最初的慌亂過後,李薇的科研本能開始發揮作用。星河雖然能量有限,但基礎功能還在,語言翻譯、信息檢索、甚至簡單的邏輯分析都勉強可用。她低調地融入人群,靠著星河提供的桑治代日常用語和生活常識,假扮成一名外鄉來的遊方女醫師,在汴梁城腳勉強安頓下來。
汴梁的繁華遠超想像,但也處處充滿不便。夜晚的黑暗,信息的閉塞,都讓習慣了現代便利生活的李薇感到窒息。然而,也正是這些不便,讓她看到了星河的價值。
她利用星河檢索古代醫書,結合現代醫學知識,改良了一些簡易有效的藥方,在坊間行醫。星河還能幫她分析病症,輔助診斷,這在缺乏精密儀器的古代簡直是神技。很快,她的醫術便小有名氣,甚至被一些達官貴人請去看診。
一次,李薇應邀前往一位王員外家。員外府邸張燈結綵,正為即將到來的元宵燈會做準備。望著院子裡造型各異,卻都略顯笨拙的燈籠,李薇心中一動。
「星河,桑治代的燈籠…技術含量不高啊。」
「是的,根據檢索結果,桑治代燈籠主要依靠手工紮製和簡單的物理原理。」星河回答。
李薇眼中閃過一絲興奮,她突然有了一個大膽的想法。「星河,我們來做點…不一樣的東西吧!」
元宵燈會當日,汴梁城燈火輝煌,人潮如織。王員外府邸前,一盞造型奇特的燈籠吸引了所有人的目光。那不是尋常的紙紮燈籠,而是一個通體透明的水晶球,球內,無數細小的光點如星辰般閃爍,變幻出各種奇異的圖案,時而孔雀開屏,時而龍騰九霄,栩栩如生,令人歎為觀止。
這正是李薇利用星河提供的現代光學和投影技術,結合桑治代的琉璃工藝,製造出的「星河幻燈」。它無需蠟燭,電力來源竟是隱藏在燈座下,一塊看似普通的「寶石」,實則是星河精巧設計的微型能源裝置。
「天啊!這是神仙燈嗎?」圍觀的人們驚呼,從未見過如此神奇的燈籠。王員外更是喜出望外,他哪裡知道,這「神仙燈」的核心,是一位來自千年後的女醫師和她的AI助手。
星河幻燈一舉成名,汴梁城轟動了。人們爭相前來觀看,甚至連皇宮也派人來打探。李薇知道,她和星河的力量,終於在這個時代顯現出來。
然而,名聲帶來的不僅是讚譽,也有猜疑和覬覦。有人懷疑她是妖術,有人想竊取她的「奇技」。危機暗流湧動。
當夜幕降臨,李薇再次抬頭望向夜空,汴梁的星空依然璀璨,只是多了幾分不真實的夢幻感。她知道,她的旅程還遠未結束,而星河,將是她在這個時代,最耀眼的光芒。她笑了笑,握緊手中的「寶石」,心中充滿了對未來的無限可能。
【分析】
這輪寫中文小說Gemini Thinking還真驚豔到我了!從環境、細節描寫到人物語言、心情刻畫都相當到位。情節發展起承轉合,是一則輕巧精緻的小故事。思維鏈顯示Gemini經過了拆解任務、頭腦風暴、結構搭建、細節優化、流暢度檢查、高潮調整、結尾完善幾個步驟,系統化構思一個完整的短篇故事,中間還考慮是否加入浪漫線,後因篇幅決定放棄。
R1繼續發揮穩定,將背景設定為更具體的1126年北桑治汴京,並加入《耕織圖》、《瑞鶴圖》、《武經總要》這些真實史籍,還與靖康之變結合進行主題昇華。整個思維推導過程,說實在的,好像導演跟你講劇本一樣,擬人且充滿說服力。最後又由文中伏筆引申出後續可能的劇情——不得不說,在這種歷史感的中文寫作上,R1的味兒別人學不來。
o3-mini我都不想說它了,故事平穩完整但精彩不足,主要它的思維鏈什麼也沒說,就把寫作要求擴充了一波,還出現兩段相似的「鬼打牆」。此時我越發覺得網民「抽水」得沒錯。
四. 時事信息整合
問題:解析Elon Musk新成立的DOGE團隊
1. o3-mini + search
思維鏈:

生成結果:

2. DeepSeek R1+search
思維鏈:

生成結果:

3. Gemini 2.0 Flash Thinking Experimental with Apps
思維鏈:

生成結果:

【分析】
為了考驗實時信息整合能力,這輪給三款模型都開了聯網,其中Gemini需選擇2.0 Flash Thinking with Apps模型。o3-mini和R1答案完整度更高。o3-mini思維鏈再次類似於生成結果總結;Gemini Thinking表示要用Google搜索,加了幾個注意點;R1則概述了所有已查看網頁,又介紹了要涵蓋的方面和如何整合。綜合下來,還是R1最優。
五. 編程問題
問題:作為一名精通Python的高級軟件工程師,請使用Pygame創建一個簡單的動畫遊戲,讓一球在旋轉的六邊形內彈跳。
1. o3-mini-high
思維鏈:

生成效果:

2. DeepSeek R1
思維鏈:

生成效果:

3. Gemini 2.0 Flash Thinking Experimental
思維鏈:

生成效果:

【分析】
三個模型都完成了動畫,生成效果o3-mini最準確,R1和Gemini Thinking的球體都有些彈出六邊形範圍。思維鏈來看,o3-mini又是在解釋題目,而幾乎沒講具體要怎麼做;R1和Gemini Thinking思考過程比較詳細,並列出了代碼思路及步驟。
六. 綜合問題
問題:打工人一週上多少天班最合適?綜合各方面進行科學合理的分析。
1. o3-mini-high + search
思維鏈:

生成結果:

2. DeepSeek R1+search
思維鏈:

生成結果:

3. Gemini 2.0 Flash Thinking Experimental with Apps
思維鏈:

生成結果:

【分析】
對這個曾在微博小紅書被各位打工人討論的題目,三款模型分析後給出了不同答案:o3-mini認為還是傳統的5天工作製最好、R1覺得4+1彈性工作製更優、Gemini Thinking則建議改為4天工作製。
o3-mini從社會生產力、健康、工作滿意度和生活平衡幾個方面分析,思維鏈根本就是答案的總結。R1更像人的思考過程:先確定問題核心,接著回顧現有研究數據,繼而考慮健康、生產效率、社會文化和經濟因素,並探索彈性工作製可能性,最後再回溯用戶的深層需求是在休息時間和收入間找到平衡點,綜合所有給出結果。答案也最符合國人需求,按行業給出生產效率曲線和解決方案,附帶稅收和監管等政策工具包。Gemini Thinking思維鏈再次嚴格執行了系統化研究,理解打工人含義,劃定生產力、文化、個體等幾大維度,搜索數據、比較優缺點、形成答案。
七. 加試題:多模態推理
問題:根據下面的照片寫一首英文7行詩

1. DeepSeek R1
思維鏈:

生成結果:

中文版:

2. Gemini 2.0 Flash Thinking Experimental
思維鏈:

生成結果

【分析】
最後,對有多模態推理能力的R1和Gemini Thinking來個加試題:傳圖作詩。
結果見仁見智,但各自有亮點:R1想像力更豐富,有種深刻與厚重感,中文版還略帶周董歌詞風;Gemini Thinking作品清秀簡單,但準確識別出圖片公交車上的「Dundas West」地名,搜索了一下真在多倫多。說實話這個連我自己都沒注意到,可見其多模態理解能力確實很強。
總結
整體評測下來,三款推理模型基本都能輸出高質量答案,聯網檢索能力也過關。但在思維鏈(CoT)的呈現方式上,各有明顯區別。
DeepSeek R1的推理過程最接近人類思維方式,能夠在推理過程中不斷查漏補缺,邏輯流暢,展現出明顯的「人味兒」。其輸出往往更加完整深入,信息覆蓋面也更廣。
Gemini 2.0 Flash Thinking 則更像一位嚴謹的科研助手,按照系統化的分析步驟進行推理,條理清晰,事無鉅細,因此思維鏈往往較長,略為機械化。
o3-mini的思維鏈確實如社區所說,更像對問題和答案的重覆總結,而非完整展示推理過程,透明度不高。對此奧特曼也變相承認,稱這是為了「讓CoT更易讀,但會儘量保持對原始內容的忠實呈現。」
目前這三款模型都是免費開放,好奇的同學們可以去親自試試。話說,Anthropic的第一款推理模型什麼時候出來呢?
