DeepSeek們越來越聰明,卻也越來越不聽話了。

在今年,DeepSeek R1火了之後。

幾乎快形成了一個共識,就是:

AI推理能力越強,執行任務時就應該越聰明。

從2022年Chain-of-Thought橫空出世,到今天Gemini 2.5 Pro、OpenAI o3、DeepSeek-R1、Qwen3,這些旗艦模型的統治性表現,我們一直相信,讓模型先想一想,是一個幾乎不會出錯的策略。

不過,這種聰明,也會帶來一些副作用。

就是提示詞遵循能力,變得越來越差。

換句話說,就是越來越不聽你的話了。

我在過年期間寫DeepSeek的攻略文:DeepSeek的提示詞技巧,就是沒有技巧。的時候,也提到了這一點。

不過,這隻是我自己使用中的感覺,它變的越來越聰明,但是感覺,卻越來越不聽話了,以至於我現在,最常用的模型,開始越來越變成了GPT4o,所有的推理模型,反而會用的越來越少了。

不過,確實沒有經歷過驗證,所以也不是特別敢說。

直到昨晚回來,在扒拉論文的時候,看到一篇提到這個話題的論文,我讀完以後,我覺得,終於可以來聊聊這個事了。

這篇論文叫,《When Thinking Fails: The Pitfalls of Reasoning for Instruction-Following in LLMs》

網址在此:https://arxiv.org/abs/2505.11423

它用用極其紮實的實驗,驗證了上述的論點。

當你讓模型開始推理,它反而更容易違反你給出的指令。

是的,當思考失敗,這聰明的智商,反而就變成了負擔。

我儘量用人話,來給大家簡單的科普一下論文中的實驗和內容,再說說我的理解。

先說論文本身。

論文的研究團隊來自Harvard、Amazon和NYU,他們花了好幾個月,幹了一件特別簡單卻沒人認真做過的事,就是把這個思考過程應用在一個最基礎、最現實、最需要穩定性的場景上:

聽懂人類指令,然後照做。

他們做了兩組測試。

第一組叫IFEval,一個標準的執行類任務測試集,每個任務都非常簡單。

比如「寫400字以上」「必須提到AI三次」「輸出格式必須是JSON」「句末不能有標點」等等。

所有的任務都有明確的可驗證標準,要麼做對要麼做錯,沒有模糊地帶。

第二組叫ComplexBench,這就更有趣了,是那種「多約束、邏輯組合、順序嵌套」的複雜指令,比如「先做A中的三選一,再加上B的格式要求,最後加上C的語言限制」。

聽起來好像推理模型在這種任務上應該更有優勢?畢竟這不是隨便一兩句話就能糊弄過去的內容。

然而,論文的結論驚人又統一:絕大多數模型在使用CoT推理後,執行準確率反而下降了。而且,下降得還不輕。

他們一共測了15個模型,涵蓋開源的(比如LLaMA、Mixtral、Qwen2.5、DeepSeek系列)和閉源的(GPT-4o-mini、Claude 3.5/3.7等等)。

在IFEval上,14個模型中有13個使用CoT時準確率變低;在ComplexBench上,所有模型都在使用CoT後,表現變差。

甚至連像 LLaMA-3-70B-Instruct 這種參數量較大、訓練完整的模型,在使用CoT時也會從85.6%的準確率掉到77.3%。

8個點的損失,在工業級任務里其實非常恐怖了。

還有推理模型模型開不開推理的對比,典型的就是DeeSeek V3和R1,還有Claude 3.7這種混合模型。

會發現,幾乎都有下降。

他們手工扒拉了1500多個樣本,看了所有的思維鏈,總結出來了原因。

他們發現,當模型用了思維鏈條之後,它確實變聰明了,比如能更好地遵守格式、注意字數、精確用詞,像是「必須用15個大寫字母」這種題,靠CoT反而更穩。

但,它也變得神經質了。

它開始自作主張,覺得自己懂了任務的深層含義,於是它會擅自刪掉、修改,甚至加上有幫助的解釋。

論文里提到很多模型會在「只允許輸出法語」的題目中,善意地補上一句「這是‘Bonjour’的英文翻譯」,在「只能輸出引號內容」的任務里,自動補充前情摘要。

它太想表現自己了,太想證明我真的理解你了,於是它忘了本該嚴格遵守的指令。這就是它學會推理之後的副作用。

為了找出這個副作用的根源,他們引入了一個新概念:

約束注意力(Constraint Attention)。

他們發現,不管是GPT-4o-mini,還是Claude 3.7,幾乎所有模型在用了CoT思維鏈後,它們的注意力,也就是在生成答案時,關注任務描述中「關鍵限制」的那部分注意力,明顯下降。

你可以理解為,當你要求一個人邊想邊說,他反而忘了原本你只要他複述句子的簡單目標。

更有趣的是,他們還測了一個我一直想知道的問題的答案:

就是CoT思考越長,準確率越高嗎?

結果是,幾乎沒有顯著相關性。

思考長度和是否做對,幾乎沒有直接聯繫。

也就是說,更努力≠更對。

所以,其實結論很簡單,就是在要求非常規範、精準的大模型輸出任務上,完全不需要使用推理模型或者思維鏈,直接上非推理模型,效果會更好。

但是,如果,就是非要用,希望提升整體指令遵循效果呢?

他們也基於自己的測試,給出了4種方案。

第一種,是「Few-Shot少樣本示例」。

給模型提前看幾個做對的例子。

效果一般般,問題在於輸入太長,而且示例選自已有模型,容易有偏。

第二種,是「Self-Reflection 自我反思」。

模型第一次輸出之後,再自己複查一遍,「你剛才做對了嗎?」然後再決定是否修改。

這招對大模型效果很好,因為它們確實能自省,但小模型效果慘不忍睹,因為它們智力不夠,就像個不知錯的小孩,越反思越錯。

第三種,是「Self-Selective Reasoning」。讓模型自己判斷這個任務是否需要推理。

結果是:它召回率很高,基本上只要推理有用它都能猜出來,但精確度很低一言不合就開始推理,哪怕你只是讓它改個詞。

第四種是最有效的,「Classifier-Selective Reasoning」。

直接訓練一個小模型作為判斷器,來幫主模型判斷某個任務是否該啟用CoT。

效果顯著,在兩個測試集上幾乎都能恢復失去的準確率,甚至有些模型比原始還高。

缺點就是每個主模型都要單獨訓練一個判斷器,成本太高。。。

這篇論文大概就是這樣,對我自己非常有幫助,我看的論文不多,這篇是我自己看的,我認為對「CoT推理在執行任務中的潛在副作用」這個話題,比較完整的研究之一。

同時,我也想聊聊,這篇論文對我的啟示。

我們總覺得,聰明,就意味著知道得多、分析得細、每個變量都不放過.

但事實上,真正強大的智能,從來都不是把所有細節一股腦地掃過一遍,而是,知道在哪一秒鍾,把注意力放在哪個點上

比如我們小時候考試,很多人因為太想得高分,最後反而在最簡單的題上失分。

成年人做選擇,明明已經知道該怎麼做了,卻非得做個SWOT分析表、拉個10頁PPT討論,最後被複雜困死。

公司做決策,明明方向明確,卻因為分析得太多、風險評估太細,最後團隊誰也不敢拍板,錯過風口。

AI其實跟人很像。

上面很多CoT的驗證,還有Constraint Attention,其實也證明了大模型不是笨,而是思維資源錯配了

你讓它完成任務,它卻跑去想著「怎麼把這段話說得更優雅」、「這句話需不需要加個邏輯轉折」、「前後是不是夠自然」。

你讓它幹活,它在腦子裡腦補了幾萬種情節。

但是,真正牛逼的智能,其實應該是聚焦。

比如你叫一個人幫你看一下一份報告有沒有錯,一個低階執行者可能就只會一句句校對標點。

而一個高階智能,可能會反過來先問你,「你重點是要我看錯字,還是看數據邏輯?」

你說清楚重點,他就能把80%的注意力鎖死在正確位置。

而如果他什麼都想看一點,最後很可能錯得最離譜。

我們真正需要的,可能,是對「該想什麼」有判斷能力的智能

就像我們人類那些最令人敬畏的時刻,不是我們知道多少,而是我們能瞬間把注意力聚焦在關鍵節點上。

危機時刻,考場鍾響,夜深人靜一個念頭浮上心頭的時候,你知道的,你不能全看,你只能看準。

那個「看準」,在我看來,可能就是智能真正的體現。

這一點,看似簡單,卻足夠讓AI從「聰明」,變成「智能」。

這就是我讀完論文之後,真正想跟大家分享的東西。

我們不缺思考的能力,我們缺的,是思考的分寸感。

注意力,不是撒網。

而是出擊。