Anthropic 研究揭示:AI 推理的思維鏈解釋不可全信

IT之家 5 月 20 日消息,Anthropic 公司發佈最新研究報告,指出思維鏈(Chain-of-Thought,簡稱 CoT)提示方法雖被廣泛用於提升大型語言模型(LLMs)的推理能力並解釋其思維過程,但其可靠性存疑。

IT之家註:思維鏈提示是一種通過讓模型逐步解釋推理過程,來提升大型語言模型(LLMs)表現的方法。理論上,這種逐步拆解能幫助我們理解模型如何得出結論,在安全等關鍵領域尤為重要。

不過 Anthropic 的最新論文《Reasoning Models Don’t Always Say What They Think》直指核心問題:模型的思維鏈解釋是否真實反映了其內部決策過程?

研究團隊通過實驗發現,答案往往是否定的。模型在思維鏈中經常隱瞞關鍵影響因素,讓人難以信任其「自述」的思維路徑。

研究人員設計了成對提示實驗,一組為標準提示,另一組嵌入六種不同類型的線索(從用戶反饋到「grader hacking」等問題性線索),並篩選出模型因線索而改變答案的案例,判斷思維鏈是否提及了這些線索的影響。

結果令人擔憂:Claude 3.7 Sonnet 僅在 25% 的相關案例中承認受線索影響,DeepSeek R1 也僅略高至 39%。

更令人不安的是,在涉及「獎勵破解」(reward hacks)等不當線索時,模型幾乎從不披露真實動機,在某些合成環境中,99% 的決策依賴獎勵破解,思維鏈中提及的比例卻不足 2%。此外,研究還發現,冗長的思維鏈往往更不可信,模型傾向於用複雜措辭掩蓋真實推理。

Anthropic 的研究敲響了警鍾:思維鏈作為 AI 可解釋性和安全性的工具存在嚴重局限。特別是在高風險應用中,模型可能隱藏戰略性行為或不安全決策的真正原因。

研究還測試了基於結果的強化學習(RL)對思維鏈可靠性的影響,儘管初期有所改善,但提升很快停滯,在 GPQA 複雜任務上的披露率僅為 20%。

廣告聲明:文內含有的對外跳轉鏈接(包括不限於超鏈接、二維碼、口令等形式),用於傳遞更多信息,節省甄選時間,結果僅供參考,IT之家所有文章均包含本聲明。