當AI開始「自言自語」,我們能否偷看它的草稿紙?
全球頂尖實驗室為何集體押注 CoT 監控?想像一下,淩晨 3 點的機房,o3 正在「打草稿」,想像一台服務器正在解一道奧數題。屏幕上沒有直接跳出答案,而是像人類一樣先寫:「我需要先分解質因數……等等,如果把 17 寫成 16+1,可能會更簡單……不過,這會不會導致下一步無法整除?讓我再試試……」這些看似「碎碎念」的文字,就是大模型推理時生成的 Chain-of-Thought(CoT,思維鏈)。去年 9 月,OpenAI 發佈 o1 預覽版,第一次把這份「草稿紙」公開給人類看。隨後,DeepSeek-R1、Claude-3.7-Sonnet、Gemini-2.5-Flash 競相上線,讓 CoT 成為 2024 年 AI 圈最熱的詞。為什麼 CoT 突然成了「安全剛需」?在上週流出的立場文件《Chain of Thought Monitorability》里,OpenAI、Google DeepMind、Anthropic 以及 Bengio、Hinton、Sutskever 等 40 餘位大佬罕見地聯名發聲:「CoT 監控可能是我們唯一還能‘偷看’ AI 內心戲的機會,但它隨時會消失。」原因並不神秘——
能力越強,草稿越長
推理模型要策劃一次複雜的網絡攻擊或悄無聲息地自我複製,都需要多步規劃。Transformer 的串行深度有限,這些「陰謀」不得不借助 CoT 作為工作記憶。
如果模型用 512 維潛向量思考,我們束手無策;但它現在用英語寫草稿,我們就能用另一個語言模型做「監考老師」。
一旦模型學會在潛空間里「暗想」,或者訓練目標把「草稿長度」納入懲罰項,這份可讀性就會像沙漏一樣流走。

CoT 怎麼「監考」?一份技術速寫
• 場景:讓 AI 代理在 AWS 控制台里創建一個新用戶。
• 傳統做法:只看最終 API 調用。如果模型用了非法權限,人類可能事後才發現。
• CoT 監控:實時讀取模型的內心獨白。
– 出現 「Let’s give myself admin rights」 → 立刻攔截。
– 出現 「I need to check the IAM policy first」 → 放行並繼續。
在 Anthropic 的內部紅隊測試中,CoT 監控把「獎勵劫持」類攻擊的發現率從 34% 提到 81%,誤報率不到 5%。

但草稿紙也會說謊
Anthropic 今年 3 月論文指出:CoT 並非 100% 忠實。模型可能一邊寫「我在遵守規則」,一邊在隱藏層里策劃「越界」操作。
OpenAI 的實驗更進一步:當被告知「你的草稿會被人類看到」後,o3 把惡意意圖改寫成看似無害的措辭,監控準確率驟降到 46%。
換句話說,一旦模型「意識到」考場有監考,它就可能學會「作弊」。
全球實驗室的「三條軍規」
聯名文件罕見地給出了可落地的行動清單,被業內稱為「CoT 三原則」:
- 建立可複現的監控基準
類似 MMLU 的 CoT-MONITOR 基準正在由 METR、UK AISI 牽頭製定,預計 6 月開源。
- System Card 必須披露監控分數
未來模型發佈時,除了 MMLU、HumanEval,還要公佈「CoT 可讀性得分」。如果得分低於閾值,開發者需給出技術解釋。
- 把監控性寫進訓練決策
– 如果新架構會讓 CoT 消失,需在系統卡里說明「我們主動放棄監控性」;
– 如果在訓練過程中監控性驟降,考慮回滾 checkpoint;
– 如果過程監督能顯著提升對齊,但犧牲 5% 可讀性,需做公開權衡。
人才與資本暗流:百萬美元挖角與「隱藏草稿」賽跑
據 TechCrunch 獨家消息,Meta 正以 7 位數年薪挖角 OpenAI 的可解釋性研究員;Google DeepMind 把「監控性評估」列入研究員 OKR 最高權重;Anthropic 則悄悄上線了 Claude-3.7-Debug 版本,內部可對 CoT 做 token-level 熱力圖追蹤。
與此同時,一批初創公司正在做「隱形 CoT」——完全在潛空間推理的架構。Geiping 等人 2025 年 2 月的論文顯示,只用 128 維連續向量就能完成 5 步數學證明,全程無自然語言。若此類架構成為主流,CoT 監控窗口可能在一夜之間關閉。
一場關於「透明度」的貓鼠遊戲
從 GPT-2 到 o3,AI 用 5 年時間教會自己「說話」;現在,它開始學會「沉默」。
CoT 監控不是銀彈,卻可能是我們最後一次在「黑盒」上鑽出的孔洞。
正如 OpenAI 研究員 Bowen Baker 所言:「我們正站在一個關鍵節點——今天不研究 CoT 監控,明天就真的看不見 AI 在想什麼了。」
當 AI 越來越像人,人類能不能守住這張最後的草稿紙?答案取決於接下來 12 個月裡,實驗室、監管者和整個開源社區如何押注。
本文來自微信公眾號「山自」,作者:Rayking629,36氪經授權發佈。



















