藏不住了!OpenAI的推理模型有時用中文「思考」
機器之心報導
編輯:佳琪
讓我們說中文!
OpenAI o1 在推理時有個特點,就像有人考試會把關鍵解題步驟寫在演草紙上,它會把推理時的內心 os 分點列出來。
然而,最近 o1 的內心 os 是越來越不對勁了,明明是用英語提問的,但 o1 開始在演草紙上用中文「碎碎念」了。
比如這道編碼題,前面 o1 還在老老實實用英語,後腳就進入了「中文時間」。
這波操作,怎麼看都像留子寫論文的反向操作:先用中文打草稿,再翻譯成英文交作業,倒反天罡了。
這件事先在 reddit 上掀起了一陣討論,匿名發帖者表示:「我只見過 Deepseek 的模型這樣做,但我不知道為什麼 OpenAI 的模型會突然偏向中文啊!」
神經科學 × AI 研究員 Rishab Jain 也在 X 上表示疑惑:「為什麼 o1 突然開始用中文思考了?明明整個對話(5 + 條消息)都是英文啊…… 很有意思…… 該不會是訓練數據在作祟吧?」
OpenAI 並未做出解釋,甚至都沒有承認這一現象。
Google的 Gemini 也出現了類似的行為。它會在段落中間隨機插入古吉拉特語(印度的一種主要語言)單詞。ChatGPT 也可能會用沒有出現在對話中的語言來定義網頁左邊列表裡整個對話的名稱。
這種多語言能力者的現象不只出現在推理或語言模型中,多模態模型也「躺槍」,有網民提到自己在跟 GPT-4o 對話的時候,它也會半途隨機:「讓我們說中文?」
那麼,這到底是怎麼一回事呢?
難道是 o1 套殼「QwQ」的事,藏不住了?
嗯,AI 專家們也不太確定。但他們先針對推理模型提出了幾種推測。
訓練數據的鍋?
Hugging Face CEO Clément Delangue 在 X 上轉貼,表示:「或許這是因為閉源公司在使用(目前是中國機構主導)的開源 AI 和開源數據集?」
他還提到:「未來在開源 AI 領域勝出的國家或公司,將在 AI 的未來發展中擁有巨大的影響力和話語權。」
「OpenAI 和 Anthropic 的實驗室都會使用第三方數據標註服務來處理科學、數學和編程方面的博士級推理數據,」RT-X 系列的主要作者、Google DeepMind 研究員 Ted Xiao 做出了進一步解釋,「出於專業勞動力可用性和成本考慮,許多這些第三方數據標記供應商都位於中國。」
而 o1 切換到中文可能是這種影響的一個例子。
軟件工程師 @ClaudiuDP 也表示:「可能是 AI 的訓練數據中里,一些需要用來構建回答的信息是用中文寫的。」
除了中文佔訓練數據的比重高之外,由於是中文是象形文字系統,一個漢字往往可以表達一個完整的概念,相比之下,英文可能需要多個字母才能表達同樣的概念。這可能也是一種「節省 token」的策略?
「AI 選擇用中文思考,是因為中文在某些表達上更經濟,可以直接解概念壓縮包?」
「在思維鏈中,同等 token,選中文能思考得更深?」
「與英語相比,中文壓縮了 token 的使用。我懷疑這是否是原因,但節省這些冗長的內部推理模型的成本是明智之舉。」
解起數學題來尤為直觀,比如小 A 還在卷子上拚「Quotient」,而旁邊的中國同學的「商」字已經寫完了。
選擇了最順手的語言?
然而,有些專家並不認同應該讓數據標註背鍋。因為除了中文,o1 突然切換到印地語、泰語等其他語言的可能性也很大。
他們提出了不同的觀點:「o1 可能只是在選擇最順手的語言來解題,或者只是單純的幻覺。」
「模型並不知道什麼是語言,也不知道語言之間有什麼不同,」阿爾伯塔大學助理教授、AI 研究員 Matthew Guzdial 對 TechCrunch 表示,「對它來說這些都只是文本。」
事實上,模型眼中的語言,和我們理解的完全不同。模型並不直接讀單詞,而是處理 tokens。以「fantastic」為例,它可以作為一個完整的 token;可以拆成「fan」、「tas」、「tic」三個 token;也可以完全拆散,每個字母都是一個 token。
但這種拆分方式也會帶來一些誤會。很多分詞器看到空格就認為是新詞的開始,但實際上不是所有語言都用空格分詞,比如中文。
Hugging Face 的工程師 Tiezhen Wang 認同 Guzdial 的看法,認為推理模型語言的不一致性可能是訓練期間建立了某種特殊的關聯。
他類比了人類的思維過程,會說雙語並不僅僅是會說兩種語言,而是一種獨特的思維方式:大腦會自然地選擇最適合當下場景的語言。就像用中文算數學比較簡潔高效,每個數字只需一個音節,但討論「無意識偏見」時卻自然切換到英文,因為最初就是用英文學習這個概念。
這種語言切換就像程序員選擇編程語言一樣自然 —— 雖然大多數編程語言都能完成任務,但我們還是會選擇用 Bash 寫命令行,用 Python 做機器學習,因為每種語言都有它的「最佳場景」。
「工具要看場合」,這也啟發訓練 AI 時也要讓它接觸多種語言,學習到不同文化中的獨特思維方式,這種包容性也能讓 AI 更全面,也更公平。
有許多 AI 專家與 Wang 的觀點不謀而合。
「在思維鏈推理過程中,肯定會冒出很多種語言,用哪種語言思考都行。就像我自己,當某些概念用英語很難表達時,我的思維就會自動切換到俄語。大語言模型就是矽基大腦,可能也是同理。」
「這是訓練過程中產生的一個現象。Deepseek 的 R1 模型也有同樣的表現。在訓練過程中,模型會搜索那些最能幫助它得出正確結論的詞。而其他語言中的詞向量往往能更好地影響它的推理過程。」
同時,不少圈內人表示,既然切換語言對思考有幫助,而且用戶最終看到的還是英文結果,那這完全 OK。
「作為一個中國人,我經常在腦子裡用英文思考,因為我是雙語者。所以我一點也不驚訝大語言模型會用中文思考,畢竟它們也是多語言通。只要最後輸出的是預期語言就行,我覺得這不能算是幻覺。不過,這是不是要進一步思考:最好的 AI 思考方式,是不是應該是一種與具體語言無關的隱藏狀態?」
「半路用中文思考」不是 bug,反而是一個意外的驚喜,說明 AI 出現了「以我為主,為我所用」的智能湧現?
對此,你怎麼看呢?歡迎在評論區留下你的看法!
參考鏈接:
OpenAI’s AI reasoning model ‘thinks’ in Chinese sometimes and no one really knows why
https://x.com/RishabJainK/status/1877157192727466330
https://x.com/ClementDelangue/status/1877767382120255792
https://x.com/Xianbao_QIAN/status/1878623350953857166
https://x.com/xiao_ted/status/1877503196811362504