有了這個國產版 o1 模型,我想能在《魷魚遊戲》里活到最後

像人類一樣思考的 AI 離我們還有多遠?

在道格拉斯·亞當斯的科幻小說《銀河系漫遊指南》中,一個高緯度種族為了找到生命、宇宙以及任何事情的終極答案,設計一台超級電腦「Deep Thought」來計算。

「Deep Thought」經過 750 萬年的運算,得出了「42」這個答案。

而最科幻的往往是現實,即便是回答極其複雜的問題,AI 推理和思考可能只需要不到 1 分鐘。

OpenAI 今年 9 月發佈推理模型 o1 後,人們開始意識到,在追求「更大」之後,AI 開始追求「更像」,推理能力成為 AI 進化的下一個重要拐點。

今天,我們發現號稱「中國版 OpenAI」的智譜也同樣上線了一款類 o1 的推理模型 GLM-Zero-Preview(GLM-Zero 的初代版本 )。

雖然這幾個月已經有多家公司紛紛上線推理模型,但在體驗完 GLM-Zero-Preview 後,我發現它還是有些新東西。

想要體驗 GLM-Zero-Preview,方法很簡單。

GLM-Zero-Preview 發佈即上線,支持智譜清言用戶免費使用,以及智譜開放平台 API 調用。現在,登陸「智譜清言」網頁和 APP,進入「Zero 推理模型」智能體,上傳文字或圖片即可免費體驗。

此外,GLM-Zero-Preview 的 API 也已同步上線智譜開放平台 bigmodel.cn。

附上體驗地址:智譜清言https://chatglm.cn/main/gdetail/676411c38945bbc58a905d31?lang=zh智譜開放平台https://bigmodel.cn/dev/api/normal-model/glm-zero-preview

從「魷魚遊戲」到量子力學,這個國產版 o1 輕鬆拿捏

最近,在熱播韓劇《魷魚遊戲2》中,一道雙手石頭剪刀布的遊戲簡單又刺激,這個遊戲增加策略推理和心理層面的博弈,在以生死為賭注的壓力下,難度還會增加。

但如果我帶著 GLM-Zero-Preview 去玩這個遊戲,活下來的概率就會大大增加。

「雙手石頭剪刀布是一個更為複雜的石頭剪刀布遊戲版本。玩家開始時使用雙手來表示石頭、剪刀或布的任意組合。在看到對手的選擇後,玩家必須同時舉起一隻手,留下最終的選擇。」

怎麼玩這個獲勝概率更大?GLM-Zero-Preview 的回答詳盡且實用,羅列出各種提高獲勝效率的最優解。

科學和玄學有時也只有一線之差。今年不少寺廟被擠爆,在上班和上進之間選擇上香的芸芸眾生,求籤不難,但解籤卻要排上長隊,不想等怎麼辦?

那你可以試試求助 GLM-Zero-Preview。不僅免費效率高,而且解讀還非常有考究,AI 多少還是有點玄學在的。

「第七十七簽 呂后害韓信 中平 木有根來水有源,君當自此究其源 莫隨道路人閑話,訟則終凶是至言」

談完玄學,談哲學。

前些年,有一道辯論題風靡一時,「美術館著火了,一幅名畫和一隻貓,只能救一個你選誰?」在綜合考慮生命價值、道德原則及情感因素後,GLM-Zero-Preview 優先選擇救貓。

反復輸入相同問題,GLM-Zero-Preview 的答案始終如一,結果堅定且邏輯自洽。

遇事不決,還有量子力學。那在經典薛定諤貓實驗中,貓究竟是死是活?

先觀察 GLM-Zero-Preview 的思考邏輯,再看它給出的答案「在經典薛定諤貓實驗中,貓在盒子被打開之前處於既死又活的疊加態,直到觀測時才確定其生死狀態。」

細心留意,你還可以對得出的結果進行進一步的引用和追問。

在中文世界廣泛流傳的「愛恩斯坦的謎題」同樣也可以作為考究 GLM-Zero-Preview 的邏輯推理能力。

有五個不同顏色的房子,每個房子裡住著一個不同國籍的人。每個居民喜歡不同的飲料,抽不同的香菸,並養著不同種類的寵物。已知:

英國人住在紅色房子裡;

瑞典人養狗;

丹麥人喝茶;

綠色房子是白色房子左邊的房子;

綠房子住的人喝咖啡;

抽香菸的德國人住在綠色房子裡;

挪威人住在第一座房子裡;

抽藍色香菸的人喝牛奶;

抽黃牌香菸的人養鳥;

抽藍色香菸的人住在挪威的左邊。

問題:誰養魚?

答案是德國人養魚,不知道你是否答對。

這道號稱世界上 98% 的人答不上來的難題,就這樣被 GLM-Zero-Preview 水靈靈地破解了。從繁瑣的推理步驟可以看出, GLM-Zero-Preview 的 CPU 在飛速運轉但還是很清醒。

繼續乘勝追擊,讓我們上點強度。

五個海盜發現了 100 個金幣,每個海盜都必須投票決定如何分配金幣。如果海盜多於一位,只有在超過一半的海盜同意分配方式時,金幣才會按照該方式分配。如果海盜少於一位,他會自己拿走所有金幣。每個海盜都希望保留儘可能多的金幣,同時還希望活命。海盜 1 如何保證自己能得到最大利益而又能保存生命。

「(97, 0, 1, 0, 2)」,面對海盜分金問題,GLM-Zero-Preview 再次輕鬆拿捏。

相聲講究說學逗唱,其中有個名段子叫「報菜名」。

那麼問題來了,可否讓 GLM-Zero-Preview 寫段素菜版的「報菜名」,你別說,GLM-Zero-Preview 三下五除二就給出了新版本。

對了,GLM-Zero-Preview 同樣支持多模態識別能力。

隨手拿一瓶飲料並讓 GLM-Zero-Preview「掃瞄」配料表,它能識別其中的科技與狠活嗎,我們拿前幾年爆火的飲料試了試,而該飲料也被調侃為「喝一口感覺是喝下整個元素週期表」。

它果然一一羅列出屏幕上的配料表,後續根據要求向我們展示了這些配料的作用。

大模型不擅長數學?國產 AI 已經 Next Level

推理模型 GLM-Zero 是 GLM 專注於增強 AI 推理能力的模型系列,擅長處理數理邏輯、代碼和需要深度推理的複雜問題。

那讓我們先來一個說簡單也簡單,說難也難的「國際象棋盤與麥粒」問題。

若在國際象棋盤上放置麥粒,第 1 個棋格放 1 粒,此後每一棋格放置的麥粒數是前一棋格的 2 倍,問放滿棋盤上所有棋格需要多少麥粒?

經過一番思考,GLM-Zero-Preview 最終得出了正確答案,展現了其強大的計算能力。

此前蘋果發佈的一篇論文指出,大模型並未真正理解數學概念。一旦題目加上干擾條件,模型的準確率就會下降,我們也試了試。

從「打電話每分鐘 10 分錢,打 60 分鐘多少錢?」變成「打電話前 10 分鐘每分鐘 10 分錢,之後每分鐘 8 分錢,如此打 60 分鐘電話費多錢?」,GLM-Zero-Preview 依然能夠準確回答,而且還貼心地將分錢轉換成元,有點眼色。

面對更複雜的數學題,GLM-Zero-Preview 同樣遊刃有餘。

先來一道高考數學真題熱熱身:

在等差數列 {an}{an} 中,a1=−9a1=−9,a5=−1a5=−1。記 Tn=a1+a2+…+anTn=a1+a2+…+an,則數列 {Tn}{Tn}( )。

A. 有最大項,有最小項

B. 有最大項,無最小項

C. 無最大項,有最小項

D. 無最大項,無最小項

GLM-Zero-Preview 選 C 絕不是「物以 C 為貴」,而是給出思考過程,循循誘導,甚至比一些 AI 學習機還要中用得多。

官方表示,在 2025 年考研數學一中,GLM-Zero 得分為 126,達到優秀研究生水平。

為了避免答案不出錯,GLM-Zero-Preview 還會自動啟用驗證流程。

「機械廠加工車間有 85 名工人,平均每人每天加工大齒輪 16 個或小齒輪 10 個,已知 2 個大齒輪與 3 個小齒輪配成一套,問需分別安排多少名工人加工大、小齒輪,才能使每天加工的大小齒輪剛好配套?」

GLM-Zero 迅速給出了答案:「25 名工人加工大齒輪,60 名工人加工小齒輪」,做題水平一流。

哪怕再上一道 AMC 難題,它也能輕鬆拿捏。

「一個集合由 6 個( 不是不同的 )正整數組成:1 、 7 、 5 、 2 、 5 和 X 。6 個數字的平均值( 算術平均值 )等於集合中的一個值。X 的所有可能值之和是多少?」

這個問題涉及五大點,十幾種情況,GLM-Zero-Preview 綜合考慮了各種可能性,哢哢一頓輸出,給我一種它真的有在模仿人類思考的感覺。

作為智譜首個基於擴展強化學習技術訓練的推理模型,GLM-Zero-Preview 在 AIME 2024、MATH500 和 LiveCodeBench 評測中,效果與 OpenAI o1-preview 相當。

此外,GLM-Zero-Preview 還能夠熟練使用多種編程語言,幫助開發者快速編寫代碼;在代碼調試方面,也能夠快速識別錯誤,給出詳細的修復建議。

例如,只需要輸入指令「幫我用 html 寫一個有趣的第一人稱射擊遊戲」,GLM-Zero-Preview 便能迅速獨立完成以下遊戲。

智譜很快將會推出正式版 GLM-Zero,將深度思考的能力從數理邏輯擴展到更多更通用的技術,繼續向 AGI 邁進。

當然,目前的 GLM-Zero-Preview 與 OpenAI 的 o3 模型還有不少的差距,但千里之行,始於足下,智譜說了,未來將持續優化迭代強化學習技術。

實際上,智譜等廠商全力押注推理模型,背後反映的是 GPT 時代正在過渡到推理 o 時代。

與以往基於 GPT 的模型不同,推理模型不是為了預測人類的想法而訓練,而是通過訓練「思維」構建自己的思維框架,通過嚴謹的推理過程得出結論。

推理時代的到來,標誌著 AI 或許開始從「模仿」走向「思考」。

智譜推出的 GLM-Zero-Preview 同樣是這一趨勢的體現。

當你觀察它解答問題時,你會發現它不是直接給出答案,而是展示出一個完整的推理過程 —— 提出假設、分析條件、推導結論,每一步深度思考都清晰可見。

未來,隨著更多類似 o1 和 GLM-Zero-Preview 的模型湧現, AI 正在朝著與人類同等的認知水平邁出一大步,換言之,我們或許也正在見證一個重要的歷史轉折點——

智譜的願景是「讓機器像人一樣思考」,當機器開始真正「思考」的時候,人類對智能的理解也將達到一個新的高度。