Kimi版o1實裝上線,這裏是我們的一手測試↑

西風 發自 凹非寺

量子位 | 公眾號 QbitAI

Kimi數學模型剛發佈沒幾天,全新視覺思考模型就來了,且發佈即上線可用

模型代號k1,據官方介紹,基於強化學習,k1原生支持端到端圖像理解和思維鏈技術

因此,「解鎖了包括幾何圖形題在內更加全面的數學能力」。

△圖片源自「月之暗面Kimi」公眾號圖片源自「月之暗面Kimi」公眾號

並且k1的思考能力不僅僅局限於數學領域,正所謂「學好數理化,走遍天下都不怕」。

在官方曬出的數理化基準測試中,Kimi k1-preview表現全面超越OpenAI o1、GPT-4o、Claude 3.5 Sonnect。

△圖片源自「月之暗面Kimi」公眾號△圖片源自「月之暗面Kimi」公眾號

這次Kimi新模型的發佈還是直接上線可玩的那種,APP或是網頁版找到「Kimi視覺思考版」即可點擊使用。

既然如此,這就趕緊來實測一波~

Kimi視覺思考版第一波實測

先來一道考研數學真題小試牛刀,這道題目涉及的知識點包括曲面積分、高斯定理等:

之前在量子位的實測中,這道題難住了GPT-4o。

而Kimi視覺思考版經過一步步詳細推理,第一次就給出了正確答案。

它自己也表示進行了檢查沒有錯誤,「對這個答案非常有信心」。

再來一道曾經測試過o1的數學概論題。

Kimi視覺思考版也一次就做對了:

接著是一道高考幾何真題:

面對這道題,Kimi視覺思考版解答過程並不順暢,進行兩次嘗試後,還是沒能給出正確答案√3/4。

此外值得一提的是,大模型目前的數學能力還是沒有達到FrontierMath數學基準的及格線。

當然,FrontierMath基準也確確實實是有點難為AI了,畢竟它出自陶哲軒在內的60多位頂尖數學家之手,一眾頂流大模型正確率通通不到2%

如下面這道素域連續擴展問題,難度還只是基準中的「中等」。

出於好奇,我們讓Kimi視覺思考版嘗試了一下(萬一能做對呢)。

Kimi視覺思考版逐步拆解了一通,也終究沒能解答正確。

數學能力看完後,再來小試一下物理題。

下面這道題是大學物理中的光學題:

Kimi視覺思考版回答對了第一小題,但第二小題沒做對:

再來看下面這道高考物理題:

Kimi視覺思考版同樣只答對了一問,第二小問做對了,第一小問答錯:

不過,o1也犯了同樣的錯誤,只答對了一題。

最後再來看看做「化學題」怎麼樣(doge):

Candy, Happy, Bacon, Scary, Brain, House

Which is the odd one?

Hint: Chemistry

Kimi視覺思考版的解釋雖然有理有據:

但「標準」答案是:

此外值得一提的是,除數理化視覺推理能力,官方還表示Kimi視覺思考版在「噪聲」場景,即拍攝圖片模糊、手寫字跡潦草等情況下,性能損失幅度較小。

你覺得Kimi新模型的表現如何?感興趣的童鞋不妨親自上手考考它~