Kimi版o1實裝上線，這裏是我們的一手測試↑

12月16日 15:30 新浪網 tech-auto-hilite

西風發自凹非寺

量子位 | 公眾號 QbitAI

Kimi數學模型剛發佈沒幾天，全新視覺思考模型就來了，且發佈即上線可用。

模型代號k1，據官方介紹，基於強化學習，k1原生支持端到端圖像理解和思維鏈技術。

因此，「解鎖了包括幾何圖形題在內更加全面的數學能力」。

△圖片源自「月之暗面Kimi」公眾號

△圖片源自「月之暗面Kimi」公眾號

並且k1的思考能力不僅僅局限於數學領域，正所謂「學好數理化，走遍天下都不怕」。

在官方曬出的數理化基準測試中，Kimi k1-preview表現全面超越OpenAI o1、GPT-4o、Claude 3.5 Sonnect。

△圖片源自「月之暗面Kimi」公眾號

△圖片源自「月之暗面Kimi」公眾號

這次Kimi新模型的發佈還是直接上線可玩的那種，APP或是網頁版找到「Kimi視覺思考版」即可點擊使用。

既然如此，這就趕緊來實測一波～

Kimi視覺思考版第一波實測

先來一道考研數學真題小試牛刀，這道題目涉及的知識點包括曲面積分、高斯定理等：

之前在量子位的實測中，這道題難住了GPT-4o。

而Kimi視覺思考版經過一步步詳細推理，第一次就給出了正確答案。

它自己也表示進行了檢查沒有錯誤，「對這個答案非常有信心」。

再來一道曾經測試過o1的數學概論題。

Kimi視覺思考版也一次就做對了：

接著是一道高考幾何真題：

面對這道題，Kimi視覺思考版解答過程並不順暢，進行兩次嘗試後，還是沒能給出正確答案√3/4。

此外值得一提的是，大模型目前的數學能力還是沒有達到FrontierMath數學基準的及格線。

當然，FrontierMath基準也確確實實是有點難為AI了，畢竟它出自陶哲軒在內的60多位頂尖數學家之手，一眾頂流大模型正確率通通不到2%。

如下面這道素域連續擴展問題，難度還只是基準中的「中等」。

出於好奇，我們讓Kimi視覺思考版嘗試了一下（萬一能做對呢）。

Kimi視覺思考版逐步拆解了一通，也終究沒能解答正確。

數學能力看完後，再來小試一下物理題。

下面這道題是大學物理中的光學題：

Kimi視覺思考版回答對了第一小題，但第二小題沒做對：

再來看下面這道高考物理題：

Kimi視覺思考版同樣只答對了一問，第二小問做對了，第一小問答錯：

不過，o1也犯了同樣的錯誤，只答對了一題。

最後再來看看做「化學題」怎麼樣（doge）：

Candy, Happy, Bacon, Scary, Brain, House

Which is the odd one?

Hint: Chemistry

Kimi視覺思考版的解釋雖然有理有據：

但「標準」答案是：

此外值得一提的是，除數理化視覺推理能力，官方還表示Kimi視覺思考版在「噪聲」場景，即拍攝圖片模糊、手寫字跡潦草等情況下，性能損失幅度較小。

你覺得Kimi新模型的表現如何？感興趣的童鞋不妨親自上手考考它～