Kimi版o1實裝上線,這裏是我們的一手測試↑
西風 發自 凹非寺
量子位 | 公眾號 QbitAI
Kimi數學模型剛發佈沒幾天,全新視覺思考模型就來了,且發佈即上線可用。
模型代號k1,據官方介紹,基於強化學習,k1原生支持端到端圖像理解和思維鏈技術。
因此,「解鎖了包括幾何圖形題在內更加全面的數學能力」。
並且k1的思考能力不僅僅局限於數學領域,正所謂「學好數理化,走遍天下都不怕」。
在官方曬出的數理化基準測試中,Kimi k1-preview表現全面超越OpenAI o1、GPT-4o、Claude 3.5 Sonnect。
這次Kimi新模型的發佈還是直接上線可玩的那種,APP或是網頁版找到「Kimi視覺思考版」即可點擊使用。
既然如此,這就趕緊來實測一波~
Kimi視覺思考版第一波實測
先來一道考研數學真題小試牛刀,這道題目涉及的知識點包括曲面積分、高斯定理等:
之前在量子位的實測中,這道題難住了GPT-4o。
而Kimi視覺思考版經過一步步詳細推理,第一次就給出了正確答案。
它自己也表示進行了檢查沒有錯誤,「對這個答案非常有信心」。
再來一道曾經測試過o1的數學概論題。
Kimi視覺思考版也一次就做對了:
接著是一道高考幾何真題:
面對這道題,Kimi視覺思考版解答過程並不順暢,進行兩次嘗試後,還是沒能給出正確答案√3/4。
此外值得一提的是,大模型目前的數學能力還是沒有達到FrontierMath數學基準的及格線。
當然,FrontierMath基準也確確實實是有點難為AI了,畢竟它出自陶哲軒在內的60多位頂尖數學家之手,一眾頂流大模型正確率通通不到2%。
如下面這道素域連續擴展問題,難度還只是基準中的「中等」。
出於好奇,我們讓Kimi視覺思考版嘗試了一下(萬一能做對呢)。
Kimi視覺思考版逐步拆解了一通,也終究沒能解答正確。
數學能力看完後,再來小試一下物理題。
下面這道題是大學物理中的光學題:
Kimi視覺思考版回答對了第一小題,但第二小題沒做對:
再來看下面這道高考物理題:
Kimi視覺思考版同樣只答對了一問,第二小問做對了,第一小問答錯:
不過,o1也犯了同樣的錯誤,只答對了一題。
最後再來看看做「化學題」怎麼樣(doge):
Candy, Happy, Bacon, Scary, Brain, House
Which is the odd one?
Hint: Chemistry
Kimi視覺思考版的解釋雖然有理有據:
但「標準」答案是:
此外值得一提的是,除數理化視覺推理能力,官方還表示Kimi視覺思考版在「噪聲」場景,即拍攝圖片模糊、手寫字跡潦草等情況下,性能損失幅度較小。
你覺得Kimi新模型的表現如何?感興趣的童鞋不妨親自上手考考它~