古早費曼論文手寫公式也能轉LaTeX,還能看懂梗圖,馬斯克Grok新功能上線就火了

機器之心報導

編輯:張倩、陳陳

Grok 大模型終於能看懂圖像了。

設想一下,如果我們能夠將所有 LaTeX 時代之前的文本資料輸入到先進的大型語言模型(LLM)中,並從中獲得格式規範的 LaTeX 文檔庫,這無疑將極大地推動科學文獻的數字化進程和標準化工作。對於科研工作者而言,這不僅僅是技術層面的飛躍,它更標誌著知識管理和信息傳播方式的一次重大變革。

馬斯克旗下的人工智能公司 xAI 發佈的 Grok 大模型有助於實現這一目標 —— 在經歷了最近的一次更新後,Grok 大模型終於能看懂圖像了,甚至還能做公式 OCR、解釋笑話。

AI 銷售和營銷自動化平台 Amplemarket 創始人 Luis Batalha 在試用後表示:借助 Grok,他能把理論物理學家 Feynman 博士論文中的公式轉換成 LaTeX。

轉化之前的文本長這樣:

可以看出,裡面的公式基本都是手寫的,肉眼辨認尚有難度。而 Grok 可以把它們轉化成如此工整的結果,而且準確率令人驚歎。

圖源:https://x.com/luismbat/status/1850925670408544355

圖源:https://x.com/luismbat/status/1850925670408544355

這個帖子吸引了眾多研究人員的關注,整個帖子的瀏覽量已經突破 100 萬。

還有人曬出了自己用 Grok 識別出的 18 世紀文件:  

在識別其他圖像方面,Grok 表現也非常不錯。比如網民上傳了一張手錶的照片,Grok 根據錶殼形狀和錶帶設計猜出了表的品牌(對手錶有研究的讀者可以看下猜得對不對)。

你還可以讓 Grok 點評圖片,它能從時尚、風格、表情等多個角度進行描述。比如針對下面這張圖,Grok 回答:「圖片中描述了一位動漫風格的人物,這位人物擁有中等長度的棕色頭髮,戴著眼鏡,並且正在彈奏貝斯吉他。該角色展現了一種休閑、現代的造型,穿著一件格子衫外套和深色褲子,以及帶有紅色裝飾的白色運動鞋。這種裝扮表明這是一個年輕的、可能還在上學的角色,給人一種悠閑的藝術氛圍……」

圖源 https://x.com/ItsZeramy/status/1850810276784054313

圖源 https://x.com/ItsZeramy/status/1850810276784054313

馬斯克表示,Grok 其實也可以用來解釋笑話(梗圖)。

今年三月,Grok-1 正式亮相,在數學、推理等能力上取得了不錯的成績。之後,xAI 迅速推出 Grok 1.5,新一代模型實現了長上下文理解和高級推理能力。8 月,Grok 2 上線,在常識、數學競賽問題 (MATH)、研究生水平科學知識 (GPQA) 等領域與其他前沿模型相媲美。

如今,在 xAI 不斷完善下,大家終於可以體驗 Grok 的圖像理解能力了。為了驗證各路網民的說法,機器之心在第一時間進行了測試。

公式 OCR 能力實測

首先,機器之心測試了一下 Grok 對公式的處理能力。我們輸入經典論文《 Attention Is All You Need 》中的一張公式截圖,要求轉換成 LaTeX 代碼。

輸入的公式截圖,對應論文中的公式(1)。

輸入的公式截圖,對應論文中的公式(1)。

然後,我們將 LaTeX 表達式輸入到在線 LaTeX 公式編輯器中進行轉換,比對之後發現結果完全正確。

公式來源:https://arxiv.org/pdf/1706.03762

公式來源:https://arxiv.org/pdf/1706.03762

之後,我們上了點難度,用手寫公式進行測試,輸入的公式截圖看起來不是很規範,但 Grok 還是給出了結果。

梗圖理解能力實測

接著,我們再看看 Grok 對圖片的理解能力。

不知大家是否 get 到小女孩吃蛋糕這張圖的笑點。如果沒有,當你看完 Grok 的解釋,有種恍然大悟的感覺。

不過,Grok 並不是總懂幽默。我們輸入如下圖片,圖片原來的意思應該是想表達打工人的一天似乎都很疲憊,但到了深夜卻格外精神。但 Grok 給出的結果並不是。

經過測試,我們還發現 Grok 對圖片中的中文理解的不是很好,比如錯把中文字符「我的精神狀態」轉換成「敵人的精神狀態」。

Grok vs. ChatGPT,誰的識圖能力更強?   

雖然識圖是 Grok 的新功能,效果也很驚豔,但在眾多 AI 模型中,這實在算不上一項新穎的功能。因此,有人在馬斯克的評論區發出靈魂拷問,「Grok 到底進展到什麼程度了?感覺遠遠落後於 ChatGPT 啊」。對此,馬斯克耐性回覆說,「我們只用了幾個月就完成了其他人花了幾年時間的工作。」言下之意似乎是不著急,慢慢打磨新功能。

還有網民上傳了一張飲料圖片,讓 Grok 和 ChatGPT 進行回答。從上傳的資料來看,圖片內容並不清晰,而且還不是中文,對於不懂外語的小夥伴可能有點難度。但是 Grok 和 ChatGPT 都給出了回答。

Grok 回答:圖片中的飲料是「백세주(Baekseju)」 ,這是一種傳統的南韓酒精飲料。它是一種用人參和其他草藥浸泡的米酒,以其假定的健康益處而聞名。瓶子上的標籤顯示了 D,這可能是 Baekseju 的某個特定品牌或變種。由於其濃烈的風味和藥用屬性,通常只消費少量。 

ChatGPT 回答:這款飲料是 Bacchus-D,一種在南韓流行的能量飲料。它通常包含咖啡因、牛磺酸和維生素 B2、B6、B12,這些成分被認為可以提升能量水平。在南韓,它常被用作快速提神的飲品。 

熟悉這款飲料的小夥伴,可以點評一下,這兩個模型,哪個回答的更好。

圖源:https://x.com/chrisfirsttt/status/1850745853843001418
圖源:https://x.com/chrisfirsttt/status/1850745853843001418

圖源:https://x.com/chrisfirsttt/status/1850745853843001418

對於 Grok 沒有理解的梗圖,我們在 ChatGPT 上也做了測試。ChatGPT 的回答明顯更勝一籌,中文識別能力也更強。

經過一番測試以及網民給出的示例來看,Grok 在輸出 LaTeX 表達式方面確實不錯,對圖片中出現的主體和場景解釋的非常到位,但對梗圖的解釋時好時壞,有時能完全解釋笑點,有時會解釋錯誤,此外,Grok 對中文字符的識別能力也不是很好。

最後提醒大家一下,Grok 並不是免費的,付費用戶才能體驗。可以使用的小夥伴,可以進行測試了。

地址:https://x.com/i/premium_sign_up?referring_page=grok地址:https://x.com/i/premium_sign_up?referring_page=grok
© THE END