古早費曼論文手寫公式也能轉LaTeX,還能看懂梗圖,馬斯克Grok新功能上線就火了
機器之心報導
編輯:張倩、陳陳
Grok 大模型終於能看懂圖像了。
設想一下,如果我們能夠將所有 LaTeX 時代之前的文本資料輸入到先進的大型語言模型(LLM)中,並從中獲得格式規範的 LaTeX 文檔庫,這無疑將極大地推動科學文獻的數字化進程和標準化工作。對於科研工作者而言,這不僅僅是技術層面的飛躍,它更標誌著知識管理和信息傳播方式的一次重大變革。
馬斯克旗下的人工智能公司 xAI 發佈的 Grok 大模型有助於實現這一目標 —— 在經歷了最近的一次更新後,Grok 大模型終於能看懂圖像了,甚至還能做公式 OCR、解釋笑話。
AI 銷售和營銷自動化平台 Amplemarket 創始人 Luis Batalha 在試用後表示:借助 Grok,他能把理論物理學家 Feynman 博士論文中的公式轉換成 LaTeX。
轉化之前的文本長這樣:
可以看出,裡面的公式基本都是手寫的,肉眼辨認尚有難度。而 Grok 可以把它們轉化成如此工整的結果,而且準確率令人驚歎。
圖源:https://x.com/luismbat/status/1850925670408544355
這個帖子吸引了眾多研究人員的關注,整個帖子的瀏覽量已經突破 100 萬。
還有人曬出了自己用 Grok 識別出的 18 世紀文件:
在識別其他圖像方面,Grok 表現也非常不錯。比如網民上傳了一張手錶的照片,Grok 根據錶殼形狀和錶帶設計猜出了表的品牌(對手錶有研究的讀者可以看下猜得對不對)。
你還可以讓 Grok 點評圖片,它能從時尚、風格、表情等多個角度進行描述。比如針對下面這張圖,Grok 回答:「圖片中描述了一位動漫風格的人物,這位人物擁有中等長度的棕色頭髮,戴著眼鏡,並且正在彈奏貝斯吉他。該角色展現了一種休閑、現代的造型,穿著一件格子衫外套和深色褲子,以及帶有紅色裝飾的白色運動鞋。這種裝扮表明這是一個年輕的、可能還在上學的角色,給人一種悠閑的藝術氛圍……」
圖源 https://x.com/ItsZeramy/status/1850810276784054313
馬斯克表示,Grok 其實也可以用來解釋笑話(梗圖)。
今年三月,Grok-1 正式亮相,在數學、推理等能力上取得了不錯的成績。之後,xAI 迅速推出 Grok 1.5,新一代模型實現了長上下文理解和高級推理能力。8 月,Grok 2 上線,在常識、數學競賽問題 (MATH)、研究生水平科學知識 (GPQA) 等領域與其他前沿模型相媲美。
如今,在 xAI 不斷完善下,大家終於可以體驗 Grok 的圖像理解能力了。為了驗證各路網民的說法,機器之心在第一時間進行了測試。
公式 OCR 能力實測
首先,機器之心測試了一下 Grok 對公式的處理能力。我們輸入經典論文《 Attention Is All You Need 》中的一張公式截圖,要求轉換成 LaTeX 代碼。
輸入的公式截圖,對應論文中的公式(1)。
然後,我們將 LaTeX 表達式輸入到在線 LaTeX 公式編輯器中進行轉換,比對之後發現結果完全正確。
公式來源:https://arxiv.org/pdf/1706.03762
之後,我們上了點難度,用手寫公式進行測試,輸入的公式截圖看起來不是很規範,但 Grok 還是給出了結果。
梗圖理解能力實測
接著,我們再看看 Grok 對圖片的理解能力。
不知大家是否 get 到小女孩吃蛋糕這張圖的笑點。如果沒有,當你看完 Grok 的解釋,有種恍然大悟的感覺。
不過,Grok 並不是總懂幽默。我們輸入如下圖片,圖片原來的意思應該是想表達打工人的一天似乎都很疲憊,但到了深夜卻格外精神。但 Grok 給出的結果並不是。
經過測試,我們還發現 Grok 對圖片中的中文理解的不是很好,比如錯把中文字符「我的精神狀態」轉換成「敵人的精神狀態」。
Grok vs. ChatGPT,誰的識圖能力更強?
雖然識圖是 Grok 的新功能,效果也很驚豔,但在眾多 AI 模型中,這實在算不上一項新穎的功能。因此,有人在馬斯克的評論區發出靈魂拷問,「Grok 到底進展到什麼程度了?感覺遠遠落後於 ChatGPT 啊」。對此,馬斯克耐性回覆說,「我們只用了幾個月就完成了其他人花了幾年時間的工作。」言下之意似乎是不著急,慢慢打磨新功能。
還有網民上傳了一張飲料圖片,讓 Grok 和 ChatGPT 進行回答。從上傳的資料來看,圖片內容並不清晰,而且還不是中文,對於不懂外語的小夥伴可能有點難度。但是 Grok 和 ChatGPT 都給出了回答。
Grok 回答:圖片中的飲料是「백세주(Baekseju)」 ,這是一種傳統的南韓酒精飲料。它是一種用人參和其他草藥浸泡的米酒,以其假定的健康益處而聞名。瓶子上的標籤顯示了 D,這可能是 Baekseju 的某個特定品牌或變種。由於其濃烈的風味和藥用屬性,通常只消費少量。
ChatGPT 回答:這款飲料是 Bacchus-D,一種在南韓流行的能量飲料。它通常包含咖啡因、牛磺酸和維生素 B2、B6、B12,這些成分被認為可以提升能量水平。在南韓,它常被用作快速提神的飲品。
熟悉這款飲料的小夥伴,可以點評一下,這兩個模型,哪個回答的更好。
圖源:https://x.com/chrisfirsttt/status/1850745853843001418
對於 Grok 沒有理解的梗圖,我們在 ChatGPT 上也做了測試。ChatGPT 的回答明顯更勝一籌,中文識別能力也更強。
經過一番測試以及網民給出的示例來看,Grok 在輸出 LaTeX 表達式方面確實不錯,對圖片中出現的主體和場景解釋的非常到位,但對梗圖的解釋時好時壞,有時能完全解釋笑點,有時會解釋錯誤,此外,Grok 對中文字符的識別能力也不是很好。
最後提醒大家一下,Grok 並不是免費的,付費用戶才能體驗。可以使用的小夥伴,可以進行測試了。