Grok祭出首款生圖模型Aurora!兩位95後華人立大功,耗時6月自研MoE
新智元報導
編輯:桃子 好睏
【新智元導讀】消失一天后的Aurora,正式上線了。一大早,馬斯克官宣了Grok集成了自研圖像新模型Aurora,MoE架構自回歸模型,直接將生成編輯能力一統。在人物肖像生成上,已經逼真到肉眼無法辨別。
消失的Aurora再度回歸了!
剛剛,xAI發佈了首款完全自研圖像生成模型Aurora,直接集成到了Grok當中。
整個研發過程,耗時6個月。
這款從0開始搭建的新模型,是一個自回歸模型,採用了MoE架構,在混合文本和圖像數據集上完成了訓練。
網民在週末展開的一波瘋狂測試,早已見識到了Aurora模型強大生圖能力。
如今一大波驚豔的評測,正在刷屏全網。
自研6個月,Grok圖像生成功能正式上線
官博中,xAI介紹了Aurora專為提升Grok的圖像生成能力而推出。
此前,Grok集成的圖像模型,還只是別家的FLUX模型。
如今,自研新模型不論在人物肖像,還是表情包、藝術字體、實物生成方面,取得了極大的一致性。
如前所述,Aurora是一種自回歸混合專家模型(MoE),能夠通過混合的文本和圖像數據預測下一個 Token。
xAI研究團隊在互聯網上數十億個示例數據上訓練了模型,賦予其對世界深刻的理解能力。
Aurora的強大體現在多個維度:無論是生成逼真的圖像渲染,還是精準執行複雜的文本指令,都展現出卓越的性能。
更令人興奮地是,它還能原生支持多模態輸入,用戶可以直接使用圖像進行創作和編輯。
這些強大的生圖、編輯能力,極大地拓展了AI交互的邊界。
目前,Grok全新圖像生成功能,現已在𝕏平台的部分國家上線,預計將在一週內向所有用戶全面開放。
接下來,一起看一些讓人拍案叫絕的demo吧。
圖像生成
首先,Grok能夠能夠在多個領域生成高質量的圖像,這些領域通常來說,是圖像生成模型的難點。
它可以呈現真實世界實體的精確視覺細節、文本、標誌,還能生成逼真的人像。
Entity generation(實體):
Artistic text(藝術字):
Meme generation(梗圖):
Realistic portraits(肖像):
Celebrities(名人):
可以看到,其他的AI生圖模型在這個場景下,不僅容易觸發安全機制拒絕生成,而且即便是生成出來了,效果也不盡人意。
圖像編輯
其次,Grok還將編輯與生成能力合二為一,用戶可以直接在生成的圖像上進行修改,提供了更大創作自由度和靈活性。
據介紹,這一功能將很快在𝕏平台上正式推出。
網民大波試用來襲
網民再次驚歎道,Grok在生成真實的人的圖像方面,比自己用過的任何模型都要好。
不久後,AI製作的表情包就會覆蓋全網。
Cybertruck正接近木星。
還有坐在Cybertruck上的小浣熊。
更多測試案例:
團隊介紹
xAI團隊的執行力,完全以高效著稱。
在Aurora還未正式發佈之前,聯創Greg Yang曾表示,在xAI工作起來太有趣了,不僅高效,還很有趣。
馬斯克稱讚道,xAI團隊超硬核。
研究員Ethan Knight分享了這次模型背後是由一個小團隊完成。
四位核心研究人員分別是:
Gabriel Ilharco
Gabriel Ilharco目前在xAI從事大規模多模態模型的研究工作。
在此之前,他曾在華盛頓大學獲得博士學位,師從Ali Farhadi和Hannaneh Hajishirzi教授。在進入華盛頓大學之前,他曾在Google研究院擔任AI研究員。
Ilharco的研究興趣廣泛,涉及自然語言處理和計算機視覺領域。尤其是,多模態模型、遷移學習、分佈魯棒性和以數據為中心的機器學習。
Eric Zelikman
Eric Zelikman對算法如何(以及是否能夠)學習有意義的表徵和推理這個問題非常著迷,並且正在xAI探索這些問題。
入職xAI之前,他曾是史丹福大學博士候選人,導師是Nick Haber和Noah Goodman。
Haotian Liu
Haotian Liu是xAI的一名技術人員。他於2024年5月在威斯康辛大學麥基迪遜分校獲得博士學位,師從Yong Jae Lee教授。
在此之前,他曾在浙江大學獲得學士學位(榮譽學位)。
Haotian Liu對計算機視覺和機器學習領域非常感興趣,最近的研究重點是構建可控的大型模型。此前,他還曾參與開發的研究成果包括LLaVA、Grok-1.5V和Grok-2。
Lianmin Zheng(鄭憐憫)
Lianmin Zheng是xAI的技術人員。他曾在UC伯克利完成了博士學位,導師是Ion Stoica和Joseph E. Gonzalez教授。他本科就讀於上海交通大學ACM班。
他曾和團隊共同創立了非營利組織LMSYS.org,致力於推進開源大語言模型研究。
他的研究興趣包括機器學習系統、大型語言模型、編譯器和分佈式系統。
還有整個產品團隊,也在Aurora模型上做出了傑出的貢獻,尤其是Greg Yang、Ehsan Ghandhari、Yaroslav Nazarov和Vincent Stark。
https://x.ai/blog/grok-image-generation-release