GoogleViT核心骨幹集體投奔OpenAI:他們為Sora打下基礎

本文來自微信公眾號:量子位,作者:明敏、白小交,題圖來自:AI生成

爆炸消息:ViT三大核心作者集體離職GoogleDeepMind。下一站:OpenAI!

他們分別是翟曉華(Xiaohua Zhai)、盧卡斯·拜爾(Lucas Beyer)、亞歷山大·科列斯尼科夫(Alexander Kolesnikov)

相關消息已被本人證實,三人均官宣了新動向。

2021年,他們三人作為共同一作的計算機視覺領域神作ViT發佈即刷新ImageNet最高分。

這項研究證實了CNN在CV領域不是必需的,Transformer從NLP跨界,一樣可以取得先進效果。開創了Transformer在CV領域應用的先河。

目前這篇論文被引用量已超過4.9萬。

此外,他們還共同提出了SigLIP、PaliGamma等SOTA級工作。

幾週後,他們將正式加入OpenAI蘇黎世實驗室。

值得一提的是,Wired方面消息稱,三人是被OpenAI挖走的。

網民評論:能撬動這一「鐵三角」黃金組合,OpenAI真的太幸運了。

ViT三大核心作者投奔OpenAI

Xiaohua Zhai(翟曉華)

此前他是Google DeepMind 的高級研究員,領導著蘇黎世一個多模態研究小組。重點研究多模態數據(WebLI)、開放權重模型(SigLIP、PaliGemma)以及文化包容性。

目前他的論文在Google學術的引用數已經超過六萬次。

2014年他畢業於北京大學,獲得計算機系博士學位;本科畢業於南京大學。一畢業就前往Google蘇黎世工作。

Lucas Beyer

這位同樣也是GoogleDeepMind蘇黎世小組的一位成員,共同領導著DeepMind的多模態研究團隊和基礎設施。

目前他已經撰寫了超過50篇論文,被CVPR、NeurIPS、ICCV等頂級會議接收。

據他個人官網的介紹,他在比利時長大,曾夢想製作電子遊戲以及從事AI研究。自我認定為「自學成才的黑客和研究科學家,致力於創造飛凡實物」。

他在德國亞琛工業大學學習機械工程,並在那裡獲得了機器人感知和計算機視覺博士學位。2018年加入Google。

Alexander Kolesnikov

2018年以來,他就在Google大腦,現為DeepMind團隊工作。之前主要成就包括訓練SOTA視覺模型*(從2019年到2021年都實現了ImageNet SOTA);開放權重模型(SigLIP和PaliGemma),以及神經架構方面的工作:BiT、ViT、MLP-Mixer和FlexiViT。

除此之外,還有編寫靈活、高性能的研究基礎設施,尤其是Jax。

此前,他在奧地利科學技術研究所(ISTA)攻讀博士學位,研究方向是弱監督學習和圖像生成模型。

曾是GoogleCV的「黃金鐵三角」

在Google任職期間,三人多次合作並帶來了影響領域發展的重要工作。

其中最重要的一篇莫過於ViT。

這篇研究驗證了Transformer架構在計算機視覺領域的通用性。在它的基礎上衍生出了Swin Transformer、DeiT(Data-efficient Image Transformers)等。

它創新性提出將圖像分割成固定大小的塊(patches),並將每個塊視為一個序列元素,與NLP中的單詞類似。然後,這些塊通過變換器進行處理。

在許多視覺任務中,ViT在性能上超過了傳統的CNN模型,尤其是在大規模數據集上進行訓練時表現尤為突出。例如,在ImageNet分類任務中,ViT取得了與最先進的CNN模型相當甚至更好的結果。

此外他們還合作推出了MLP-Mixer、BiT(CV界的BERT)等領域內知名工作。

參考鏈接:

[1]https://www.wired.com/story/openai-hires-deepmind-zurich/

[2]https://kolesnikov.ch/

[3]https://sites.google.com/view/xzhai

[4]https://lucasb.eyer.be/

本文來自微信公眾號:量子位,作者:明敏、白小交