GoogleViT核心骨幹集體投奔OpenAI：他們為Sora打下基礎

12月04日 22:01 新浪網 tech-auto-hilite

本文來自微信公眾號：量子位，作者：明敏、白小交，題圖來自：AI生成

爆炸消息：ViT三大核心作者集體離職GoogleDeepMind。下一站：OpenAI！

他們分別是翟曉華（Xiaohua Zhai）、盧卡斯·拜爾（Lucas Beyer）、亞歷山大·科列斯尼科夫（Alexander Kolesnikov）。

相關消息已被本人證實，三人均官宣了新動向。

2021年，他們三人作為共同一作的計算機視覺領域神作ViT發佈即刷新ImageNet最高分。

這項研究證實了CNN在CV領域不是必需的，Transformer從NLP跨界，一樣可以取得先進效果。開創了Transformer在CV領域應用的先河。

目前這篇論文被引用量已超過4.9萬。

此外，他們還共同提出了SigLIP、PaliGamma等SOTA級工作。

幾週後，他們將正式加入OpenAI蘇黎世實驗室。

值得一提的是，Wired方面消息稱，三人是被OpenAI挖走的。

網民評論：能撬動這一「鐵三角」黃金組合，OpenAI真的太幸運了。

ViT三大核心作者投奔OpenAI

Xiaohua Zhai（翟曉華）

此前他是Google DeepMind 的高級研究員，領導著蘇黎世一個多模態研究小組。重點研究多模態數據（WebLI）、開放權重模型（SigLIP、PaliGemma）以及文化包容性。

目前他的論文在Google學術的引用數已經超過六萬次。

2014年他畢業於北京大學，獲得計算機系博士學位；本科畢業於南京大學。一畢業就前往Google蘇黎世工作。

Lucas Beyer

這位同樣也是GoogleDeepMind蘇黎世小組的一位成員，共同領導著DeepMind的多模態研究團隊和基礎設施。

目前他已經撰寫了超過50篇論文，被CVPR、NeurIPS、ICCV等頂級會議接收。

據他個人官網的介紹，他在比利時長大，曾夢想製作電子遊戲以及從事AI研究。自我認定為「自學成才的黑客和研究科學家，致力於創造飛凡實物」。

他在德國亞琛工業大學學習機械工程，並在那裡獲得了機器人感知和計算機視覺博士學位。2018年加入Google。

Alexander Kolesnikov

2018年以來，他就在Google大腦，現為DeepMind團隊工作。之前主要成就包括訓練SOTA視覺模型*（從2019年到2021年都實現了ImageNet SOTA）；開放權重模型（SigLIP和PaliGemma），以及神經架構方面的工作：BiT、ViT、MLP-Mixer和FlexiViT。

除此之外，還有編寫靈活、高性能的研究基礎設施，尤其是Jax。

此前，他在奧地利科學技術研究所（ISTA）攻讀博士學位，研究方向是弱監督學習和圖像生成模型。

曾是GoogleCV的「黃金鐵三角」

在Google任職期間，三人多次合作並帶來了影響領域發展的重要工作。

其中最重要的一篇莫過於ViT。

這篇研究驗證了Transformer架構在計算機視覺領域的通用性。在它的基礎上衍生出了Swin Transformer、DeiT（Data-efficient Image Transformers）等。

它創新性提出將圖像分割成固定大小的塊（patches），並將每個塊視為一個序列元素，與NLP中的單詞類似。然後，這些塊通過變換器進行處理。

在許多視覺任務中，ViT在性能上超過了傳統的CNN模型，尤其是在大規模數據集上進行訓練時表現尤為突出。例如，在ImageNet分類任務中，ViT取得了與最先進的CNN模型相當甚至更好的結果。

此外他們還合作推出了MLP-Mixer、BiT（CV界的BERT）等領域內知名工作。

參考鏈接：

[1]https://www.wired.com/story/openai-hires-deepmind-zurich/

[2]https://kolesnikov.ch/

[3]https://sites.google.com/view/xzhai

[4]https://lucasb.eyer.be/

本文來自微信公眾號：量子位，作者：明敏、白小交