一週發明GAN!時間檢驗獎得主分享背後故事:每件發明都不是最後的發明

西風 發自 凹非寺

量子位 | 公眾號 QbitAI

引用超85000次的經典論文GAN獲NeurIPS2024時間檢驗獎後,它的起源和背後故事也被拋了出來。

要從Yoshua Bengio實驗室的一次頭腦風暴說起。

Bengio召集實驗室成員,提出了一個富有挑戰性的設想:

訓練一個確定性的生成網絡g,該網絡僅在輸入z中包含隨機噪聲。這個網絡的輸出x=g(z)應該是從某個分佈p(x)中抽取的樣本。輸出可以是任何形式:圖像、音頻、文本。

正當眾人皆無頭緒之時,一個在當時看似滑稽且幾乎無意義的想法揭開了GAN的序幕:

如果能有另一個神經網絡充當判別器,會怎樣?

作者之一Sherjil Ozair,一邊講述著這段經歷,一邊還透露曾有DeepMind研究員向他開玩笑,說他可能已經完成了最偉大的工作,可以直接退休了。

但他認為事實並非如此。

CNN感覺像是最後的發明,但並不是。

GAN感覺像是最後的發明,但也不是。

LSTM、ResNet、DQN、AlphaGo、AlphaZero、MuZero都並非終結。

Transformer和大語言模型,亦不是最後的發明。

這項出自Yoshua Bengio、lan Goodfellow等一眾大佬,引用超過85000次,被NeurIPS2024官方評價為「生成建模的基礎部分之一,在過去10年中激發了許多研究進展」的研究。

究竟是如何煉成的?

Sherjil Ozair講述背後故事

以下是Sherjil Ozair的完整自述:

非常高興聽到GAN(生成對抗網絡)在2024年NeurIPS大會上獲得時間檢驗獎。

NeurIPS時間檢驗獎是授予那些在十年時間里經受住考驗的論文。

「我」花了一些時間回顧GAN是如何產生的以及過去十年中人工智能的發展。

2012年初,當「我」還是印度理工學院德里分校的本科生時,「我」偶然發現了Geoffrey Hinton在Coursera上的一門深度學習課程。

深度學習當時是機器學習中一個邊緣化且小眾的分支領域,它承諾能實現更多的「端到端」學習,並且更接近人類大腦的工作方式。

這門課非常精彩。它不僅很好地解釋了深度學習的原理,還充滿了Hinton特有的英式幽默和非傳統思維。

比如,他建議「我們」這樣可視化高維空間:

要處理14維空間中的超平面,想像一個3維空間,然後大聲對自己說「14」,每個人都是這麼做。

但請記住,從13維到14維的轉變,其增加的複雜性與從2維到3維的轉變一樣大。

出於好奇興奮地想學習更多知識,「我」開始仔細研究所有能找到的資料。

當時主要是一些傑出研究者發表的學術論文,比如Yoshua Bengio,其中很多都保存在他實驗室的網站上。

2012年,Quora非常火爆,Yoshua經常在Quora上回答有關深度學習的問題。

「我」真誠地感謝他幫助像「我」這樣的本科生理解深度學習。「我」通過Quora聯繫他,表達謝意。

令「我」非常驚喜的是,「我」不僅收到了回覆,還收到了一份他實驗室的實習邀請。

這是一次命運的相遇,而當時的「我」對這次交流和即將展開的旅程的重要性和影響力還只有一點點模糊的認識。

「我」由衷地感激Yoshua Bengio為這個世界和為「我」所做的一切。

「我」通過了面試獲得了實習機會,2014年夏天,將在Yoshua的LISA實驗室實習。

本想2013年就實習的,但印度理工學院的制度要求學生必須在第三學年的暑假在他們認可的公司實習。

2014年5月,「我」飛抵蒙特利爾,來到了實驗室。

剛見到Yoshua,他就立馬把「我」拉進了一個房間,裡面坐著的還有Ian Goodfellow和Aaron Courville。

Yoshua繼續解釋著他最近一直在思考的一個新想法:

設想構建一個確定性的生成網絡g,只在輸入z中包含隨機噪聲。這個網絡的輸出x=g(z)應該是來自某個分佈p(x)的樣本,可以是任何形式:圖像、音頻或文本。

他強調這就是「我們」需要訓練的目標。

但怎麼訓練呢?在這種「隱式」網絡中,概率p(x)並沒有明確表達。

他提出應該對生成器的輸出(生成分佈)和某個樣本數據集(可以是圖像、音頻等)進行「雙樣本分佈匹配」。

但如何進行這種分佈匹配仍然不明確。

作為一個年輕天真的本科生,「我」提出了矩匹配,但「我們」都知道矩匹配可能無法應對高維數據。小組里也討論了其他想法,也都感覺不夠有說服力。

不過,Yoshua對訓練一個確定性的、消耗噪聲並產生樣本的生成神經網絡的願景和熱情令人印象深刻且富有啟發性。

團隊決定私下繼續思考這個問題。

在Les Trois Brasseurs餐廳的一次實驗室聚餐中,Ian Goodfellow突然想到了一個在當時看似滑稽且幾乎毫無意義的主意:

如果讓另一個神經網絡來充當判別器會怎樣?

這是一個開拓前沿的時刻。

當時,神經網絡的訓練還相當「原始」。通常做法是:

建立一個主神經網絡,輸入數據,得到一個預測結果,對其應用一個數學損失函數,然後使用梯度下降來優化這個網絡。

而Ian的想法則把損失函數本身設想成一個可學習的神經網絡。不是優化一個固定的數學損失,而是用另一個「判別器」神經網絡來提供損失值和梯度,用於訓練「生成器」神經網絡。

這個想法自然招致質疑。整個系統會不會崩潰到退化輸出?判別器從何而來?處處都是先有雞還是先有蛋的困境。

但Ian對此也早有腹案。他提出讓判別器和生成器在一個零和博弈中對抗

生成器試圖產生與真實數據「難以區分」的輸出,而判別器則要設法分辨看到的是生成樣本還是真實樣本。

也許這能行?第二天,實驗室所有成員都收到了一封郵件。

在一個充斥著編程和運行實驗的長夜,Ian成功讓第一個生成對抗網絡運行起來。

這些是在MNIST數據集上產生的第一批樣本

當時「我」正在研究類似的東西,用非神經網絡判別器進行訓練,但效果遠不及預期。

於是「我」決定轉而幫助Ian研究GAN。距離NeurIPS 2014的提交截止日期只有一週了。「我們」決定全力以赴,應該能趕上提交一篇論文。

在接下來的幾天里,「我們」設置了評估方法來與現有的生成模型進行比較,嘗試了不同的架構、噪聲函數和博弈公式。

Jean、Yoshua和「我」發現GAN博弈是收斂的,並且在平衡狀態下最小化了Jensen-Shannon散度。

「我們」堅持了下來,在最後一週完成了所有工,並提交了一篇論文到NeurIPS。

GAN被接收為海報展示論文(posted presentation)

「我」記得雖然大家都很興奮,但也都知道GAN的訓練動態非常不穩定。大部分合作者開始研究其它模型架構,試圖解決在GAN中發現的問題。

GAN在12月份進行了展示,卻基本上沒有引起注意。

幾個月後,2015年8月,Alec Radford開始發佈他一直在研究的卷積GAN的樣本。

沒錯,就是那個幾乎參與了OpenAI所有重大突破的Alec Radford。2015年,他正在研究卷積神經網絡、批量歸一化和GAN。

「我」無法完全展現DCGAN之後GAN引發的巨大關注。

但「我」想強調的是,GAN的演進過程被恰如其分地用來象徵AI整體的進步。

這張展示圖像生成驚人發展的圖片已經過時了,因為現在的圖像生成模型已經能生成百萬像素級的圖像,甚至可以生成影片。

至於「我」個人的故事,GAN作為「我」的第一篇學術論文既是福也是禍。一位DeepMind的研究員曾開玩笑說,「我」可能已經可以退休了,因為「我」可能已經完成了自己最偉大的工作。

但是「認為歷史已經終結」可能是AI領域最大的錯誤。「我們「總是傾向於認為「就是這個了,這是最後的發明」。但事實從來都不是這樣。

CNN曾經感覺像是最後的發明,但並不是。

GAN曾經感覺像是最後的發明,但並不是。

LSTM曾經感覺像是最後的發明,但並不是。

ResNets、DQN、AlphaGo、AlphaZero、MuZero都不是最後的答案。

回過頭來看,這些想法總是顯得很滑稽。但是想想現在,Transformer和大語言模型被認為是最後的發明。

但它們也不是。

「我」最近離開了前沿AI實驗室的圈子,開始創辦一家公司來構建一些真正令人驚歎的東西。「我」很快會分享更多相關信息。敬請關注。

感謝NeurIPS Conference授予GAN時間檢驗獎,也感謝這些對抗者們:Ian Goodfellow、Jean Pouget-Abadie、Mehdi Mirza、Bing Xu、David Warde-Farley、Aaron Courville、Yoshua Bengio

也為Seq2Seq論文作者們表示祝賀。

Ian Goodfellow開麥

Mehdi Mirza將這段經歷分享出來後吸引到不少網民圍觀,網民們看得津津有味:

沒想到論文一週就寫出來了。

好一段精彩的歷史回顧!在」Attention is all you need」之前,GAN才是主流。

GAN論文一作Ian Goodfellow也激情開麥:

如果你是那個時代的親曆者,值得一讀以懷舊;如果你不是,也能通過這些文字一窺當年的情形。