爆肝一篇博客拿下OpenAI Offer,Muon作者怒揭:幾乎所有優化器的論文都是「假的」
不是頂會論文,也沒有發在 arXiv 上,甚至連「正式發表」都稱不上——但就是這樣的一篇純博客文章,卻讓一名研究員成功拿到了 OpenAI 的 Offer,甚至據說這篇博客的技術還被用於 GPT-5 的訓練工作。

聽起來像是一個段子,但這位名叫 Keller Jordan 的研究員卻真實地做到了。

Keller Jordan 的這篇博客叫做《Muon: An optimizer for hidden layers in neural networks》(https://kellerjordan.github.io/posts/muon/),其中提出了一種名為 Muon 的新優化器。
簡單來看,這篇文章既不是論文格式,也沒有同行評審,卻因實測效果出色而意外走紅。更出人意料的是,它還成了他叩開 OpenAI 大門的敲門磚。
這一消息最早由 Keller Jordan 的合作者、AI 雲平台初創公司 Hyperbolic Labs 的聯合創始人 Yuchen Jin 在 X 上公開。
Yuchen Jin 寫道:
「很多博士(包括曾經的我)常常陷入一個誤區:認為在頂級會議上發表論文就是最終目標。
但「發表」並不等於「影響力」。
Muon 只是篇博客文章,卻幫 Keller 拿到了 OpenAI 的 offer——現在他可能正在用它訓練 GPT-5。
我很感激他把我列為第二作者。我只是用 NanoGPT 跑了些實驗,測試 Muon 在更大語言模型上的可擴展性,結果它徹底擊敗了 AdamW(曾經的優化器之王)!
這事教會我:無論是做研究,還是生活,追求的應該是影響力,而不是光鮮的頭銜。」

進群後,您將有機會得到:· 最新、最值得關注的 AI 產品資訊及大咖洞見· 獨家影片及文章解讀 AGI 時代的產品方法論及實戰經驗· 不定期贈送 AI 產品乾貨資料和秘籍
頂會論文≠有影響力
Yuchen Jin 的這番話一出,激起了不少的討論。
畢竟,在學術圈,頂會論文幾乎是衡量一個人研究水平和職業潛力的「硬通貨」——特別是對博士來說,能否進入一流實驗室、申請教職、爭取經費,其背後有沒有在 NeurIPS、ICLR、CVPR、ACL 這類會議上掛名還是很重要的。
而 Keller 卻用一篇「非正式」的博客文章,直接實現彎道超車,頗有些顛覆常規的意味。
其實,Keller Jordan 早在今年 2 月就公開表達過自己對這一事的態度。他在 X 上寫道,自己之所以沒有為 Muon 寫一篇正式的 arXiv 論文,是因為他壓根不相信,「寫出一篇數據漂亮、圖表華麗的優化器論文」與「這個優化器實際有沒有用」之間有什麼必然聯繫。
他更看重真實訓練中的表現,「我只相信實測跑分」。

在他看來,與其把大量時間投入在格式要求繁瑣、評審週期冗長的論文撰寫上,不如專注於實踐落地與真實效果。畢竟,一個想法從成形到論文發表,往往需要耗費數月甚至更久的時間,而當它終於面世時,極有可能會「過時」,而即使發佈了又可能會被淹沒在頂會上一波又一波的投稿浪潮中,很少有人真正看、也很少有人真的用。
時下,在 AI 加快各領域迭代速度之際,這種觀點並非罕見。
前Google研究員 Hieu Pham 對此事評論稱:
「曾幾何時,‘發表論文’就等於‘產生影響’。ResNet、Seq2Seq、Adam、Attention、Transformers、MoE……這些經典成果都是以論文形式出現的。但真正的問題,是我們沒有意識到這個時代已經過去了。我自己也曾犯過類似的錯誤。好在,現在我們還有機會重新選擇。」

他補充道,就優化器而言,「行業已經有成千上萬篇關於優化器的論文發表了,但真正推動 SOTA(最優性能)前進的,也就只有一次——從 Adam 到 AdamW。其他所謂的進步,基本都是這兩個的改進實現,比如 FSDP。因此,我們真的應該停止再寫這類論文了。也不必引用 AdamW,大家都知道它是哪裡來的。」

同是博士畢業的 Yuchen Jin 也感慨學術生態的局限:「這就是學術界令人唏噓的地方。我曾有一位實驗室同伴,沒能在任何頂級的計算機系統會議上發表論文,這導致他很難拿到名校教職。但最終,他成了Google的副總裁。」

非常規的「硬核學霸」
如今,Keller Jordan 的經歷也給人們帶來新的啟發:原來,不寫論文,也照樣能闖進一流的頂尖實驗室。
隨著 Muon 受到越來越多研究者的關注,就在今日, Keller 繼續重申自己的觀點——「已經有上百篇關於優化器的論文發表了,但所謂的最優性能(SOTA)也就提升了幾次而已。所以我們可以得出一個結論:幾乎所有優化器的論文都是「假的」。如果你也打算再寫一篇這樣的「假優化器」論文,拜託別引用 Muon。我不需要你的引用。」

這番言論雖然犀利,卻也反映出 Keller Jordan 對「實際效果大於學術裝飾」的堅持,以及他鮮明的個性。
打開 Keller 的履曆,他也的確是個不折不扣的「硬核學霸」。
從領英資料來看,Keller 曾就讀於加州大學辛達告魯斯分校,主攻機器學習、數據科學等方向。而後在 UC 伯克利,主修操作系統、計算安全。而後於 2020 年以 3.94 的高績點(滿分 4)獲得美國加州大學聖迪亞高分校數學與計算機科學雙學位。

畢業後,他進入 Hive 公司,擔任機器學習工程師,隨後又作為訪問研究員(Visiting Researcher)加入維也納複雜科學研究中心(Complexity Science Hub Vienna),繼續深耕 AI 實踐。
到了 2024 年 12 月,也就是發佈 Muon 不久之後,Keller 成功入職 OpenAI,以一種幾乎「逆學術常規」的方式,打破了人們對進入頂尖 AI 實驗室的固有認知。
那麼問題來了:他那篇非正式的博客文章,到底有何魔力?為什麼沒有頂會背書、沒有論文格式,卻能引發如此關注?
接下來,我們就來一起看看 Muon 的真實效果與特性。
對比其他優化器,Muon 有何吸引之處?
Muon 是一個專門為神經網絡隱藏層設計的優化器。它目前刷新了 NanoGPT 和 CIFAR-10 等熱門任務的訓練速度記錄。
首先從實測上來看,Muon 目前已經取得了非常不錯的成績:
在 CIFAR-10 上,從頭訓練到 94% 準確率的時間,從 3.3 A100 秒縮短到 2.6 A100 秒。
在 NanoGPT 的「精煉網頁(FineWeb)」任務中,把驗證損失達到 3.28 的速度提升了 1.35 倍。
在參數規模擴展到 774M 和 1.5B 時,訓練速度依然保持優勢。
用 Muon 訓練一個 15 億參數的 transformer,在 HellaSwag 任務中達到了 GPT-2 XL 的水平,只用了 10 小時(8 張 H100 組成的 GPU 集群)。而使用 AdamW 則需要 13.3 小時才能達到相同水平。
下圖展示了在 NanoGPT 任務中,Muon 與其他優化器在樣本效率和實際訓練時間上的對比表現:


以下是 Muon 和 AdamW 在訓練 15 億參數語言模型時的對比:

從設計上來看,Muon 的核心原理是——先用帶動量的 SGD(SGD-momentum)生成更新,再對每個更新矩陣進行一次 Newton-Schulz(NS)迭代處理,最後才將其應用到模型參數上。

Newton-Schulz 迭代的作用是對更新矩陣進行近似正交化,也就是說,它會執行如下操作:

換句話說,NS 迭代的實際效果是:把原本由 SGD-momentum 得出的更新矩陣,替換成與之最接近的「半正交矩陣」。
感興趣的小夥伴也可以通過 GitHub 地址快速找到 Muon 的 PyTorch 實現:https://github.com/KellerJordan/Muon
寫在最後
Keller 的經歷並不是在否定學術的價值,而是在提醒我們:在 AI 快速演進的當下,影響力的來源正在悄然改變。
一篇實測效果出色的博客文章,可能比一篇格式完美卻難落地的論文更具說服力。
這也讓我們聯想到 DeepSeek,這支隊伍同樣是走出了一條「技術效果優先」的成名路徑:沒有高調預熱,沒有複雜包裝,靠著實打實的性能和穩定表現,在激烈的大模型競賽中殺出重圍,迅速贏得社區認可。
對當下的 AI 研究者來說,也許是時候重新思考:什麼才是真正值得投入時間的事?是一篇「看起來很強」的論文,還是一個「跑得足夠快」的模型?Keller 和 Muon 的爆紅,或許只是這一轉變的開始。
參考:
Muon 博客原文:https://kellerjordan.github.io/posts/muon/
https://x.com/Yuchenj_UW/status/1934291648542126580
https://x.com/hyhieu226/status/1934290217516793947
https://x.com/kellerjordan0/status/1934138033240146313
本文來自微信公眾號「CSDN」,整理:屠敏 ,36氪經授權發佈。