發論文親自上?創業十多年,DeepSeek 梁文峰的「技術男」屬性從沒改變

2 月 18 日,DeepSeek 發佈了一篇新論文,提出了一種新的注意力機制——NSA。值得注意的是,創始人梁文鋒參與編寫並親自上傳了該論文。

根據論文介紹,DeepSeek 團隊將算法創新與硬件適配優化相結合,以實現超快速長文本訓練。NSA 採用動態分層稀疏策略,將粗粒度的標記壓縮與細粒度的標記選擇相結合,以兼顧全局上下文感知和局部精度。NSA 針對現代硬件進行了優化設計,可以在不犧牲性能的情況下加速推理並降低預訓練成本。在通用基準測試、長文本任務和基於指令的推理中,NSA 與全注意力的模型水平相當甚至超過其性能。

這其實是梁文鋒的常規操作,有著很大影響力的 DeepSeek-R1 論文、DeepSeek-V3 論文都是他參與編寫和親自提交的。但由於梁文鋒一直非常低調,近期除了在央視鏡頭中,我們很難在其他場合看到他的身影。這次提交論文的舉動迅速引起了大家的廣泛關注,吸引走了對於 kimi 新論文和 Grok 3 發佈的很多注意力。

「DeepSeek 創始人梁文鋒會親自參與代碼建設,這種‘創始人模式’(Funder mode)非常值得借鑒。」整數智能創始人兼 CEO 林群書在 InfoQ 的一場直播中提到,「創始人衝在前線,親自解決問題,瞭解每個崗位的需求,從而更高效地配置資源。這不僅能快速解決問題,還能為公司爭取更多資源,解決其他同事難以應對的難題。」

企業家、投資人、頂級富豪等都是外界給梁文鋒的標籤,但他身上還有一個更大但可能被忽略的「標籤」:技術人。

梁文鋒其人,「典型的 IT 技術男」

梁文鋒 17 歲考入浙江大學電子信息工程專業,2010 年獲得碩士學位,師從項誌宇,主要做機器視覺研究。2009 年時,梁文鋒讀研期間以實習生身份入職上海艾麒。

周朝恩與梁文鋒是浙大校友,但梁文鋒的入職並非校友介紹,而是通過公開招聘和通過面試後留下來的。「我們都是以才能和熱情來錄取的,」周朝恩說道,「我看浙大畢業的,是人才,也有技術創新想法,所以把他留下來了。」

梁文鋒入職的部門彙集了艾麒信息的編解碼算法工程師和圖形算法專家。剛開始,梁文鋒只是普通的算法工程師,後來他所在部門的經理辭職去北京,並推薦了他做部門經理。周朝恩考察了他的才能,認為梁文鋒是可以勝任的,所以任命他成為了部門經理,月薪 16000 元,「算是高薪特別聘請的」。

根據周朝恩的回憶,梁文鋒是一個文靜內斂的人,平時話很少,只有在聊技術的時候話會變得很多,並且邏輯非常清晰,是「典型的技術男風格」。

「初見他時,他戴著一副眼鏡,史芬有禮,身材清瘦,給人一種文靜內斂的印象。入職後,他便全身心投入到人工智能影片與圖像技術的研究中,常常一整天都待在辦公室里,專注地鑽研技術難題,甚至半天都不出來一次。與他深入接觸後發現,他雖不善言辭,但在技術交流中卻能清晰地表達自己的觀點,展現出強大的邏輯思維能力。他為人沉著冷靜,性格簡單直接,對產品和技術有著極高的追求,堪稱典型的技術男風格。」周朝恩說道。

當時,梁文鋒參與了新技術部的項目,該項目主要研究 100M CPU 的手機上影片編解碼並充分運用手機上 GPU 來高效處理影片等編解碼等技術。

梁文鋒從 2008 年就在研究量化投資,在艾麒任職期間他也在利用業餘時間悄悄為量化投資做準備,提前佈局。到了 2010 年 6 月 30 日,梁文鋒正式畢業後,就去繼續做量化投資的事情了。

「當時他說這塊研究已經成熟了,可以盈利了。」周朝恩說道。

離職前,梁文鋒和周朝恩進行了一次深入交流。周朝恩建議他未來要尋找那些毛利高的項目,這給梁文鋒留下了很深的印象。2013 年,梁文鋒開啟了自己的創業生涯。正如他說的確實盈利了,而背後的技術理念一直貫穿其中。

公眾號「聰明投資者」發佈的《我所見過的梁文鋒》一文中,展現了做量化投資時期的梁文鋒。「同事說他除了編程,沒有什麼其他的愛好。」文中也同樣提到,他確實不擅長閑聊,但到了專業領域能溝通到連細節也不避諱。

根據企查查信息,2013 年 9 月,梁文鋒和浙大校友徐進創立了杭州雅克比投資管理有限公司,梁文鋒目前還是該公司的法人。2015 年 6 月,兩人成立了浙江九章資產管理有限公司,九章資產是幻方量化的核心組成部分。

根據公開資料,幻方量化在 2016 年 10 月 21 日推出了第一個 AI 模型,第一份由深度學習生成的交易倉位上線執行,並使用 GPU 進行計算。2017 年,幻方量化宣稱實現投資策略全面 AI 化。

2019 年,幻方量化資金管理規模突破百億元。梁文鋒在當年的金牛獎頒獎儀式上表示,量化公司是沒有基金經理的,基金經理就一堆服務器。

梁文鋒當時給自己的定位就是「一名愛好量化投資的程序員。」他的演講圍繞著對技術的重視。他說道,「人來做投資決策的時候,它是一種藝術,要憑感覺。程序來決策的時候,它是一種科學,它有最優解。有人問,量化投資,以後還需要人類嗎?當然需要,需要大量的程序員和研究員。」

也是在 2019 年,算力短缺的幻方量化果斷投資 2 億元建成了「螢火一號」AI 算力集群,該集群搭載了 1100 塊 GPU 顯卡。幾個月後,梁文鋒出手拿下了英偉達當時最新的 A100 芯片,成為亞太地區第一批拿到此卡的人。2021 年,幻方量化再度豪擲 10 億元建成 「螢火二號」,搭載了 1 萬張 A100 顯卡。這為 DeepSeek 的研發打下堅實基礎。

「很多人會以為這裡邊有一個不為人知的商業邏輯,但其實主要是好奇心驅動,對 AI 能力邊界的好奇。」梁文鋒去年在暗湧的採訪中說道。

2023 年,在籌備 DeepSeek 之前,梁文鋒又回到艾麒信息進行了一次調研。這次,梁文鋒主要想深入瞭解市場動態和海外需求,為新的創業做足準備。梁文鋒與艾麒的人員探討人工智能相關技術將近 2 個小時。這次交流,雙方認識到海外市場對 AI 技術的需求旺盛且增長迅速,尤其是在大模型領域,海外企業已展現出顯著的技術優勢和商業化潛力。

在林群書看來,如果創始人本身很懂技術且公司是技術驅動的,比如像 DeepSeek 團隊或 ChatGPT 早期團隊,那麼他們的成功就主要依賴硬核科技,而非單純的產品設計。

「現在我遇到很多大區的 CEO,他們本身也是技術出身。其實,做技術的人往往更清楚技術的邊界,能夠更準確地判斷哪些技術適合商業化,以及為了實現商業化,技術需要達到何種程度。」林群書表示。

管理風格,從實習期延續至今

創業後,梁文鋒的管理風格也沿襲了在艾麒時期的習慣。在艾麒時,他就是採用扁平化管理方式,給予團隊成員充分的自由和信任,發揮每個人的特長,帶領團隊攻克了多項技術難題,比如優化了圖像影片處理算法、提升服務性能。

同樣地,DeepSeek 也是採取扁平化結構,減少管理層級,會給予員工充分的信任和自由度,鼓勵他們在職責範圍內自主決策,並倡導開放、協作的文化,鼓勵跨部門、跨領域的知識共享。

梁文鋒說的,「我們每個人對於卡和人的調動是不設上限的。如果有想法,每個人隨時可以調用訓練集群的卡無需審批。同時因為不存在層級和跨部門,也可以靈活調用所有人,只要對方也有興趣。」這從《DeepSeek-V3 Technical Report》論文的貢獻者名單中就可以體現出來:僅名單就單獨佔了兩頁多,包括 150 位研發工程師、31 位數據標註人員和 18 位商務與合規人員。這在其他論文中是很難看到的。

對於 DeepSeek 被津津樂道的「員工可以自由用卡」方式,周朝恩表示,對於大廠或傳統企業而言,直接複製可能存在一定難度。由於資源調配涉及複雜的流程和多部門協調,完全放權可能帶來管理風險。但大廠可以逐步借鑒,在創新團隊或研究部門先行試點扁平化管理,提升團隊協作效率,降低管理成本,積累經驗後再逐步推廣。建立與創新成果掛鉤的激勵機制,鼓勵員工主動探索和嘗試。DeepSeek 的經驗為大廠提供了寶貴的參考,同時也為傳統企業的轉型提供了可行的路徑。

DeepSeek 招聘的團隊成員大多是數學競賽一等獎、拿過國際金牌的算法人才。大廠通常關注的候選人的項目經驗在梁文鋒眼中並不重要,「(有)熱愛、紮實的基礎能力,其他都沒那麼重要。」梁文鋒曾表示。

在這樣想法的影響下,DeepSeek 確實招到了這麼一群研究員,他們在 x 上分享技術內容,Daya Guo 的一句感慨透露出了團隊春節期間也在忙碌但依然充滿熱情:「春節期間讓我最興奮的事情,是親眼見證了 R1-Zero 模型性能曲線的持續增長,並真正的感受到強化學習的力量。」

值得注意的是,《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》論文的第一作者 Jingyang Yuan 是在實習期間完成的這項研究。

網上面試過 DeepSeek 的開發者透露,DeepSeek 是其面過的很多家互聯網公司里唯一會根據專業出 coding 的公司,面試連續 3 小時,對所有人都一樣的問題會問得很細,對於面試者參與項目的問題更關注完成項目時的思維方式。

「這種對高端人才的管理和激勵方式,使得他在量化投資和 DeepSeek 上能夠迅速組建一支高效、專業的技術團隊。」周朝恩評價。

而在《我所見過的梁文鋒》文中也提到了當時梁文鋒的招人風格:要找在專業領域能做超前和深度研究的人。「看他們在具體研究什麼領域,怎麼做 paper,對研究有沒有渴望。」他還提到,沒有給員工設置考核指標,「我們招人都會大家一起來看的……我覺得如果真的沒有做出貢獻,那是我們沒有把他 / 她放到合適的位置上。」這與 DeepSeek 的情況相似。

DeepSeek 可以稱得上典型創始人模式,就連公司實習生也是直接與他溝通。

去年 9 月,愛彼迎聯合創始人兼首席執行官 Brian Chesky 在一個講座中「抽水」,許多人建議他「僱傭優秀的人,並給他們空間去完成工作」。他一開始採納了這些建議,但效果不盡如人意。「我越不親力親為,就越被捲入問題。等到我被捲入一個問題時,就像多了 10 倍的工作量。」

之後,YC 聯合創始人 Paul Graham 將 Chesky 的演講寫進了一篇博客文章,並提出了「創始人模式」的概念。他表示,相較於只通過下屬掌控公司的職業經理人,親力親為的創始人更有利於公司的發展。這個理念隨後迅速在矽谷引起熱議。

但當未來 DeepSeek 發展到一定規模後,梁文鋒是依然深入到每個研發細節,還是轉向宏觀的戰略規劃?這個或許要留待時間給出答案。

本文來自微信公眾號「InfoQ」(ID:infoqchina),作者:褚杏娟,36氪經授權發佈。