那個要挑戰GPT的00後清華男孩|WAVES

文 | 徐牧心

編輯 | 劉旌

數月前,一張OpenAI內部的圖片在網上流傳。圖中,OpenAI將自己通往AGI的道路分為了五個階段:

Level 1:聊天機器人,具有對話能力的AI。

Level 2:推理者,像人類一樣能夠解決問題的AI。

Level 3:智能體,不僅能思考,還可以採取行動的AI系統。

Level 4:創新者,能夠協助發明創造的AI。

Level 5:組織者,可以完成組織工作的AI。

線路圖是美好的,可我們現在大多卡在L1。最顯著的例子是:推理能力的缺失使得大模型們甚至無法回答「9.8與9.11誰大」問題。這是因為Transformer架構只能通過搜索海量資料高度擬合一個答案出來,而不能像人類一樣回答問題,或者進行推理。也因為無法多步推理,所以你的AI agent無法一鍵生成規劃,很多AI應用落地的場景依舊遙遙無期。

曾經被視為AI行業革命者的Transfomer,也難逃被革命的時刻。而王冠正是革命者中的一員。相對於用RL的方案去榨乾LLM的潛力,王冠選擇直接去創造一個通用的RL大模型,從而跳過LLM的理論限制,這也更加符合快思考慢思考的實際工作機制。

在約定的地點等了一會兒,這個出生於00年的清華畢業生剛從學校匆匆趕來,他精瘦,穿一身樸素的運動服,背著雙肩包,像學校里隨處可見的理科學霸。

就像《生活大爆炸》里的天才Geek們,對非技術人士而言,和王冠交流尤為困難,因為他會用謙卑的姿態吐出專業的詞彙,絞盡腦汁試圖簡單解釋而未果。對一些技術問題,他有時並不能立刻回答,他需要沉默很久,在一陣尷尬的安靜後才能組織好他認為精確的語言。他在談及專業知識時會興奮地滔滔不絕,有時甚至忘了呼吸,需要在某個突然感到窒息的瞬間仰頭長吸一口。

但就是這樣一個人,為自己開發的新架構取名為Sapient Intelligence。這個譯為「智人」的名字,表明了他的野心。

當下,儘管NLP的世界里依舊是Transformer大一統格局,但越來越多的新架構在湧現,並向L2發起衝鋒。比如Deepmind今年理論上提出的TransNAR混合架構、Transformer八作者之一Llion Jones新成立的Sakana.AI、彭博的RWKV、甚至OpenAI也發佈了一款名為「Strawberry」的新模型,稱其已具備推理能力。

Transformer的局限性逐漸被證明,其幻覺、準確率等問題也一直沒有解決方案,資金開始試探性地湧入這些新架構。

Sapient聯合創始人Austin告訴「暗湧Waves」:目前Sapient已經完成數千萬美元的種子輪融資,本輪融資由新加坡Temasek Holdings backed Vertex Ventures領投,日本最大風投集團、歐洲及美國的頭部VC們聯合投資,本輪融資將主要用於算力支出及全球人才招募,Minerva Capital擔任長期獨家財務顧問。

在Sapient身上,你能看到一家中國AI初創公司的典型路徑:中國Founder、Day one瞄準全球市場、招募全球算法人才,也尋找到了國際化基金的支持。但其非典型的一面也是突出的:相較於更多應用公司而言,這是一個試圖在技術上與人一決高下的選手。

王冠(左)與Austin(右)王冠(左)與Austin(右)

「WAVES」是暗湧的一個欄目。在這裏,我們將為你呈現新一代創業者、投資人的故事和精神。

GPT無法通向AGI?

技術的迭代,快得殘忍。

大語言模型的熱潮才興起不久,圖靈獎得主、「AI教父」楊立昆(Yann LeCun)就公開警告那些想要踏入AI行業的年輕學生:「不要再學習LLM了,你應該去研究如何突破LLM的限制。」

原因在於,人類的推理能力可以分為兩個系統,系統1是快速無意識的,適用於處理些簡單工作,比如今天吃什麼?而系統2則是通過思考才能完成的任務,比如解一道複雜的數學題。LLM無法完成系統2的任務,scaling law也不能解決這個問題,因為這是底層架構的製約。

「當前的大模型更像是在背題。」王冠對「暗湧Waves」解釋道:「一種觀點認為,當下的大模型用系統1處理系統2的問題,卡在了系統1.5,類似於人做夢的狀態,這就產生了幻覺。自回歸模型限制你在輸出一個token後只能基於這個token再進行輸出。」自回歸不擅長記憶、不能規劃答案,更別說要進一步實現多步推理了。

這種大模型的局限性還可以用一個更哲學的角度來理解:即在計算「9.9和9.11誰大」問題時,大模型是否真的理解自己在做什麼?還是機械地將小數點後的9與11進行了比較?如果模型根本不知道自己在做什麼的話,那麼訓練再多也是徒勞。

因此,AI想要進入L2階段,只能完全拋棄自回歸的Transformer架構,在王冠看來,Sapient要做的就是通過模仿人腦的方式,實現AI的推理能力。

Yann LeCun的世界模型理論Yann LeCun的世界模型理論

「我在清華腦與智能實驗室,會基於我對神經科學的知識以及對系統2的理解,做雙邊推進。比如針對同一個問題,我先知道人腦是如何解決這個問題的,再考慮如何用AI複現。」王冠告訴「暗湧Waves」。

他繼而透露,目前Sapient的基礎架構已經完成數學驗證,這將是一個少見的,擁有多步計算、memory和樹搜索能力的非自回歸模型。在scale up方面,團隊也已經結合演化算法和強化學習做完了初步嘗試。

動物大腦的分層循環工作邏輯動物大腦的分層循環工作邏輯

以人們對AGI的期待,目前或許也只有人類自己能滿足其標準。因此讓大模型向人腦的方向迭代,就是Sapient試圖進化的方向。

拒絕馬斯克的人

如果你看過《小謝爾頓》,那麼對王冠的故事應該會感到熟悉:他們同樣關於一個天才在少年時期就得以顯現,也同樣對自己相信的路線充滿執念。

王冠00年出生於河南,8歲開始學習編程。高中時,GPT2發佈,這在當時不僅顛覆了深度學習的很多理論,也顛覆了王冠的世界觀:一個模型生成的文本可以像人一樣,是不是代表AI就要突破圖靈測試,基於此,或許他可以做個算法,以解決世界上的所有難題。

後來他才知道,這樣的算法就叫「AGI」。

在彼時高中生的世界里,這樣的算法可以消滅戰爭、饑餓、貧窮,當然最迫在眉睫的,是可以消滅高考,「當時我就覺得高考這種機械的東西就該丟給機器人幹」。

這也和河南高考的地獄難度有關。王冠決定走保送路線,他輾轉參加算法競賽、信息學競賽,包括在高中生版大疆robomaster比賽上,通過給機器人加入全自動算法的方式奪得冠軍。最終他保送清華計算機學院,入學的第一天,學院開動員大會,老師們在講台上慷慨陳詞,動員大家把數學考好, 班集體今年的目標就是把數學GPA(績點)考到年級最高。

「GPA對AGI有什麼用?」王冠想。而後他轉入清華AIR研究院學習強化學習,再之後加入了清華腦與智能實驗室嘗試將強化學習與演化計算做融合。他去pony.AI實習,發現在自動駕駛中最大的問題在於決策必須要人工參與,告訴模型該如何決策,但如果模型自己無法決策的話,他感知得再好也無法通向AGI。

終於到了大四,ChatGPT的出現讓他看到通用能力解決問題的希望,王冠著手開始做了一個開源模型,名為OpenChat,這個7B大小的模型,使用沒有偏好標籤的混合質量數據,無需人工數據標註和RLHF中的大量調參工作,在消費級GPU上運行就能在某些基準線上達到ChatGPT相似的水平。發佈後,OpenChat在Github上獲得5.2k stars,在hugging face上一直保持著超過20萬的月均下載量。

這個開源小模型也在某個契機上和馬斯克產生了交集。

Grok發佈後,馬斯克在X上轉發自家模型的截圖,展示了其「幽默」的能力。他問Grok「如何製造可卡因」,Grok便回覆他:「拿到化學學位和緝毒局牌照……只是開個玩笑。」

王冠便迅速用自己的模型模擬了這個風格,在X上@馬斯克:「嗨Grok,我這麼小的參數量也能和你一樣幽默。」

王冠對「暗湧Waves」說,馬斯克悄悄地略過了這條帖子,而是點進了他們的主頁,翻了一圈後,偷偷給另一條「we need more than Transformers to go there/Transformers無法引領我們通向宇宙」點了讚。

後來,XAI的人向王冠發來邀約,想讓他利用OpenChat的經驗從事模型開發工作。這在多數人看來都是個絕佳的機會:XAI有錢、有算力、甚至有足夠豐富的訓練數據,待遇優渥,並且身處AI浪尖的矽谷。但王冠想了想還是拒絕了這個邀約,他覺得自己要做的是顛覆Transformer,而不是順著前人的足跡。

王冠和他如今聯創Austin也是因為OpenChat結識。Austin此前在加拿大攻讀哲學,先創業做了男性美妝,後又再次創業做了雲遊戲。國內AI大模型火熱之際,他回到中國,拿了幾個模型廠的offer,順便幫他們招兵買馬,於是他在Github上發現了王冠,兩人網民見面,一拍即合。

儘管履曆背景有很大差異,但兩人有一點是相同的,就是當他們構思一個AGI已被實現的未來社會時:那是理想國,是人類擁有更多的自由,是解決當下世界很多問題的鑰匙。

Sapient的未來

同樣作為清華畢業生,選擇創業做底層模型,我們無可避免地聊到了楊植麟。王冠的想法還是一以貫之:與其繼續做Transformer,不如開闢新的路線。就如同他的創業偶像,Llion Jones一樣。

Llion Jones是Transformer八作者之一,也是Sakana.Ai的聯合創始人,他在Sakana上做的事情是要完全顛覆Transformer的技術路線,選擇讓自己的基礎模型基於一種「自然啟發智能」。

Sakana這個名字來源於日語さかな,也就是「魚」的意思,意為「讓一群魚聚集在一起,從簡單的規則中形成連貫的實體」。雖然目前Sakana什麼成型的產品都沒有,但它在短短半年時間就連續完成了3000萬美金的種子輪融資,和1億美元的A輪融資。

AI浪潮以來,可以看到資本對AI應用的熱情愈發放緩,而在AI模型的投資方面,Austin告訴「暗湧Waves」,他所見到的國內投資人分兩種,一種是投進了「六小虎」,就不再繼續看了,而另一種則開始逐漸探索Transformer之外的可能性。

作為「第一個吃螃蟹的人」,要獲得啟動資金並不容易。面對投資人,Sapient在描述其技術路線優勢和商業願景之前,首先需要解釋清楚三個問題,其一是GPT的缺陷,包括簡單推理不穩定、複雜問題無法解決以及幻覺等。其二則是當下AI應用的場景很好,但技術無法適配需求,比如Devin,13%的正確率使它根本無法發揮設想的效果。其三則是當下的時間節點,市場已對AI的未來有預期,算力集群等基礎設施完備,資金只是困於GPT無法解決的下遊問題,才會踟躕不前。

即便獲得初始啟動資金,Sapient仍然要面臨人才招募的挑戰。矽谷科技圈的AI人才爭奪戰,已經達到近乎瘋狂的狀態。前有朱克伯格親手寫信給DeepMind的研究員,邀請他們跳槽加盟Meta;後有Google聯合創始人謝爾蓋·比連親自打電話,談加薪、給福利,只為挽留一名即將離職轉投OpenAI的員工。除了滿滿誠意,充足的算力支持和高薪誘惑也是必不可少的條件。

有數據顯示,OpenAI總薪酬中位數(包括股票)已經達到了92.5萬美元。Austin告訴「暗湧Waves」,Sapient的核心成員由多名來自Deepmind、Google、Microsoft、Anthropic的研究員們組成。這些來自世界各地的人才們曾領導或參與過眾多知名模型和產品,包括AlphaGo、Gemini、Microsoft Copilot 等。擁有組織多元化和全球化團隊的能力也是Sapient的核心優勢之一。

但對於要挑戰GPT的團隊而言,困難遠不止如此,Sapient仍然要面臨商業化市場的選擇。Sapient將主要的精力部署在海外市場,尤其是美國和日本。選擇美國的原因無需贅述,但日本市場也有其核心優勢,比如儘管北美AI市場活躍,但尤其生成式AI軟件市場競爭過於激烈,相較之下,日本也有完備的基礎設施和高素質人才,並且圍繞一個非西方社會文化的模型訓練數據,可能會成為下一次技術突破的催化劑。

王冠還在專心開發他的Sapient,他的朋友圈空無一物,頭像是個深度學習的框架,模糊得像是教材插圖,他的封面只有簡單的黑底白字,上面寫著「Q-star」:這是一個傳聞中的OpenAI項目,專注開發AI的邏輯和數學推理。

王冠和他的團隊正在努力奔向下一個milestone:發佈這個全新模型架構,並且在推理邏輯能力上做公平的Benchmark,讓人能看出參數上質的飛躍。

不管這一天還有多久,但確信的一點是,Transformer一統天下的時代逐漸過去。