OpenAI 最新產品全曝光,奧特曼駁斥 AI 發展撞牆,Ilya 認錯,秘密尋找下一個重大突破

今年 AI 圈的瓜真是一浪接一浪。 

最近,關於 Scaling Laws 「撞牆」的消息在 AI 圈炸開了鍋。圖靈獎得主 Yann Lecun、Ilya、Anthropic 創始人 Dario Amodei 紛紛展開唇槍舌戰。 

爭論的核心在於,隨著模型規模的不斷擴大,其性能提升是否會遇到天花板。 

正當輿論愈演愈烈之際,OpenAI CEO Sam Altman 剛剛在 X 平台作出回應: 

there is no wall 沒有牆 

OpenAI 最新產品全曝光,奧特曼駁斥 AI 發展撞牆,Ilya 認錯,秘密尋找下一個重大突破

而在這場辯論的背景下,彭博社則披露了一條引人注目的消息。 

OpenAI 計劃在明年一月份推出一款名為「Operator」的 AI Agent(智能體),這個 Agent 能夠使用計算機代替用戶執行任務,如編寫代碼或預訂旅行。

在此之前,Anthropic、微軟、Google 也都被曝出正在佈局類似的方向。 

對於整個 AI 行業來說, AI 技術的發展從來就不是單一維度的線性過程。當一個方向似乎遇到阻力時,創新往往會在其他維度突破。 

Scaling Laws 撞牆?下一步該怎麼走 

Scaling Laws 遭遇瓶頸的消息,最先源自外媒 The Information 上週末的一篇報導。 

洋洋灑灑的數千字報導透露了兩個關鍵信息。 

好消息是,儘管 OpenAI 完成了下一代模型 Orion 訓練過程的 20%,但 Altman 表示,Orion 在智能和執行任務、回答問題的能力已經與 GPT-4 不相上下。 

壞消息是,據上手體驗的 OpenAI 員工評估,與 GPT-3 和 GPT-4 之間的巨大進步相比,Orion 提升幅度較小,比如在編程等任務上表現不佳,且運行成本較高。 

一句話概括就是,Scaling Laws 撞牆了。

要理解 Scaling Laws 效果不及預期所帶來的影響,我們有必要給不太清楚的朋友簡單介紹一下 Scaling Laws 基本概念。 

2020 年,OpenAI 在一篇論文中最早提出 Scaling Laws。 

這一理論指出,大模型的最終性能主要與計算量、模型參數量和訓練數據量三者的大小相關,而與模型的具體結構(層數/深度/寬度)基本無關。 

聽著有些拗口,說人話就是, 大模型的性能會隨著模型規模、訓練數據量和計算資源的增加而相應提升。

OpenAI 的這項研究奠定了後續大模型發展的基礎,不僅促成了 GPT 系列模型的成功,也為訓練 ChatGPT 提供了優化模型設計與訓練的關鍵指導原則。 

只是,當我們現在還在暢想著 GPT-100 時,The Information 的爆料表明,僅僅增加模型規模已經不能保證性能的線性提升,且伴隨著高昂成本和顯著的邊際效益遞減。 

而遭遇困境的並非僅有 OpenAI 一家。 

彭博社援引知情人士的消息稱,Google 旗下的 Gemini 2.0 同樣未能達到預期目標,與此同時,Anthropic 旗下的 Claude 3.5 Opus 的發佈時間也一再推遲。 

在爭分奪秒的 AI 行業,沒有產品的新消息往往意味著最大的壞消息。

需要明確的是,這裏所說的 Scaling Laws 遇到瓶頸並非意味著大模型發展就此終結,更深層的問題在於高昂成本導致邊際效益的嚴重遞減。 

Anthropic CEO Dario Amodei 曾透露,隨著模型變得越來越大,訓練成本呈現爆炸式增長,其目前正在開發的 AI 模型的訓練成本就高達 10 億美元。 

Amodei 還指出,未來三年內,AI 的訓練成本還將飆升到 100 億美元甚至 1000 億美元。 

以 GPT 系列為例,僅 GPT-3 的單次訓練成本就高達約 140 萬美元, 單是 GPT-3 的訓練就消耗了 1287 兆瓦時的電力。 

去年,加州大學河濱分校的研究顯示,ChatGPT 每與用戶交流 25-50 個問題,就得消耗 500 毫升的水。 

預計到 2027 年,全球 AI 的年度清潔淡水需求量可能達到 4.2-66 億立方米,相當於 4-6 個丹麥或半個英國的年度用水總量。 

從 GPT-2 到 GPT-3,再到 GPT-4,AI 所帶來的體驗提升是跨越式的。 正是基於這種顯著的進步,各大公司才會不惜重金投入 AI 領域。 

但當這條道路逐漸顯露盡頭,單純追求模型規模的擴張已無法保證性能的顯著提升,高昂的成本與遞減的邊際效益便成了不得不面對的現實。 

現在,比起一味追求規模,在正確的方向上實現 Scaling 顯得更加重要。 

再見,GPT;你好,推理 「O」 

牆倒眾人推,連理論也是如此。 

當 Scaling Laws 疑似觸及瓶頸的消息在 AI 圈內引發軒然大波時,質疑的聲浪也隨之翻湧而來。 

圖靈獎得主、Meta AI 首席科學家 Yann Lecun,昨天興奮地在 X 平台轉載了路透社採訪 Ilya Sutskever 的採訪,並附文稱: 

「我不想顯得事後諸葛亮,但我的確提醒過你。 

引用:「AI 實驗室 Safe Superintelligence(SSI)和 OpenAI 的聯合創始人伊利亞·蘇茨克韋爾(Ilya Sutskever)最近向路透社表示, 通過擴大預訓練階段——即使用大量未經標註的數據來訓練 AI 模型,使其理解語言模式和結構——所取得的成果已經停滯不前。」 

回顧這位 AI 巨頭過去兩年對現行大模型路線的評判,可謂是字字珠璣,句句見血。 

例如,今天的 AI 比貓還笨,智力差太遠;LLM 缺乏對物理世界的直接經驗,只是操縱著文字和圖像,卻沒有真正理解世界,強行走下去只會死路一條等等。 

時間撥回兩個月前,Yann Lecun 更是毫不客氣地給當下主流路線判了死刑: 

大型語言模型(LLMs)無法回答其訓練數據中未包含的問題, 

它們無法解決未經訓練的難題, 

它們無法在缺乏大量人類幫助的情況下學習新技能或知識, 

它們無法創造新的事物。目前,大型語言模型只是人工智能技術的一部分。單純地擴大這些模型的規模,並不能使它們具備上述能力。 

在一眾 AI 末日論中, 他還堅定地認為聲稱 AI 將威脅人類生存的言論純屬無稽之談。 

同在 Meta FAIR 任職的田淵棟博士則更早預見了當前的困境。 

5 月份在接受媒體採訪時,這位華人科學家曾悲觀地表示,Scaling Laws 也許是對的,但不會是全部。在他看來,Scaling Laws 的本質是以指數級的數據增長,來換取「幾個點的收益」。 

最終人類世界可能會有很多長尾需求,需要人類的快速反應能力去解決,這些場景的數據本身也很少,LLM 拿不到。 Scaling law 發展到最後,可能每個人都站在一個「數據孤島」上,孤島里的數據完全屬於每個人自己,而且每時每刻都不停產生。專家學會和 AI 融合,把自己變得非常強,AI 也代替不了他。  

不過,形勢或許還沒有到如此悲觀的境地。 

客觀而言,Ilya 在接受路透社的採訪時,雖然承認了 Scaling Laws 帶來的進展已趨於停滯,但並未宣告其終結。 

「2010 年代是追求規模化的時代,而現在我們再次進入了一個充滿奇蹟和探索的新時代。每個人都在尋找下一個重大突破。在當下,選擇正確的事物進行規模化比以往任何時候都更為關鍵。」

並且,Ilya 還表示 SSI 正在秘密探索一種新的方法來擴展預訓練過程。 

Dario Amodei 最近在一檔播客中也談及此事。 

他預測,在人類水平以下,模型並不存在絕對的天花板。既然模型尚未達到人類水平,就還不能斷言 Scaling Laws 已經失效,只是確實出現了增長放緩的現象。 

自古,山不轉水轉,水不轉人轉。 

上個月,OpenAI 的研究員 Noam Brown 在 TED AI 大會上表示: 

事實證明,在一局撲克中,讓一個機器人思考 20 秒鍾,得到的性能提升與將模型擴展 100000 倍並訓練它 100000 倍長的時間一樣。 

而對於 Yann lecun 昨天的事後諸葛亮言論,他這樣回應: 

現在,我們處於一個這樣的世界,正如我之前所說,進入大規模語言模型預訓練所需的計算量非常非常高。但推理成本卻非常低。 曾有許多人合理地擔心,隨著預訓練所需的成本和數據量變得如此龐大,我們會看到 AI 進展的回報遞減。 但我認為,從 o1 中得到的一個真正重要的啟示是,這道牆並不存在,我們實際上可以進一步推動這個進程。 因為現在,我們可以擴展推理計算,而且推理計算還有巨大的擴展空間。 

以 Noam Brown 為代表的研究者堅信推理/測試時計算(test-time compute),極有可能成為提升模型性能的另一個靈丹妙藥。 

說到這裏,就不得不提到我們熟悉的 OpenAI o1 模型。 

與人類的推理方式頗為相似,o1 模型能夠通過多步推理的方式「思考」問題,它強調在推理階段賦予模型更充裕的「思考時間」。 

其核心秘密是,在像 GPT-4 這樣的基礎模型上進行的額外訓練。 

例如,模型可以通過實時生成和評估多個可能的答案,而不是立即選擇單一答案,最終選擇最佳的前進路徑。 

這樣就能夠將更多的計算資源集中在複雜任務上,比如數學問題、編程難題,或者那些需要人類般推理和決策的複雜操作。 

Google 最近也在效仿這條路線。 

The Information 報導稱,最近幾週,DeepMind 在其 Gemini 部門內組建了一個團隊,由 Jack Rae 和 Noam Shazeer 領導,旨在開發類似的能力。 

與此同時,不甘落後的 Google 正在嘗試新的技術路徑,包括調整「超參數」,即決定模型如何處理信息的變量。 

比如它在訓練數據中的不同概念或模式之間建立聯繫的速度,以查看哪些變量會帶來最佳結果。 

插個題外話,GPT 發展放緩的一個重要原因是高質量文本和其他可用數據的匱乏。 

而針對這個問題,Google 研究人員原本寄希望於使用 AI 合成數據,並將音頻和影片納入 Gemini 的訓練數據,以實現顯著改進,但這些嘗試似乎收效甚微。 

知情人士還透露,OpenAI 和其他開發者也使用合成數據。不過,他們也發現,合成數據對 AI 模型提升的效果十分有限。 

你好,賈維斯 

再見,GPT,你好,推理 「o」。 

在前不久舉行的 Reddit AMA 活動上, 一位網民向 Altman 提問,是否會推出「GPT-5」,以及推理模型 o1 的完整版。 

當時,Altman 回答道:「我們正在優先推出 o1 及其後續版本」,並補充說,有限的計算資源使得同時推出多個產品變得困難。 

他還特別強調,下一代模型未必會延續「GPT」的命名方式。 

現在看來,Altman 急於與 GPT 命名體系劃清界限,轉而推出以「o」命名的推理模型,其背後似有深意。而推理模型的佈局或許還是在於為當下主流的 Agent 埋下伏筆。 

最近,Altman 在接受 YC 總裁 Garry Tan 的採訪時,也再次談到了 AGI 五級理論: 

L1:聊天機器人具有對話能力的 AI,能夠與用戶進行流暢的對話,提供信息、解答問題、輔助創作等,比如聊天機器人。 

L2:推理者像人類一樣能夠解決問題的 AI,能夠解決類似於人類博士水平的複雜問題,展現出強大的推理和問題解決能力,比如 OpenAI o1。 

L3:智能體不僅能思考,還可以採取行動的 AI 系統,能夠執行全自動化業務。 

L4:創新者能夠協助發明創造的 AI,具有創新的能力,可以輔助人類在科學發現、藝術創作或工程設計等領域產生新想法和解決方案。 

L5:組織者可以完成組織工作的 AI,能夠自動掌控整個組織跨業務流程的規劃、執行、反饋、迭代、資源分配、管理等,基本上已經與人類差不多。 

所以我們看到,與 Google 以及 Anthropic 一樣,OpenAI 現在正在將注意力從模型轉移到一系列稱為 Agent 的 AI 工具上。 

今天淩晨,彭博社曝出,OpenAI 正在準備推出一款名為「Operator」的新型 AI Agent,能夠使用計算機代替用戶執行任務,如編寫代碼或預訂旅行。 

在週三的一次員工會議上,OpenAI 領導層宣佈計劃在一月發佈該工具的研究預覽版,並通過公司的應用程序接口(API)向開發者開放。 

在此之前,Anthropic 也推出了類似的 Agent,夠實時處理用戶計算機任務並代為執行操作。 與此同時,微軟近期推出了一套面向員工的 Agent 工具,用於發送郵件和管理記錄。 

而 Google 也正在籌備推出自己的 AI Agent。 

報導還透露,OpenAI 正在進行多個與 Agent 相關的研究項目。其中,最接近完成的是一款能夠在網頁瀏覽器中執行任務的通用工具。 

這些 Agent 預計將能夠理解、推理、規劃並採取行動,而這些 Agent 實際上是一個由多個 AI 模型組成的系統,並非單一模型。 

比爾·蓋茨曾經說過,「每個桌面上都有一台 PC」,史提芬·祖比斯說過,「每個人的手上都有一部智能手機」。 

現在我們可以大膽預測:每個人都將擁有自己的 AI Agent。 

當然,人類的終極目標是,我們更希望有一天能夠對著眼前的 AI 說出那句電影的經典對白: 

你好,賈維斯 

本文來自微信公眾號「APPSO」,作者:發現明日產品的,36氪經授權發佈。