OpenAI最新產品全曝光,秘密尋找下一個重大突破

今年AI圈的瓜真是一浪接一浪。

最近,關於Scaling Laws「撞牆」的消息在AI圈炸開了鍋。圖靈獎得主Yann Lecun、Ilya、Anthropic創始人Dario Amodei紛紛展開唇槍舌戰。

爭論的核心在於,隨著模型規模的不斷擴大,其性能提升是否會遇到天花板。

正當輿論愈演愈烈之際,OpenAI CEO Sam Altman剛剛在X平台作出回應:

there is no wall沒有牆

OpenAI最新產品全曝光,秘密尋找下一個重大突破

而在這場辯論的背景下,彭博社則披露了一條引人注目的消息。

OpenAI計劃在明年一月份推出一款名為「Operator」的AI Agent(智能體),這個Agent能夠使用計算機代替用戶執行任務,如編寫代碼或預訂旅行。

在此之前,Anthropic、微軟、Google也都被曝出正在佈局類似的方向。

對於整個AI行業來說,AI技術的發展從來就不是單一維度的線性過程。當一個方向似乎遇到阻力時,創新往往會在其他維度突破。

Scaling Laws撞牆?下一步該怎麼走

Scaling Laws遭遇瓶頸的消息,最先源自外媒The Information上週末的一篇報導。

洋洋灑灑的數千字報導透露了兩個關鍵信息。

好消息是,儘管OpenAI完成了下一代模型Orion訓練過程的20%,但Altman表示,Orion在智能和執行任務、回答問題的能力已經與GPT-4不相上下。

壞消息是,據上手體驗的OpenAI員工評估,與GPT-3和GPT-4之間的巨大進步相比,Orion提升幅度較小,比如在編程等任務上表現不佳,且運行成本較高。

一句話概括就是,Scaling Laws撞牆了。

要理解Scaling Laws效果不及預期所帶來的影響,我們有必要給不太清楚的朋友簡單介紹一下Scaling Laws基本概念。

2020年,OpenAI在一篇論文中最早提出Scaling Laws。

這一理論指出,大模型的最終性能主要與計算量、模型參數量和訓練數據量三者的大小相關,而與模型的具體結構(層數/深度/寬度)基本無關。

聽著有些拗口,說人話就是,大模型的性能會隨著模型規模、訓練數據量和計算資源的增加而相應提升。

OpenAI的這項研究奠定了後續大模型發展的基礎,不僅促成了GPT系列模型的成功,也為訓練ChatGPT提供了優化模型設計與訓練的關鍵指導原則。

只是,當我們現在還在暢想著GPT-100時,The Information的爆料表明,僅僅增加模型規模已經不能保證性能的線性提升,且伴隨著高昂成本和顯著的邊際效益遞減。

而遭遇困境的並非僅有OpenAI一家。

彭博社援引知情人士的消息稱,Google旗下的Gemini 2.0同樣未能達到預期目標,與此同時,Anthropic旗下的Claude 3.5 Opus的發佈時間也一再推遲。

在爭分奪秒的AI行業,沒有產品的新消息往往意味著最大的壞消息。

需要明確的是,這裏所說的Scaling Laws遇到瓶頸並非意味著大模型發展就此終結,更深層的問題在於高昂成本導致邊際效益的嚴重遞減。

Anthropic CEO Dario Amodei曾透露,隨著模型變得越來越大,訓練成本呈現爆炸式增長,其目前正在開發的AI模型的訓練成本就高達10億美元。

Amodei還指出,未來三年內,AI的訓練成本還將飆升到100億美元甚至1000億美元。

以GPT系列為例,僅GPT-3的單次訓練成本就高達約140萬美元,單是GPT-3的訓練就消耗了1287兆瓦時的電力。

去年,加州大學河濱分校的研究顯示,ChatGPT每與用戶交流25-50個問題,就得消耗500毫升的水。

預計到2027年,全球AI的年度清潔淡水需求量可能達到4.2-66億立方米,相當於4-6個丹麥或半個英國的年度用水總量。

從GPT-2到GPT-3,再到GPT-4,AI所帶來的體驗提升是跨越式的。正是基於這種顯著的進步,各大公司才會不惜重金投入AI領域。

但當這條道路逐漸顯露盡頭,單純追求模型規模的擴張已無法保證性能的顯著提升,高昂的成本與遞減的邊際效益便成了不得不面對的現實。

現在,比起一味追求規模,在正確的方向上實現Scaling顯得更加重要。

再見,GPT;你好,推理「O」

牆倒眾人推,連理論也是如此。

當Scaling Laws疑似觸及瓶頸的消息在AI圈內引發軒然大波時,質疑的聲浪也隨之翻湧而來。

圖靈獎得主、Meta AI首席科學家Yann Lecun,昨天興奮地在X平台轉載了路透社採訪Ilya Sutskever的採訪,並附文稱:

「我不想顯得事後諸葛亮,但我的確提醒過你。

引用:「AI實驗室Safe Superintelligence(SSI)和OpenAI的聯合創始人伊利亞·蘇茨克韋爾(Ilya Sutskever)最近向路透社表示,通過擴大預訓練階段——即使用大量未經標註的數據來訓練AI模型,使其理解語言模式和結構——所取得的成果已經停滯不前。

回顧這位AI巨頭過去兩年對現行大模型路線的評判,可謂是字字珠璣,句句見血。

例如,今天的AI比貓還笨,智力差太遠;LLM缺乏對物理世界的直接經驗,只是操縱著文字和圖像,卻沒有真正理解世界,強行走下去只會死路一條等等。

時間撥回兩個月前,Yann Lecun更是毫不客氣地給當下主流路線判了死刑:

  • 大型語言模型(LLMs)無法回答其訓練數據中未包含的問題;

  • 它們無法解決未經訓練的難題;

  • 它們無法在缺乏大量人類幫助的情況下學習新技能或知識;

  • 它們無法創造新的事物。目前,大型語言模型只是人工智能技術的一部分。單純地擴大這些模型的規模,並不能使它們具備上述能力。

在一眾AI末日論中,他還堅定地認為聲稱AI將威脅人類生存的言論純屬無稽之談。

同在Meta FAIR任職的田淵棟博士則更早預見了當前的困境。

5月份在接受媒體採訪時,這位華人科學家曾悲觀地表示,Scaling Laws也許是對的,但不會是全部。在他看來,Scaling Laws的本質是以指數級的數據增長,來換取「幾個點的收益」。

最終人類世界可能會有很多長尾需求,需要人類的快速反應能力去解決,這些場景的數據本身也很少,LLM拿不到。

Scaling law發展到最後,可能每個人都站在一個「數據孤島」上,孤島里的數據完全屬於每個人自己,而且每時每刻都不停產生。

專家學會和AI融合,把自己變得非常強,AI也代替不了他。

不過,形勢或許還沒有到如此悲觀的境地。

客觀而言,Ilya在接受路透社的採訪時,雖然承認了Scaling Laws帶來的進展已趨於停滯,但並未宣告其終結。

「2010年代是追求規模化的時代,而現在我們再次進入了一個充滿奇蹟和探索的新時代。每個人都在尋找下一個重大突破。

在當下,選擇正確的事物進行規模化比以往任何時候都更為關鍵。」

並且,Ilya還表示SSI正在秘密探索一種新的方法來擴展預訓練過程。

Dario Amodei最近在一檔播客中也談及此事。

他預測,在人類水平以下,模型並不存在絕對的天花板。既然模型尚未達到人類水平,就還不能斷言Scaling Laws已經失效,只是確實出現了增長放緩的現象。

自古,山不轉水轉,水不轉人轉。

上個月,OpenAI的研究員Noam Brown在TED AI大會上表示:

事實證明,在一局撲克中,讓一個機器人思考20秒鍾,得到的性能提升與將模型擴展100000倍並訓練它100000倍長的時間一樣。

而對於Yann lecun昨天的事後諸葛亮言論,他這樣回應:

現在,我們處於一個這樣的世界,正如我之前所說,進入大規模語言模型預訓練所需的計算量非常非常高。但推理成本卻非常低。

曾有許多人合理地擔心,隨著預訓練所需的成本和數據量變得如此龐大,我們會看到AI進展的回報遞減。

但我認為,從o1中得到的一個真正重要的啟示是,這道牆並不存在,我們實際上可以進一步推動這個進程。

因為現在,我們可以擴展推理計算,而且推理計算還有巨大的擴展空間。

以Noam Brown為代表的研究者堅信推理/測試時計算(test-time compute),極有可能成為提升模型性能的另一個靈丹妙藥。

說到這裏,就不得不提到我們熟悉的OpenAI o1模型。

與人類的推理方式頗為相似,o1模型能夠通過多步推理的方式「思考」問題,它強調在推理階段賦予模型更充裕的「思考時間」。

其核心秘密是,在像GPT-4這樣的基礎模型上進行的額外訓練。

例如,模型可以通過實時生成和評估多個可能的答案,而不是立即選擇單一答案,最終選擇最佳的前進路徑。

這樣就能夠將更多的計算資源集中在複雜任務上,比如數學問題、編程難題,或者那些需要人類般推理和決策的複雜操作。

Google最近也在效仿這條路線。

The Information報導稱,最近幾週,DeepMind在其Gemini部門內組建了一個團隊,由Jack Rae和Noam Shazeer領導,旨在開發類似的能力。

與此同時,不甘落後的Google正在嘗試新的技術路徑,包括調整「超參數」,即決定模型如何處理信息的變量。

比如它在訓練數據中的不同概念或模式之間建立聯繫的速度,以查看哪些變量會帶來最佳結果。

插個題外話,GPT發展放緩的一個重要原因是高質量文本和其他可用數據的匱乏。

而針對這個問題,Google研究人員原本寄希望於使用AI合成數據,並將音頻和影片納入Gemini的訓練數據,以實現顯著改進,但這些嘗試似乎收效甚微。

知情人士還透露,OpenAI和其他開發者也使用合成數據。不過,他們也發現,合成數據對AI模型提升的效果十分有限。

你好,賈維斯

再見,GPT,你好,推理「o」。

在前不久舉行的Reddit AMA活動上,一位網民向Altman提問,是否會推出「GPT-5」,以及推理模型o1的完整版。

當時,Altman回答道:「我們正在優先推出o1及其後續版本」,並補充說,有限的計算資源使得同時推出多個產品變得困難。

他還特別強調,下一代模型未必會延續「GPT」的命名方式。

現在看來,Altman急於與GPT命名體系劃清界限,轉而推出以「o」命名的推理模型,其背後似有深意。而推理模型的佈局或許還是在於為當下主流的Agent埋下伏筆。

最近,Altman在接受YC總裁Garry Tan的採訪時,也再次談到了AGI五級理論:

  • L1:聊天機器人具有對話能力的AI,能夠與用戶進行流暢的對話,提供信息、解答問題、輔助創作等,比如聊天機器人。

  • L2:推理者像人類一樣能夠解決問題的AI,能夠解決類似於人類博士水平的複雜問題,展現出強大的推理和問題解決能力,比如OpenAI o1。

  • L3:智能體不僅能思考,還可以採取行動的AI系統,能夠執行全自動化業務。

  • L4:創新者能夠協助發明創造的AI,具有創新的能力,可以輔助人類在科學發現、藝術創作或工程設計等領域產生新想法和解決方案。

  • L5:組織者可以完成組織工作的AI,能夠自動掌控整個組織跨業務流程的規劃、執行、反饋、迭代、資源分配、管理等,基本上已經與人類差不多。

所以我們看到,與Google以及Anthropic一樣,OpenAI現在正在將注意力從模型轉移到一系列稱為Agent的AI工具上。

今天淩晨,彭博社曝出,OpenAI正在準備推出一款名為「Operator」的新型AI Agent,能夠使用計算機代替用戶執行任務,如編寫代碼或預訂旅行。

在週三的一次員工會議上,OpenAI領導層宣佈計劃在一月發佈該工具的研究預覽版,並通過公司的應用程序接口(API)向開發者開放。

在此之前,Anthropic也推出了類似的Agent,能夠實時處理用戶計算機任務並代為執行操作。與此同時,微軟近期推出了一套面向員工的Agent工具,用於發送郵件和管理記錄。

而Google也正在籌備推出自己的AI Agent。

報導還透露,OpenAI正在進行多個與Agent相關的研究項目。其中,最接近完成的是一款能夠在網頁瀏覽器中執行任務的通用工具。

這些Agent預計將能夠理解、推理、規劃並採取行動,而這些Agent實際上是一個由多個AI模型組成的系統,並非單一模型。

比爾·蓋茨曾經說過,「每個桌面上都有一台PC」,史提芬·祖比斯說過,「每個人的手上都有一部智能手機」。

現在我們可以大膽預測:每個人都將擁有自己的AI Agent。

當然,人類的終極目標是,我們更希望有一天能夠對著眼前的AI說出那句電影的經典對白:

你好,賈維斯