科技

OpenAI最新產品全曝光，秘密尋找下一個重大突破

11月14日 19:2611月14日 19:40 新浪網 tech-auto-hilite

今年AI圈的瓜真是一浪接一浪。

最近，關於Scaling Laws「撞牆」的消息在AI圈炸開了鍋。圖靈獎得主Yann Lecun、Ilya、Anthropic創始人Dario Amodei紛紛展開唇槍舌戰。

爭論的核心在於，隨著模型規模的不斷擴大，其性能提升是否會遇到天花板。

正當輿論愈演愈烈之際，OpenAI CEO Sam Altman剛剛在X平台作出回應：

there is no wall沒有牆

而在這場辯論的背景下，彭博社則披露了一條引人注目的消息。

OpenAI計劃在明年一月份推出一款名為「Operator」的AI Agent（智能體），這個Agent能夠使用計算機代替用戶執行任務，如編寫代碼或預訂旅行。

在此之前，Anthropic、微軟、Google也都被曝出正在佈局類似的方向。

對於整個AI行業來說，AI技術的發展從來就不是單一維度的線性過程。當一個方向似乎遇到阻力時，創新往往會在其他維度突破。

Scaling Laws撞牆？下一步該怎麼走

Scaling Laws遭遇瓶頸的消息，最先源自外媒The Information上週末的一篇報導。

洋洋灑灑的數千字報導透露了兩個關鍵信息。

好消息是，儘管OpenAI完成了下一代模型Orion訓練過程的20%，但Altman表示，Orion在智能和執行任務、回答問題的能力已經與GPT-4不相上下。

壞消息是，據上手體驗的OpenAI員工評估，與GPT-3和GPT-4之間的巨大進步相比，Orion提升幅度較小，比如在編程等任務上表現不佳，且運行成本較高。

一句話概括就是，Scaling Laws撞牆了。

要理解Scaling Laws效果不及預期所帶來的影響，我們有必要給不太清楚的朋友簡單介紹一下Scaling Laws基本概念。

2020年，OpenAI在一篇論文中最早提出Scaling Laws。

這一理論指出，大模型的最終性能主要與計算量、模型參數量和訓練數據量三者的大小相關，而與模型的具體結構（層數/深度/寬度）基本無關。

聽著有些拗口，說人話就是，大模型的性能會隨著模型規模、訓練數據量和計算資源的增加而相應提升。

OpenAI的這項研究奠定了後續大模型發展的基礎，不僅促成了GPT系列模型的成功，也為訓練ChatGPT提供了優化模型設計與訓練的關鍵指導原則。

只是，當我們現在還在暢想著GPT-100時，The Information的爆料表明，僅僅增加模型規模已經不能保證性能的線性提升，且伴隨著高昂成本和顯著的邊際效益遞減。

而遭遇困境的並非僅有OpenAI一家。

彭博社援引知情人士的消息稱，Google旗下的Gemini 2.0同樣未能達到預期目標，與此同時，Anthropic旗下的Claude 3.5 Opus的發佈時間也一再推遲。

在爭分奪秒的AI行業，沒有產品的新消息往往意味著最大的壞消息。

需要明確的是，這裏所說的Scaling Laws遇到瓶頸並非意味著大模型發展就此終結，更深層的問題在於高昂成本導致邊際效益的嚴重遞減。

Anthropic CEO Dario Amodei曾透露，隨著模型變得越來越大，訓練成本呈現爆炸式增長，其目前正在開發的AI模型的訓練成本就高達10億美元。

Amodei還指出，未來三年內，AI的訓練成本還將飆升到100億美元甚至1000億美元。

以GPT系列為例，僅GPT-3的單次訓練成本就高達約140萬美元，單是GPT-3的訓練就消耗了1287兆瓦時的電力。

去年，加州大學河濱分校的研究顯示，ChatGPT每與用戶交流25-50個問題，就得消耗500毫升的水。

預計到2027年，全球AI的年度清潔淡水需求量可能達到4.2-66億立方米，相當於4-6個丹麥或半個英國的年度用水總量。

從GPT-2到GPT-3，再到GPT-4，AI所帶來的體驗提升是跨越式的。正是基於這種顯著的進步，各大公司才會不惜重金投入AI領域。

但當這條道路逐漸顯露盡頭，單純追求模型規模的擴張已無法保證性能的顯著提升，高昂的成本與遞減的邊際效益便成了不得不面對的現實。

現在，比起一味追求規模，在正確的方向上實現Scaling顯得更加重要。

再見，GPT；你好，推理「O」

牆倒眾人推，連理論也是如此。

當Scaling Laws疑似觸及瓶頸的消息在AI圈內引發軒然大波時，質疑的聲浪也隨之翻湧而來。

圖靈獎得主、Meta AI首席科學家Yann Lecun，昨天興奮地在X平台轉載了路透社採訪Ilya Sutskever的採訪，並附文稱：

「我不想顯得事後諸葛亮，但我的確提醒過你。

引用：「AI實驗室Safe Superintelligence（SSI）和OpenAI的聯合創始人伊利亞·蘇茨克韋爾（Ilya Sutskever）最近向路透社表示，通過擴大預訓練階段——即使用大量未經標註的數據來訓練AI模型，使其理解語言模式和結構——所取得的成果已經停滯不前。」

回顧這位AI巨頭過去兩年對現行大模型路線的評判，可謂是字字珠璣，句句見血。

例如，今天的AI比貓還笨，智力差太遠；LLM缺乏對物理世界的直接經驗，只是操縱著文字和圖像，卻沒有真正理解世界，強行走下去只會死路一條等等。

時間撥回兩個月前，Yann Lecun更是毫不客氣地給當下主流路線判了死刑：

大型語言模型（LLMs）無法回答其訓練數據中未包含的問題；

它們無法解決未經訓練的難題；

它們無法在缺乏大量人類幫助的情況下學習新技能或知識；

它們無法創造新的事物。目前，大型語言模型只是人工智能技術的一部分。單純地擴大這些模型的規模，並不能使它們具備上述能力。

在一眾AI末日論中，他還堅定地認為聲稱AI將威脅人類生存的言論純屬無稽之談。

同在Meta FAIR任職的田淵棟博士則更早預見了當前的困境。

5月份在接受媒體採訪時，這位華人科學家曾悲觀地表示，Scaling Laws也許是對的，但不會是全部。在他看來，Scaling Laws的本質是以指數級的數據增長，來換取「幾個點的收益」。

最終人類世界可能會有很多長尾需求，需要人類的快速反應能力去解決，這些場景的數據本身也很少，LLM拿不到。

Scaling law發展到最後，可能每個人都站在一個「數據孤島」上，孤島里的數據完全屬於每個人自己，而且每時每刻都不停產生。

專家學會和AI融合，把自己變得非常強，AI也代替不了他。

不過，形勢或許還沒有到如此悲觀的境地。

客觀而言，Ilya在接受路透社的採訪時，雖然承認了Scaling Laws帶來的進展已趨於停滯，但並未宣告其終結。

「2010年代是追求規模化的時代，而現在我們再次進入了一個充滿奇蹟和探索的新時代。每個人都在尋找下一個重大突破。

在當下，選擇正確的事物進行規模化比以往任何時候都更為關鍵。」

並且，Ilya還表示SSI正在秘密探索一種新的方法來擴展預訓練過程。

Dario Amodei最近在一檔播客中也談及此事。

他預測，在人類水平以下，模型並不存在絕對的天花板。既然模型尚未達到人類水平，就還不能斷言Scaling Laws已經失效，只是確實出現了增長放緩的現象。

自古，山不轉水轉，水不轉人轉。

上個月，OpenAI的研究員Noam Brown在TED AI大會上表示：

事實證明，在一局撲克中，讓一個機器人思考20秒鍾，得到的性能提升與將模型擴展100000倍並訓練它100000倍長的時間一樣。

而對於Yann lecun昨天的事後諸葛亮言論，他這樣回應：

現在，我們處於一個這樣的世界，正如我之前所說，進入大規模語言模型預訓練所需的計算量非常非常高。但推理成本卻非常低。

曾有許多人合理地擔心，隨著預訓練所需的成本和數據量變得如此龐大，我們會看到AI進展的回報遞減。

但我認為，從o1中得到的一個真正重要的啟示是，這道牆並不存在，我們實際上可以進一步推動這個進程。

因為現在，我們可以擴展推理計算，而且推理計算還有巨大的擴展空間。

以Noam Brown為代表的研究者堅信推理/測試時計算（test-time compute），極有可能成為提升模型性能的另一個靈丹妙藥。

說到這裏，就不得不提到我們熟悉的OpenAI o1模型。

與人類的推理方式頗為相似，o1模型能夠通過多步推理的方式「思考」問題，它強調在推理階段賦予模型更充裕的「思考時間」。

其核心秘密是，在像GPT-4這樣的基礎模型上進行的額外訓練。

例如，模型可以通過實時生成和評估多個可能的答案，而不是立即選擇單一答案，最終選擇最佳的前進路徑。

這樣就能夠將更多的計算資源集中在複雜任務上，比如數學問題、編程難題，或者那些需要人類般推理和決策的複雜操作。