Ilya 認錯,Scaling Law 崩了?自曝 SSI 秘密技術路線取代 OpenAI

【導讀】Ilya終於承認,自己關於Scaling的說法錯了!現在訓練模型已經不是「越大越好」,而是找出Scaling的對象究竟應該是什麼。他自曝,SSI在用全新方法擴展預訓練。而各方巨頭改變訓練範式後,英偉達GPU的壟斷地位或許也要打破了。

就在剛剛,路透社也發文表示,由於當前方法受到限制,OpenAI和其他公司正在尋求通向更智能AI的新途徑。

有趣的是,昨天拱火的The Information,今天又急忙發出一篇文章來滅火。

他們強調,昨天的文章只是在說改進大模型必須找到新方法,並不是說Scaling Law已經終結。

但一個不爭的事實就是:矽谷幾大主要AI實驗室正在陷入困境。訓練這些大規模的LLM動輒需要花費數千萬美元,但複雜系統還經常崩潰。往往需要數月時間,才知道模型能否按預期工作。

比起GPT-4o,Orion幾乎沒有任何改進;Google的Gemini 2.0,被曝也存在同樣問題;Anthropic據傳也已暫停Opus 3.5模型的工作。

據悉,Google正準備在12月推出最新的Gemini 2.0,它可能無法實現DeepMind創始人Demis Hassabis團隊預期的顯著性能改進,但會引入一些有趣的新功能

Anthropic首席執行官Dario Amodei 表示,「我們的目標是改變曲線,然後在某個時候成為Opus 3.5」Anthropic首席執行官Dario Amodei 表示,「我們的目標是改變曲線,然後在某個時候成為Opus 3.5」

而離職創業的OpenAI元老Ilya Sutskever則表示,現在重要的是「擴大正確的規模」。

「2010年代是scaling的時代,現在,我們再次回到了奇蹟和發現的時代。每個人都在尋找下一個奇蹟。」

對經營著自己的AI實驗室SSI的Ilya來說,這是一個很大的改變。

曾經在推動OpenAI的GPT模型時,他的準則是「越大越好」。但在SSI的最近一輪融資中,Ilya開始希望嘗試一種與OpenAI不同的Scaling方法。

Scaling Law大家都說得夠多了。但有一個問題,卻被每個人都忽略了——我們說scaling的時候,究竟在scaling什麼?

如今,Ilya拋出了這個振聾發聵的疑問。

Scaling正確的東西,比以往任何時候都更重要

畢竟,超大規模語言模型的ROI實在太低了。

雖然在GPT-4發佈後,各大AI實驗室的研究人員都競相追趕,發佈了超過GPT-4的大模型,但他們更多的感覺是失望。

因為要同時運行數百個芯片,這種超大參數模型的訓練可能要花費數千萬美元,系統太複雜還可能會出現硬件故障。但只有經過數月,等到運行結束後,研究人員才能知道模型的最終性能。

另一個問題,就是LLM吞噬了大量數據,而世界上易於獲取的數據,幾乎已經被耗盡了!

同時,由於過程中需要大量能源,電力短缺也成為訓練AI的嚴重阻礙。

論文題目:「The Unseen AI Disruptions for Power Grids: LLM-Induced Transients」

替代Scaling的新方法,Ilya已經有了?

面對這種種現狀,Ilya最近在路透社的採訪中表示,擴展訓練的結果,已經趨於平穩。

也就是說,用大量未標記數據來理解語言模式和結構的訓練階段到頭了。

以前,Ilya是暴力scaling的早期倡導者之一,那時有一種想法廣泛認為,通過在預訓練中使用更多的數據和算力,能讓AI模型的性能暴漲。

OpenAI團隊2020年提交的arXiv論文中最先提出這一概念:LLM性能與計算量、參數量、數據量三者呈現冪律關係OpenAI團隊2020年提交的arXiv論文中最先提出這一概念:LLM性能與計算量、參數量、數據量三者呈現冪律關係

的確,沿著這條路線,最終ChatGPT誕生了。

ChatGPT發佈後,從AI熱潮中受益頗多的科技公司都公開聲稱,這種通過增加數據和算力來「scale up」的方法,能顯著改善模型性能。

可是現在,Scaling Law已經碰壁了!越來越多的AI科學家,對於這種「越大越好」(bigger is better)的哲學產生了質疑。

2010年代屬於Scaling,但大模型要繼續發展下去,需要一個新的奇蹟。

Ilya的SSI團隊是否找到了呢?

對此,Ilya拒絕透露,只是表示,SSI正在研究一種全新的替代方法,來擴展預訓練。

再領先三步?OpenAI破局新方法:測試時計算

同時,OpenAI彷彿也找到了新方法——通過開發使用更類人思維的算法訓練技術,或許就能克服在追求更大規模LLM過程中遇到的意外延遲和挑戰。

已經有十幾位AI科學家、研究人員和投資者告訴路透社,他們認為正是這些技術,推動了OpenAI最近發佈的o1模型。

而它們,可能會重塑AI競賽的格局,讓AI公司們不再對能源和芯片資源產生無限制的需求。

有沒有這麼一種新方法,讓AI模型既能擺脫對數據的依賴,又不再需要動輒吞噬整個國家乃至全球的電力?

為了克服這些挑戰,研究人員正在探索一項「測試時計算」的技術。

上圖即是OpenAI解釋o1的博文,x軸標記為「訓練時計算」和「測試時計算」。

左圖是OpenAI發現的Scaling Law,意味著在模型上投入更多訓練時間(GPU週期)時,我們可以獲得更好的結果。

右圖則暗示了我們尚未觸及的一套全新的Scaling Law。「測試時計算」意味著,給模型更多的「思考時間」(GPU週期)時,它會思考出更好的結果。

測試時計算技術,能在推理階段(模型被使用時)就將模型增強,比如,模型可以實時生成和評估多種可能性,而不是理解選擇單一答案。最終,模型就可以選擇出最佳路徑。

這種方法可以允許模型將更多的處理能力,用於數學、編碼問題等具有挑戰性的任務,或者需要類人推理和決策的複雜操作。

傳統的Scaling Law,專注於用更長時間訓練大模型,但如今o1系列模型scaling有了兩個維度——訓練時間和測試(推理)時間

早在上個月的舊金山TED AI會議上,曾參與o1開發的OpenAI研究員Noam Brown就提出——

事實證明,讓一個機器人在一局撲克中思考僅20秒,其性能提升與將模型規模擴大10萬倍並訓練10萬倍時間相同。

o1模型以前曾被稱為「Q*」和「Strawberry」。現在,它能夠以多步驟方法思考問題,類似於人類推理。

現在,模型不再受限於預訓練階段,還可以通過增加推理計算資源,來提升表現現在,模型不再受限於預訓練階段,還可以通過增加推理計算資源,來提升表現

而且,它還涉及了來自博士和行業專家策劃的數據和反饋。

o1系列的秘密武器,是在GPT-4等基礎模型上進行的另一套訓練,OpenAI還計劃,將這種技術應用於更多更大的基礎模型。

OpenAI的首席產品官Kevin Well在十月的一次科技會議表示——

我們看到很多可以快速改進這些模型的機會,而且非常簡單。到人們趕上來的時候,我們會嘗試再領先三步。

通過思維鏈提示,o1模型可以經過訓練生成長長的輸出,並通過答案進行推理通過思維鏈提示,o1模型可以經過訓練生成長長的輸出,並通過答案進行推理

全球頂尖AI實驗室開卷,英偉達壟斷地位有望打破?

OpenAI說要領先三步,其他頂尖AI實驗室豈甘落後?

據知情人士透露,來自Anthropic、xAI和GoogleDeepMind的研究人員,也已經奮力開捲了!

比如Meta最近提出了「思維偏好優化」TPO,這種方法旨在教會LLM在回答一般任務(而不僅僅是數學或邏輯問題)之前「思考」,而不需要特殊的訓練數據。

論文地址:https://arxiv.org/pdf/2410.10630論文地址:https://arxiv.org/pdf/2410.10630

而Google也在開發一種新模型,同樣使用CoT方法解決多步驟問題、生成多個答案,評估後選擇最佳答案。

這個過程同樣可以通過在推理中使用更多算力來增強,而非僅僅增加訓練數據和算力,這就為擴展AI模型開闢了一條新道路。

論文地址:https://arxiv.org/pdf/2408.03314論文地址:https://arxiv.org/pdf/2408.03314

這會導致什麼後果?

很有可能,對英偉達GPU巨大需求主導的AI硬件競爭格局,將從此改變。

這是因為,通過增加訓練時間和測試(推理)時間,可能會獲得更好的結果,模型就不再需要那麼大的參數。

而訓練和運行較小模型會更便宜,因此,在給定固定計算量的情況下,我們可能會突然從小模型中獲得更多收益。

突然之間,模型參數、訓練時間和測試時間計算之間的關係變得複雜了,也就讓我們看到了下一代GPU的可能。

比如Groq這樣的公司,恰巧就在為這類任務製造專門的芯片。

紅杉資本和A16z在內的著名風投機構,如今已經投入了數十億美元,資助OpenAI、xAI等多家AI實驗室的開發。

他們不可能不注意到最近圈內盛傳的Scaling Law碰壁事件,而重新考慮自己的昂貴投資是否會打水漂。

紅杉資本合夥人Sonya Huang表示,這種轉變,將使我們從大規模預訓練集群轉向推理雲,即分佈式的、基於雲的推理服務器。

大模型熱以來,對英偉達尖端AI芯片的需求,已經讓它崛起為全球最有價值的公司,並且市值超越了蘋果。

今年以來,英偉達股價上漲了約186%,而蘋果僅上漲了17%今年以來,英偉達股價上漲了約186%,而蘋果僅上漲了17%

雖然在訓練芯片的市場,英偉達已經佔據主導地位,但它在推理市場,可能還會面臨更多競爭。

而o1模型背後的技術,意味著對推理芯片的需求也會隨著增加。

「我們現在發現了第二個Scaling Law,這是在推理階段的Scaling Law……所有這些因素導致對Blackwell的需求非常高。」

在英偉達GTC大會上,黃仁勳也講到,如果要訓練一個1.8萬億參數量的GPT模型,需要8000張H100 GPU,消耗15兆瓦的電力,連續跑上90天

隨著Scaling Law碰壁,各大公司紛紛開啟新路線,英偉達是否還會繼續坐火箭般的輝煌呢?

再見,GPT。你好,推理「o」

The Information今天的解釋文章,標題意味深長:《再見,GPT。你好,推理「o」》。

文章內容是這樣的。

月初,一位Reddit用戶曾在QA中問道,OpenAI的下一代旗艦大語言模型何時發佈。

對此,Altman回答說:「今年晚些時候,我們會發佈一些非常不錯的產品,但並不會叫做GPT-5。」隨後他又補充道,有限的計算資源意味著很難同時推出過多的項目。

當時我們並未多想。

但如今,我們更能理解Altman的評論了——以及他為何專注於推出o系列推理模型,而非另一版本的GPT 。

所謂GPT,即生成式預訓練Transformer模型,是ChatGPT和大多數其他生成式人工智能產品的基石。

原因正如之前報導的那樣,GPT的改進速度正在放緩。

2023年初登場的上一代旗艦級模型GPT-4,憑藉著巨大的性能提升在科技行業引發了轟動。

Orion比GPT-4更好,但其質量提升與GPT-3和GPT-4之間的差距相比略顯遜色。甚至,可能會讓OpenAI放棄自2018年推出GPT-1起使用的「GPT」命名慣例。

因此,當Altman寫道「o1及其後續版本」時,可能意味著Orion將與推理融合併被命名為「o2」。

隨著一種Scaling Law的消退,另一種定律取而代之

讓我們回到GPT發展放緩這個問題上。

傳統的Scaling Law不僅僅意味著在大語言模型訓練過程中需要更多的數據和計算能力才能獲得更好的結果。OpenAI的研究人員還做了各種其他有趣的事情,才使得GPT-4比GPT-3有了大幅提升。比如,引入被稱為模型稀疏性的概念。

隨著推理範式的出現,預訓練改進的放緩便可以得到彌補——從本質上講,它可能代表了一種新的Scaling Law。

OpenAI一再表示,推理模型的性能在回答問題前有更多時間思考時會變得更好,這被稱為對數線性計算擴展。

那麼,這些變化是否意味著OpenAI的1000億美元超級計算集群的夢想正在消退呢?對於這個問題,可以肯定的是,所有主流的AI開發者都在全速推進極其昂貴的集群建設。

一方面是,大型集群上可以更好地在預訓練後改進這些模型、在後訓練階段處理強化學習以及更新或微調模型。

另一方面是,即便預訓練模型的改進速度放緩,但只要自己能訓出比競爭對手略好的模型,就值得增加數據中心投入。畢竟,LLM越好,將推理模型融入模型後獲得的結果就越好。

最後,如果GPT的發展沒有加速,是不是就意味著末日論者錯了——AI不會進入所謂的遞歸自我改進循環,在這個循環中,AI會一次又一次地找出如何製造下一個更好版本的自己(然後也許會征服我們所有人)?

對此,Marc Andreessen認為,這種明顯的平台期,意味著這樣的恐懼目前看來是沒有根據的。