DeepAI CEO:大模型競爭的本質,已從算力競爭變成效率競爭丨T-EDGE

作者|饒翔宇

編輯|鍾毅

本文正選於鈦媒體APP

過去一年,大模型行業幾乎每個月都在發生變化。

按照李開複的說法,從GPT-4、Turbo、4o到o1,大模型的推理成本一年下降了10倍左右。整個行業在以1年10倍的速度,實現推理速度變快和推理成本下降。但另一方面,由於世界上數據總量有限,基礎大模型Scaling Law法則也開始面臨挑戰——隨著算力不斷疊加,大模型向前推進的速度反而變得越來越緩慢。

12月6日,2024T-EDGE創新大會暨鈦媒體財經年會在北京市大興區舉辦,大會現場,DeepAI CEO Kevin Baragona針對於這一行業困境,給出了他的最新看法。

DeepAI CEO Kevin BaragonaDeepAI CEO Kevin Baragona

公開資料顯示,DeepAI是一家美國領先的生成式AI供應商之一。該公司旗下主要的AI工具,包括文生圖、文生影片、音樂創作和開發人員 API等。該公司的使命是讓個人創作者和企業都能使用先進的AI功能,使他們能夠將人工智能用於各種創意和實用應用。

「過去,AI是一個讓人很羞愧的詞,因為在長達數十年的時間里,AI都沒有任何特別的進展,AI開發者就像小醜一樣。但在2024年,我們已經處於AI的黃金時代,每個月都會看到巨大的進展。」

Kevin Baragona表示,推動這一切發生的最大動力,是計算成本的大幅下降。對於整個AI來說,已經沒有秘密可言。「你只需要不斷地購買算力和數據,然後進行大規模的實驗,AI的性能就能實現不斷優化。」

但是,隨著算力和數據的不斷增加,AI行業開始發現一個問題——大語言模型進展開始變得越來越緩慢。

「大語言模型的進展,是已經到達頂峰了或者已經停止了嗎?我認為可能還沒有停止,但確實是有所放緩。」

Kevin Baragona稱,「放緩「的最本質原因就是,現實世界的數據總歸是有限的,現在可以用於大模型訓練的數據,確實已經快用完了。所以,人類需要尋找新的架構來替代之前的架構。

按照Kevin Baragona的說法,DeepAI找到的可行性路徑,就是回到模型架構本身的優化上,去優化模型的推理架構。在這一路徑下,大模型一開始的推理時間、數據訓練和測試時間的都會更長,但是模型對於數據量的要求會大幅降低。隨著推理模型各個步驟的優化,推理速度將會加快,AI性能也會變得更強。

「在全新的架構下,算力將會變得越來越廉價,但AI性能可能達到難以想像的結果。」Kevin Baragona總結道,大模型競爭的本質,已經從算力競爭變成了效率競爭。

以下是Kevin Baragona演講的部分摘錄,編譯和整理:

大家好,我是 Kevin,我創立了一家名為 DeepAI 的生成式人工智能公司,公司坐落於美國加利福尼亞州。在人工智能領域,我們是美國領先的生成式 AI 供應商之一,我們提供了諸如聊天機器人、圖像生成器、影片生成器等一系列非常出色的工具。目前,我們在美國已經取得了相當不錯的市場份額,並且我們滿懷熱情,期望能夠持續拓展業務,為廣大用戶帶來更多令人驚喜的產品。

可以毫不誇張地說,如今的 2024 年,我們正處於人工智能的黃金時期。在這個時代,每年甚至每個月,我們都能目睹人工智能領域以驚人的速度取得令人難以置信的進步,這無疑是一個令人振奮且充滿無限可能的時代。然而,回首過往,人工智能的發展之路並非一帆風順,我們經歷了漫長的探索與積累,才得以抵達今天的高度。

就拿圖像生成技術來說,當我們公司剛剛起步時,那時候的圖像生成效果與現在相比簡直是天壤之別。當時,我們或許是世界上率先推出圖像生成器的公司之一,用戶在輸入一段文字提示後,得到的圖像往往是模糊不清、缺乏連貫性的。儘管如此,我依然對這項技術滿懷熱忱,甚至可以說,我長期以來一直對圖像生成器抱有濃厚的興趣與癡迷。

而到了今天,當我們再次輸入相同的文字提示時,所生成的圖像質量已經有了質的飛躍,幾乎能夠達到攝影作品般的清晰度與真實性。不僅如此,我們還能夠借助人工智能生成許多現實中並不存在的奇幻圖像。就像我所展示的這個例子,輸入特定的提示後,人工智能能夠根據訓練數據中關於城堡、卡通人物以及茶杯等元素的理解,創造出從未有人要求過的「城堡泡茶」的獨特圖像。

這一過程充分體現了人工智能的泛化能力,它能夠深入理解訓練數據背後的真實含義,並以創新的方式將這些元素組合起來,從而生成全新的、富有創意的圖像。從技術層面來看,這無疑是人工智能強大實力的有力證明,也可以說是人工智能領域一直追求的目標之一,宛如探索過程中的「聖盃」。

從最初的靜態圖像開始,我們利用圖像轉影片模型,成功地讓圖像動了起來。雖然這個影片看起來可能有些許不連貫、略顯怪異,但它卻生動地展示了在 2024 年,人工智能在圖像與影片處理領域所取得的巨大突破與可能性,即使到了現在,我每次看到這樣的成果,依然會感到無比興奮。這一切都是我們借助公司自主研發的影片生成器產品實現的。

然而,回顧人工智能的發展歷程,它並非一直如此風光無限。曾經,人工智能領域經歷了一段漫長而艱難的「寒冬期」,在那長達數十年的時間里,整個行業幾乎陷入了停滯狀態,幾乎沒有取得任何實質性的進展,這無疑是一段令人倍感沮喪的歷史時期。

在那個時候,神經網絡以及深度學習技術並未得到廣泛認可,甚至還飽受詬病,被人們視為一種不太可靠、難以實現預期效果的技術。當時,從事深度學習研究的人員常常被外界調侃為一群只會盲目疊加層數、不切實際的「小醜」,這也從側面反映出當時整個行業所面臨的困境與外界對其的不信任。

記憶中,上一次出現具有重大影響力的通用問答機器還要追溯到 2009 年推出的 Wolfram Alpha。據我所知,這款產品主要採用的是基於規則的傳統方法,並未涉及機器學習技術,它的運行機制依賴於預先設定的規則與算法,無法像現代人工智能那樣自主地從數據中學習與進化。因此,儘管經過了多年的發展,它在功能與性能上並未取得顯著的提升與突破,這也凸顯出傳統規則驅動方法相較於現代數據驅動的人工智能方法所存在的局限性。

大約在 2020 年左右,我明顯感覺到行業的風向開始發生轉變,深度學習技術逐漸得到了大多數人的認可與接受,人們不再像過去那樣對其持懷疑與嘲諷的態度。這一轉變在很大程度上可能與 GPT – 3 的發佈密切相關,它的出現讓人們真正意識到深度學習技術所蘊含的巨大潛力與應用前景。

那麼,究竟是什麼因素推動了人工智能在近年來的迅猛發展呢?其實,其中最為關鍵的因素並非某一項重大的數學突破,而是計算成本的大幅降低。

隨著時間的推移,計算成本下降了多個數量級,這使得我們能夠在人工智能研究與開發過程中投入更多的計算資源,從而推動模型的訓練與優化。

以英偉達(Nvidia)為例,它之所以在人工智能領域取得巨大成功,並非僅僅因為其製造出了性能最為強大的計算機芯片,更為重要的是,它能夠以相對較低的成本提供高效的矩陣乘法運算能力,這使得它在計算資源市場中佔據了重要地位,成為眾多人工智能研究與開發人員的首選供應商。

如今,計算資源已經如同石油等大宗商品一樣,可以在專門的市場和交易所中進行買賣交易,人們能夠像交易期貨合同一樣靈活地購買和出售計算資源,這為人工智能的發展提供了更加便捷、高效的資源配置方式。

然而,在過去的兩年里,人工智能領域又出現了一些新的變化與趨勢。隨著人工智能技術的日益強大與普及,它也引發了廣泛的社會關注與討論,其中不乏一些關於人工智能潛在危險性的擔憂與爭議。如今,人工智能已經成為一個極具敏感性的話題,許多人在談論人工智能時,往往會強調其可能帶來的各種風險與挑戰,呼籲對其進行嚴格的監管與限制。

但與此同時,各個國家和企業又都在競相投入大量資源,力爭在人工智能領域佔據領先地位,這種矛盾的心態在行業內普遍存在。在這種背景下,人工智能領域的研究與開發也變得更加保密,許多公司和研究機構都對其核心技術與研究成果採取了嚴格的保密措施。

但實際上,我想告訴大家的是,人工智能背後的核心數學原理與技術框架並非神秘莫測,許多關鍵技術已經廣為人知。在當前的人工智能發展中,真正的「秘密武器」在於能夠將海量的計算資源(這往往需要耗費巨額資金)與龐大的數據集進行有效整合,從而訓練出功能強大的人工智能模型。這就像是一場資源與數據的「煉金術」,通過巧妙地調配與運用,最終實現人工智能模型性能的飛躍。

在大規模模型訓練過程中,每一次訓練運行都可以看作是一次充滿挑戰與不確定性的實驗。為了降低這種風險,研究人員在加利福尼亞州的舊金山等地開展了一系列深入研究,並逐漸總結出了一些所謂的「縮放定律」。這些定律試圖通過對計算資源、數據量等因素與模型性能之間關係的分析,來預測模型在不同訓練條件下的表現。

然而,需要指出的是,這些「縮放定律」目前還不能被視為嚴謹的科學理論,它們更多地是基於大量實驗數據擬合出來的經驗性規律。儘管如此,它們仍然為我們在模型訓練過程中的資源配置與優化提供了有價值的參考依據。

另外,在過去五年中,還有一些非常有趣且實用的技術創新值得一提,比如超參數遷移技術和張量程序技術。超參數遷移技術允許研究人員先在小規模模型上進行各種實驗與參數調整,然後將這些經過驗證的配置直接應用於大規模模型的訓練中,從而大大提高了訓練效率與成功率。

張量程序技術則為模型的高效計算與優化提供了新的思路與方法。以 Gemini 和 GPT – 4 等大型模型的訓練為例,雖然相關研究團隊在技術細節上往往保持高度保密,但他們也在一定程度上暗示了超參數遷移技術在其模型訓練過程中發揮了重要作用。

隨著技術的不斷髮展與普及,如今的人工智能模型正逐漸走向商品化。越來越多的開源模型湧現出來,這些模型在質量與功能上都表現出色,為廣大開發者和用戶提供了更多的選擇。這也意味著,對於那些希望在產品中應用人工智能技術的用戶來說,他們需要像在傳統商品市場中一樣,進行仔細的比較與篩選。因為不同的模型雖然在功能上可能相似,但在成本、性能、適用場景等方面往往存在較大差異,只有通過深入瞭解與比較,才能選擇出最適合自己需求的模型,從而實現產品的優化與創新。

最近,人工智能領域出現了一個備受關注的問題:大型語言模型的發展是否已經開始進入停滯期或者平台期?從實際情況來看,雖然它們並沒有完全停止前進的腳步,但不可否認的是,其發展速度確實有所放緩。當我們向從事人工智能研究的專業人士詢問原因時,他們普遍認為,最主要的瓶頸在於數據資源的匱乏。隨著互聯網數據的不斷挖掘與利用,我們已經逐漸接近了現有數據資源的極限,難以獲取足夠的新數據來支持模型的進一步優化與拓展。

在這種情況下,一些人可能會想到通過研發全新的模型架構來突破當前的困境,例如嘗試取代目前廣泛應用的 Transformer 架構。然而,在我看來,這種方法的可行性並不高。因為從本質上講,機器學習的核心在於通過數據來擬合模型,只要數據量足夠豐富、計算資源充足,不同的架構在性能上的差異並不會太大。

事實上,目前的研究也表明,只要給予足夠的訓練數據與計算資源,許多新型架構與 Transformer 架構在最終的表現上並沒有顯著的區別。因此,單純地寄希望於新架構的出現來實現重大突破可能並不現實。

那麼,既然數據資源已經成為製約發展的關鍵因素,我們該如何應對呢?一種可能的思路是,重新審視我們對人工智能模型的期望與定位。在過去,我們往往致力於將儘可能多的人類知識壓縮到一個龐大的模型中,使其成為一個無所不知的「知識寶庫」。然而,對於許多人工智能從業者來說,真正的「聖盃」級目標是讓模型具備強大的推理能力,能夠靈活地應用所學知識解決各種新問題。令人驚喜的是,在現有的模型訓練過程中,我們已經發現模型在一定程度上具備了推理能力,儘管這並非其最初設計的核心目標。

為了進一步提升模型的推理能力,近年來人們開始嘗試專門針對推理任務進行模型訓練,例如今年出現的 o1 模型就是這方面的一個典型代表。與傳統的模型訓練不同,這些推理模型並不需要大量額外的網絡文本數據,而是通過對模型進行精細的微調,使其專注於推理步驟的優化與學習。

具體來說,我們可以通過生成專門用於推理訓練的數據集,或者在推理過程中多次運行模型等方式,來增加模型在測試階段(推理階段)的計算量與數據處理能力。這種方法被稱為新縮放定律,它揭示了推理模型的準確率與測試階段計算量之間存在著緊密的聯繫。通過增加推理時長(即模型在推理過程中花費的時間)或者並行運行模型的次數等方式,我們能夠顯著提高推理模型的準確率與性能。這一發現無疑為人工智能領域的發展開闢了新的方向,讓我們看到了實現更強大推理能力的希望與可能。

展望未來,儘管目前人工智能與人類大腦相比,在效率等方面仍然存在著巨大的差距,但我堅信,隨著技術的不斷進步與創新,這種差距將會逐漸縮小。在模型訓練方面,只要我們能夠持續挖掘新的數據資源,不斷優化計算資源的利用效率,更大規模、更強大的模型必將不斷湧現。

同時,隨著科技的發展,計算成本預計還將繼續大幅下降,每瓦特的計算性能也將得到顯著提升,這將為人工智能的發展提供更加廣闊的空間與無限的可能。在這個充滿機遇與挑戰的時代,我認為我們應該充分發揮想像力,勇於探索人工智能領域的未知邊界,去創造更多令人驚歎的成果與應用。

以上就是我今天演講的全部內容,非常感謝大家的聆聽。