IBM 八大專家預測:現代編程語言是給人類設計的,AI 需要類似彙編的原生語言 | AI 2025

「在未來幾年的一個大挑戰是,我們可能會看到一種更適合智能體的原生語言出現,這種語言的設計更適合 LLM,因此會減少為滿足人類需求而設置的語法糖。」

歡迎回到 AI 科技大班營 2025 AI 賽前分析周。本週四的內容分享來自 IBM 王牌科技節目《Mixture of Experts》,八位業界大咖受科技巨頭 IBM 邀請,圍繞 AI 模型、智能體、硬件和產品發佈四大核心議題,展開了一場激烈而深刻的對話。從 ChatGPT 商店到 OpenAI o1,從 Llama 3 到超級智能體,他們不僅回顧了 2024 年的每一個重要時刻,更首次披露了 2025 年 AI 領域的重大轉折點。

近日,IBM 旗下的《Mixture of Experts》邀請了來自 AI 模型、智能體、硬件和產品研發四大領域的頂級專家,深度解析 2024 年 AI 技術的突破性進展。

這場長達一小時的巔峰對話,將目光聚焦在四個重要維度:高性能 AI 模型的演進路徑、智能體技術的突破與革新、AI 硬件格局的劇變,以及年度重磅產品帶來的行業洞見。每場主題兩位專家,上演了一場「八仙過海」,總結出 2025 年三大關鍵轉折點:開源模型與閉源模型將首次平分秋色,超級智能體時代即將到來,英偉達在 AI 芯片市場的主導地位將面臨前所未有的挑戰。

事實上,變革的跡像已經顯現。去年 OpenAI 推出 o1 架構,Apple Intelligence 進軍移動端 AI,Meta 通過 Llama Stack 重新定義智能體交互標準,科技大廠無一不想定義自己的 AI 格局。那麼,這些變革究竟意味著什麼?

以下為對話全文:

「戰國紀」:巨頭暗戰與開源逆襲

主持人:回想 2024 年 1 月,我們還在熱議 GPT Store 的上線和 Claude 2.1 展現的長上下文窗口能力,那時的我們正翹首期待 Llama 3 的發佈。毫無疑問,2024 年是一個激動人心的變革之年。

為了全面回顧這一年的發展,我們邀請了多位業界專家,請他們分享各自領域的亮點與不足,並展望 2025 年的發展趨勢。我們將深入探討 AI 智能體(Agent)、硬件進展以及全年重要的產品發佈。首先,讓我們聚焦 2024 年 AI 模型領域的發展。為此,我們特別邀請到了 IBM 高級研究科學家 Marina Danilevski,以及負責 IBM 美國、加拿大和拉丁美洲 AI 諮詢業務的高級合夥人 Shobhit Varshney。

在回顧 1 月份這個「遠古時代」之前,我想先從一個近期的重大事件談起——OpenAI o1 的發佈。這無疑是今年最重要的公告之一。Shobhit,你曾認為 OpenAI o1 的發佈標誌著這些公司在思考模型開發和擴展方式上出現了重大轉變,請說說原因。

Shobhit Varshney:這確實是一個令人振奮的時代。放眼整個職業生涯,我從未見過像現在這樣充滿機遇的時刻。過去一年,我們見證了擴展定律(Scaling Law)的演進——我們意識到,通過增加計算能力、構建更大的模型,能帶來驚人的性能提升。如今我們已經擁有了規模驚人的模型,比如擁有 405 億參數的 Llama 和 1750 億參數的 GPT-4。這些大型模型展現出了令人矚目的能力。而現在,市場正在經歷幾個重要的轉變。

首先,更多的重心正在向推理階段轉移。模型開始學會放慢速度,思考用戶的真實需求,製定計劃並得出答案。我們也開始為這些模型提供更多可用的工具,就像人類在成長過程中學會使用工具一樣。這些智能體流程正在幫助我們提升整體的智能水平。

同時,我們也看到成本結構發生了重大變化。專有模型的成本在過去一年中大幅下降,而較小的模型則變得更加高效,性能也不斷提升。

因此,我們看到了這樣的轉變:從規模驚人且具備更強思考能力的模型開始,在用盡所有公共互聯網數據後,我們現在更專注於高質量的企業數據或為特定模型定製的數據。如今一個規模極大的指導模型,能夠很好地思考整個問題,可以創建合成數據,可以幫助訓練更小的模型,可以蒸餾出一個能夠以較低價格提供高性能的模型。這表明我們在思考 AI 模型和構建投資方式上已經發生了重大轉變。2025 年及以後的發展將會呈現出完全不同的局面。

Marina Danilevsky:我同意你的觀點。從最初的起點到現在的發展,無一不彰顯 2024 確實是一個意義非凡的年份。現在終於到達了一個重要的節點,也就是可以思考「既然我們已經知道了(模型)能做多大,現在該考慮如何做得更小了」。因此,在「規模至上」的初始研究推動之後,我們終於有機會開始考慮效率問題了——也許明年我們還會開始討論環境因素等問題。

主持人:這是你對 2025 年的預測嗎?

Marina Danilevsky:是的,2025 年的趨勢非常有趣。這也意味著模型質量已經達到了一個新的高度,我們可以開始可靠地構建企業級解決方案了。這是令我真正感到興奮的地方。我認為模型質量終於達到了一個標準,以至於可以開始認真對待企業解決方案了。

主持人:確實如此。作為一名業餘軟件工程愛好者,我在今年真切地感受到了這一點。我終於可以使用這些編程助手完成一些以前無法實現的任務了。這些工具已經達到了可以在日常工作中實際應用的水平。我認為這是過去 12 個月中我們見證的一個重大進步。Marina,我想請教一下,在今年春季或其他時候,有沒有什麼特別的事件讓你印象深刻?當你回顧 2024 年時,會特別記住什麼?

Marina Danilevsky:首先,我會記住今年的競爭達到了空前的激烈程度。感覺每兩週就會有新的突破,甚至一些你意想不到的公司,比如最近的亞馬遜,也展示了他們令人驚喜的成果。所以我認為,今年最讓我印象深刻的是眾多參與者以一種積極的方式相互競爭,真正推動了這個領域向前發展。此外,在這個競爭的過程中有些首次亮相非常成功,有些則不盡如人意。有時候企業可能沒有完全準備好,有時候人們認為演示有點過於精心設計。這就是讓我記住這一年的原因:不同的參與者如何加入競爭並展示他們的特色。

Shobhit Varshney:我們最近為 AI 報告進行的一項調查顯示,全球約 15%的客戶已經通過應用生成式 AI 獲得了實實在在的價值。過去很多知識都被鎖在文檔和流程中,而現在我們看到客戶在一些小型但複雜的工作流程上取得了顯著進展,並從中獲得了卓越的價值。

我認為通用的 Copilot 或 AI 助手可能沒有帶來足夠的價值,這使得關注點轉向了如何將 AI 與企業自身的數據和知識更好地結合。但總的來說,我認為過去的幾週正是 AI 發展史上最精彩的時刻之一:OpenAI、Google之間的競爭,以及 Meta 的加入,在整個社區中引發了巨大的變革。現在我們已經擁有了出色的模型,開始思考如何更好地控制它們,使它們適應企業工作流程和數據集,並讓它們能夠更好地使用工具進行思考和推理。關於 o1 的重大進展,我認為這將成為歷史上的一個重要節點,因為我們開始意識到每月 200 美元實際上是非常有價值的投資。當你意識到每月支付 200 美元時,你會更加專注於哪些工作流程真正能夠通過 AI 得到提升。現在我們已經到了一個階段,這筆投資可以真正增強日常生活的方方面面。我認為每月 200 美元是一個很好的起點。

主持人:確實如此。從模型的角度來看,你們認為 o1 是今年最重要的發佈嗎?還是說有其他引人注目的產品?比如,我們今年還見證了 Llama 3 的發佈,這也是一個重大公告。

Shobhit Varshney:對我來說,最具突破性的是 Gemini Flash。我認為Google用一個小型多模態模型所實現的成果,將推動未來兩三年計算領域的發展。原因在於它現在能夠開啟的所有可能性。如果你關注了最近的 Android XR 發佈會,你會發現我們已經進入了一個新階段:多模態模型過去需要極其龐大的規模和大量計算,而且總是需要在服務器端運行。但現在有了像 Gemini Flash 這樣的模型,你可以用一個小型模型就能很好地完成多模態任務。

最令人驚歎的是它開始能夠記住剛剛看到的內容。我認為它將開始增強我們日常工作流程的方方面面,包括記憶功能。這是我們之前從未見過的。我們過去通常是在完全冷啟動的情況下提問,而現在這些模型將擁有持續的記憶能力,可以像我們一樣使用工具。我對在小規模情況下實現高性能感到非常興奮。這意味著我們最終可以實現這樣的計算基礎設施:在 XR、AR 體驗中,將更多的計算能力轉移到設備端。這也將帶來更好的隱私保護,因為數據將被存儲在用戶隨身攜帶的設備中,而不是他人的雲端。

Marina Danilevsky:我完全同意這點。小模型的發展令人振奮,因為我認為在未來一兩年內,我們將開始看到更多正式的監管出現,更多人會意識到這真正意味著什麼。就像 Shobhit 所說,如果模型開始具備記憶功能、實現個性化、準備好被定製,這將變得極其重要。因此,擁有一個小型的、本地的、技術上可靠的解決方案,將變得尤為關鍵。我完全讚同你的觀點。

主持人:那如果要你評選年度最佳模型,會選擇什麼?

Marina Danilevsky:這確實是個難題。我更傾向於從整體的角度來看待這個問題。現在要判斷哪個突破將帶來轉折性影響還為時尚早。我想提名的是一個系列,也就是 Llama 模型系列。不是單獨的某個 Llama 模型,而是整個發展序列,包括即將到來的 Llama 3。我們已經看到了預訓練能做到什麼,接下來我們將見證後訓練階段能帶來什麼突破。這個過程就像是:先做得更大,然後探索能做多小。我希望看到更多團隊採用這種連貫的研發方式:推進預訓練,深化後訓練,探索規模極限,並不斷迭代。我期待這種發展模式成為一種持續的趨勢。

主持人:這是行家的回答,Marina。你沒有簡單地說某個特定的模型是最好的,而是從整個發展脈絡來看待問題。

Shobhit Varshney:Marina,我認為我們將進入這樣一個階段:大型研究實驗室會繼續構建更大的模型,但他們可能不會在公共領域發佈這些模型。這些模型更多地會被用於創建合成數據,用作指導模型進行蒸餾等工作。我對未來兩三年感到非常興奮,因為我們終於到了一個重要的轉折點:我們在這個問題上已經探索了相當長的時間,我們發現,如果讓模型在回答之前先進行思考,效果會大大提升,這不正是小學老師對學生的要求嗎?

現在我們正在重新學習如何教育年輕一代,比如嘗試不同的方法,製定計劃,回答問題,必要時使用計算器等工具。這讓我想起了教育孩子的過程。作為一個有孩子的父親,我經常會思考這一點。我發現我們在訓練 AI 模型的方式上有很多相似之處:我們對孩子進行強化學習,給予他們獎勵和激勵機制,我們把問題分解成更小的部分,讓他們逐步解決每個部分。通過積極的強化,當他們做對時就會得到激勵。我認為我們正在達到這樣一個階段:我們開始更深入地理解這些模型是如何學習的。

這將形成一種良性的共生關係。我認為我們將不再要求這些模型去完成人類擅長的任務,而是更好地理解哪些任務應該交給這些模型。這也意味著評估這些模型的基準和方法將發生重大變化。但我認為現在我們開始真正瞭解這些模型了。到了 2025 年和 2026 年,我們與這些模型的關係將會發生很大變化,它們將更多地成為合作夥伴,而不是簡單地模仿人類的行為。

主持人:說得對。今年最有趣的發現之一就是,每逢更新,用戶都會問「你能不能再努力一點?」,然後模型真的就在下個版本表現得更好了。這確實很有意思,要知道以前的計算機軟件可做不到這一點。最後一個問題,我們還沒有深入談論多模態領域,但它似乎真的有望在 2025 年成為一個重要議題。也許我先請教你,對未來一年多模態發展有什麼預測?

Marina Danilevsky:談到多模態,這其實是個很有意思的領域。在基礎模型剛出現時,我們就對這個概念感到興奮,因為我們意識到:它本質上就是按順序排列的標記,不一定要是文本,可以是任何形式的數據。但我認為我們之所以一開始都轉向文本和代碼這些領域,主要是因為我們在這些方面擁有大量的訓練數據和示例。現在,特別是在合成數據方面取得了進展,就像 Shobhit 提到的指導模型那樣,我們將能夠更深入地探索這個領域。

因此我認為多模態技術可能終於到了真正發揮作用的時候。業界對多模態模型有著巨大的興趣,因為就像文本模型一樣,我們發現當一個模型同時處理多個任務時,這些任務之間會相互學習。現在情況變得更加有趣:如果你有一個多模態模型,它是否也會在每個單獨的模態上表現得更好?我認為數據現在終於到位了,不僅僅是計算能力,還包括數據以及創建更多數據的能力。

所以我認為,明年我們確實會看到更多發展。我本來期望今年能看到更多針對科學領域的模型,也許要等到明年了。可能我們會看到在影片處理方面更成功的模型,不僅僅是像 Sora 這樣的產品,而是在更底層有更實用的應用,比如在機器人領域。那裡還有很多潛力可以挖掘。所以,炫目的應用固然有趣,但真正的實用價值可能在某個更基礎的層面,尤其是在硬件相關領域。

Shobhit Varshney:我認為多模態領域在未來幾年將會迎來令人振奮的發展。這個領域之所以重要,是因為它能夠理解人類所看到的、感受到的、觀察到的、閱讀到的和聽到的所有信息,這對於 AI 助手更好地幫助我們至關重要。

到目前為止,我們處理多模態任務的方式是這樣的:拍一張照片或者把內容轉換成文本,然後向聊天機器人提問。這種模式並沒有很好地擴展開來。隨著多模態模型變得更好、規模更小,就像 Gemini 2.0 Flash 展示的那樣,這些進展將推動我們日常生活中出現更豐富的應用體驗。而且競爭將會非常激烈,你會看到這些模型從各個方向湧現出來。

比如,從任何語言直接轉換到另一種語言的模型,特別是直接的語音到語音的轉換,這些都在提供卓越的用戶體驗。如果你看看傳統的 AI 處理方式,通常是先將語音轉換為文本,然後將文本輸入 AI 模型,AI 模型想出回應內容,最後再從文本轉回語音。在轉錄和翻譯過程中損失了很多信息。而現在,當你開始直接從一種媒體形式轉換到另一種時,比如直接從語音到語音,模型開始能夠理解人類說話的細微差別。我對明年在多模態、小型化和完整上下文處理方面的發展感到非常期待。這真是令人振奮的發展方向。

「元年誌」:超級智能體的崛起

主持人:接下來,讓我們把話題轉向 2024 年的智能體(Agent)技術。為此,我們邀請到了兩位嘉賓:IBM 傑出工程師、用戶轉換 CTO Chris Hay,以及 IBM AI 孵化項目產品經理 Maya Murad

2024 年是智能體的元年,「智能體」這個詞幾乎無處不在。我想先請教 Chris,你認為 2024 年的智能體技術是被過度炒作了,還是說它的潛力還被低估了?

Chris Hay:絕對是被低估了,遠遠沒有被充分重視。智能體就是未來,智能體就代表著一切。在 2025 年,我們將迎來超級智能體的時代。這就是即將到來的重大變革。

主持人:Maya,回顧過去這一年,不知道你是否認同 Chris 的觀點?在智能體發展方面,有沒有什麼特別突出的事件讓你覺得它們真的會像 Chris 說的那樣,在 2025 年變得如此重要?

Maya Murad:我完全同意這個判斷。2024 年,我們確實聽到了很多關於 AI 智能體的討論。我很期待看到更多實際落地的案例,同時我也預計我們會遇到更多挑戰。當我們看到更多智能體被部署到生產環境時,我認為我們還只是觸及了問題的表面。

今年我注意到的一個重要趨勢是出現了更多的協議和標準化努力。我們看到 Meta 通過 Llama Stack 在這方面進行嘗試,Anthropic 則推出了他們的模型上下文協議(MCP)。我認為這將是一場關於如何標準化大模型與外部世界交互方式的重要博弈,而在未來,這個重點將轉向智能體之間如何互相交互。我認為這是下一個前沿領域,也是我們努力的方向。

主持人:是的,感覺 2024 年更像是未雨綢繆之年。我在回顧所有新聞報導時在想:今年最大的智能體相關新聞是不是 Salesforce 正在大規模招募銷售人員來推廣智能體產品?在這些商業動作和技術標準之間,很難說出「這是今年最重要的智能體突破」。實際上,更多的是在為未來做準備。Maya,不知道你是否同意這個觀點?

Maya Murad:確實感覺這是在為未來做準備的一年。我們需要考慮各種不同的因素,以及誰想要在這個領域佔據主導地位。比如說,Meta 很早就投入其中就很有意思。雖然 Llama Stack 的第一個版本可能還不夠完善,但他們展現了長期投入的決心。他們想要幫助定義這些智能體間的通信協議。如果這是 Meta 選擇的方向,我相信他們一定會做好。

這也暗示了一些有趣的變化。在過去兩年里,這個領域主要是在響應 OpenAI 的產品節奏。OpenAI 發佈了他們的 Chat Completions API 後,整個生態系統都跟隨其後。如果你沒有完全相同的 API,你的產品就會變得更難被採用。現在我們看到更多的參與者在爭奪製定這些標準和協議的主導權,這是一個重要的轉變。

主持人:確實如此。Chris,剛才你用了「智能體就是未來」這樣一個非常大膽的說法。展望 2025 年,假設智能體確實變得更加普及,成為這個領域更重要的組成部分,你覺得 Meta 在這方面是否處於有利位置?或者你對於誰將在這個領域領先,誰可能會落後有什麼預測?

Chris Hay:我很認同 Maya 關於 Anthropic 和模型上下文協議(MCP)的觀點。我認為這將成為明年智能體發展的最大推動力之一。他們很好地解決了一個核心問題,那就是允許遠程調用工具。這可能是他們解決的最關鍵問題。

想想企業環境,你不會讓智能體只是坐在那裡搜索網頁或下載文檔,而是需要它訪問你的企業工具,比如 Slack、Dropbox 或 Box 文件夾、GitHub 等。這些接口已經標準化了。但更重要的是,你希望獲取自己的數據,然後以一種智能體可以標準化使用的方式開放你的 API。我認為 MCP 在允許遠程調用工具方面做得非常出色,而且能夠通過多個服務器將它們鏈接在一起。我認為這將是一個重大的推動因素。

有趣的是,他們設計的架構讓連接不同的 LLM 變得很容易。所以它不局限於某個特定的雲平台,你可以連接任何你想要的模型。這都與函數調用有關,這又是 OpenAI 創建的一個標準。所以我很讚同 Maya 剛才說的,關於不同提供商進入生態系統的觀點。我認為我期待看到的是沒有任何一家公司獨佔市場。這個由不同提供商組成的生態系統將推動整個行業向前發展。我們將進入一個龐大的智能體市場時代。這就是為什麼我說超級智能體(Super Agent)即將來臨,因為在 2025 年,這將成為一個真正龐大的生態系統。

主持人:當你說超級智能體時,具體是指什麼?

Chris Hay:說實話,我剛剛才想出這個詞。一個真正強大的智能體就是超級智能體。

主持人:你們兩位的重要預測似乎都指向了一個方向:智能體市場,這可能是我們明年會看到的最重要的發展趨勢。我認為一個重大問題是,關於智能體世界中最先成功的應用場景會是什麼?什麼樣的殺手級應用會像當年的電子郵件還有現在的 Slack 一樣成功?在你們與客戶交流的經歷中,他們對智能體有什麼特別的期望和願景?有沒有一些值得我們讀者瞭解的共同主題?

Chris Hay:從我的角度來看,Tim,在那個市場中有一些明顯的應用場景,比如翻譯。說實話,我認為現在的語言模型還沒有真正很好地掌握翻譯能力。有些模型在某些語言上做得很好,但如果你考慮那些不太常用的語言,大型模型就顯得力不從心了。這時就需要專門針對特定語言訓練的專業模型。所以我認為這可能是一個真正的機會,將這些較小的語言模型與智能體結合起來提供翻譯服務。再加上領域服務,比如法律領域,這是你非常熟悉的,Tim,我認為這可能會成為市場的一大部分。

但我希望不僅僅局限於這些個別的智能體。任何信息,可能是體育比數,可能是高爾夫比數,可能是戲劇資訊,都可能成為應用場景。這就是我對 2025 年的另一個預測:我認為我們將看到萬維網的一次重大轉變。今天,HTML 等是互聯網的主導標記語言,但這並不是為 LLM 設計的,也不是為智能體設計的。所以我在想,為了讓智能體蓬勃發展,不僅僅需要有市場,還要有標記數據的新方式。我們之前談到了 MCP,我想我們會開始看到新類型的網頁出現,其中的內容是專門為智能體優化的,不僅僅是為人類設計的。所以我預測我們將開始看到網絡向所謂的 Web 4.0 轉變。我試圖避免使用 Web 3.0 這個術語,這裏我們會看到專門為智能體消費設計的內容。

主持人:對智能體的承諾會引發如此大的興趣,以至於我們幾乎要重構整個網絡,使其對智能體更安全或更有效。我猜很多正在構建的技術棧和互操作性標準,在某種程度上都是在嘗試實現這一點。Maya,你同意這個觀點嗎?你認為這就是未來的方向嗎?我們會有一個智能體標記語言,某種程度上就像 HTML 一樣?

Maya Murad:我認為很多有趣的應用場景將在不同提供商構建的、由不同組織擁有的智能體能夠相互交互時被開啟。比如,我們如何建立安全協議?如何能夠高效地實現這一點?這裏的願景是:我們如何擺脫所有這些不同系統的孤島,不再需要手動設計它們如何相互對話?我們能否達到一個通用的交互協議?這確實是一個令人嚮往的前景。我不確定我們明年是否能完全實現它,但很多不同的參與者都希望朝這個方向發展。而且還有一些基礎性的問題我們應該在這之前解決。

例如像軟件工程任務,這個領域已經有了大量投資。但我仍然認為沒有人真正解決好普通商業用戶的需求。普通商業用戶必須在他們的電腦上使用十幾個不同的工具,這些工具之間互不相通,每個都有自己的入門門檻。所以我看到了很多機會來簡化這些複雜的體驗,使它們更加動態和整合。這才是這項技術的真正價值所在。

主持人:你描述的世界幾乎就是智能體成為了所有這些應用程序的統一界面。它們保持獨立運作,但是未來的操作系統實際上就是代表你執行任務的智能體。

Maya Murad:是的,關鍵是自然語言。就像 LLM 改變了我們與數字世界交互的認知一樣,我們開始期望所有事情都能用自然語言來處理。現在你填寫表單時,往往也會有一個自然語言交互的選項。我認為這種期望會繼續擴大。

主持人:確實,這很有道理。最後我想談談工程和編程方面的問題。今年我注意到編程助手已經變得非常非常強大了。但最終的願景是,你只需要描述你對軟件代碼庫的構想,智能體就能夠在代碼庫的所有部分進行構建和互操作。對於這種自動化和智能體行為的前景,你們怎麼看?

Chris Hay:我要先說一些可能有爭議的觀點。這裏有一些值得思考的地方:今天的編程語言是為人類設計的。想想循環、while 循環、for 循環等等,還有這麼多的版本,以及條件語句、if 語句也是如此。但你知道嗎?當你深入到彙編級別時,這些都不存在,它們最終都會回歸到分支和跳轉語句。

因此在智能體的世界里,我們讓它們使用為人類設計的語言編程。我認為在未來幾年的一個大挑戰是,我們可能會看到一種更適合智能體的原生語言出現,這種語言的設計更適合 LLM,因此會減少為滿足人類需求而設置的語法糖。所以我認為編程語言本身將會發生演變。

你今天就能看到這種趨勢,對吧?LLM 已經在生成代碼了,比如又一個斐波那契函數實現。說實話,我這輩子不需要再看到另一個斐波那契函數的實現了,我們已經有太多了。所以我認為會出現類似於 NPM 那樣的東西,在那裡你有一個龐大的 AI 庫,你可以提取你需要的函數。我認為就像 AI 操作系統一樣,未來將出現 AI 編程語言和庫,一切會更加原生化。這將有助於編程的發展。很有趣,對吧?會是 2025 年嗎?也許,也許是 26 年。但我認為這就是我們要去的方向。

Maya Murad:就目前我們擁有的技術而言,我對我在 Replit 上看到的能力印象深刻,這是一款 AI 編程助手,能夠構建完整的全棧應用程序。這是一個很有趣的範式,就像通過對話來構建應用程序。我真的看到了創建數字界面和代碼庫的能力正在以前所未有的方式普及化,這完全得益於我們現有的智能體技術。我只是認為這裏還有類似於「最後一公里」的問題需要解決。我相信明年這個領域會有重大突破。

「封神榜」:芯片新秩序

主持人:接下來有請兩位來自 IBM 的硬件專家,Khaoutar El Maghraoui 是我們 AI 工程的首席研究科學家,負責人工智能硬件中心;Volkmar Uhlig 則是我們的副總裁,負責人工智能基礎設施組合。

首先請教 Volkmar,當我們談論 AI 硬件時,這幾乎成了與英偉達相關的代名詞。我很好奇你認為今年英偉達最重要的故事是什麼?對我來說,最引人注目的是即將推出的 GB200 的發佈。在你回顧 2024 年時,是否還有其他重要的事件引起了你的關注?

Volkmar Uhlig:英偉達為 GB200 確實做了很大的宣傳。我認為我們正在看到一個重大轉變,特別是在訓練方面,正朝著更集成的系統方向發展。現在是非常大型的機架規模計算機的時代,液冷技術也開始普及。所以這些年我們看到的所有進展,比如如何在更小的空間內集成更多的計算能力,讓它更快,配備更好的網絡等等,英偉達正在努力保持其領導者地位。

我們看到的升級某種程度上反映了現在模型的樣子。我們有 700 億參數的模型,即使你對其進行量化,8 位精度就需要 700 億字節,16 位精度就需要 1400 億字節。現在,你不希望必須購買完整的顯卡。所以,如今所有加速器的內存容量都在增加,不僅僅是英偉達在這裏發力,我們觀察到了新的進入者和其他市場參與者。AMD 正在發佈他們產品的一個相當不錯的路線圖,所有產品都具有非常大的內存容量和內存帶寬,以應對這些大型語言模型,讓更多的模型能在更少的空間或更少的計算資源中運行。

英特爾也在這個市場上積極佈局。此外還有一些創業公司,我們也看到了一些真正有趣的技術進入市場。比如 Cerebras,那是一個晶圓級 AI 計算方案,一年前他們還在談論這個概念,現在你已經可以作為雲服務使用它了。現在還有 Groq 作為一個新興參與者。還有其他公司正在嶄露頭角,比如 D-Matrix,將在明年初推出一個適配器。

所以我認為市場上已經有了一批優秀的參與者。再加上新的進入者。前段時間,博通也宣佈了非常大的收入目標,以及與蘋果的合作關係。高通也加入了這個領域,並推出了一個芯片架構,其中一些產品已經可以使用,而且他們有一個很好的發展路線圖。所以我認為這個市場不再只是英偉達一家獨大,這對整個行業來說是件好事,而且發展非常快。我們不僅看到了訓練系統的進展,對推理的關注也在增加,因為從我的角度來看,這才是真正能創造收益的領域。

主持人:Khaoutar,我很想聽聽你對這一點的看法。我想確保我們也談談今年推理領域的大趨勢,因為這確實是市場發展的一個重要主題。如果你願意,請談談 2024 年在這方面的發展和你的觀點。

Khaoutar El Maghraoui:是的,當然。特別是在推理引擎和優化推理引擎方面發生了很多進展。硬件軟件協同設計也在發揮關鍵作用。我們看到像 VLLM 這樣的技術,我們也看到像 Triton 正在做的工作,以及所有關於 KV 緩存優化、推理優化的批處理等工作。所以在開源領域圍繞構建和擴展推理系統發生了很多創新,特別是針對大型語言模型。但我們看到的許多這些優化並不只是針對 LLM,它們也可以擴展到其他模型。

在 VLLM 方面有很多發展,在 IBM 研究院和其他機構也有研究人員為開源項目做貢獻,主要是為了引入這些協同優化,無論是在調度方面,批處理方面,還是在探索如何最好地組織所有這些推理請求並讓硬件高效運行它們方面。

主持人:Volkmar,你能稍微預測 2025 年的情況嗎?聽起來隨著這個市場變得越來越擁擠,我想每個人都在追逐英偉達的王冠。你對 2025 年有什麼期待?英偉達是否仍然能保持領先地位?還是到 2025 年 12 月,市場會變得比傳統上更加分散和多樣化,特別是在訓練方面?

Volkmar Uhlig:我的預測是,在訓練領域,英偉達仍將牢牢佔據主導地位。我認為 AMD 和英特爾會努力進入這個市場,但那可能要等到 2026-27 年的時間框架。我之所以這麼說,是因為構建一個真正成功的訓練系統所需的不僅僅是 GPU。這是一個完整的系統工程。

你需要真正優秀的低延遲網絡,需要解決可靠性問題。現在有一個強烈的趨勢,就是將計算能力轉移到網絡架構中,以進一步降低延遲並更有效地利用硬件。英偉達通過收購 Mellanox,實際上獲得了高性能計算領域的頭號網絡供應商,而訓練恰恰就是高性能計算的典型應用。

現在出現了一些聯盟,比如 Ultra Ethernet,他們正在努力獲得與 InfiniBand 類似的功能。儘管 InfiniBand 是一個開放標準,但在全球範圍內實際上只有一個供應商,那就是現在被英偉達收購的 Mellanox。所以我認為英偉達在市場的這一端具有很強的優勢。

因此,其他參與者的大部分投資都更多地集中在推理市場,這個市場更容易進入,因為在這裏並不是只有英偉達的系統。比如在手機上沒有英偉達的產品,在邊緣設備上也沒有。而且在推理方面需要的軟件投入遠低於訓練方面。所以我認為訓練領域在英偉達手中很安全。但我認為現在隨著集成了以太網的 Gaudi 3 的上線,以及 AMD 推向市場的新產品,我們會看到競爭對手慢慢滲透到這個市場。我認為到 2026 年,我們可能會看到市場格局發生重大變化,英偉達可能會失去現在這種獨特的主導地位。

主持人:這將是一個重大轉變。Khaoutar,你對這段關於 2025 年的預測同意嗎?

Khaoutar El Maghraoui:我同意 Volkmar 的觀點。AI 硬件競爭確實在加劇,正如他所提到的,像 AMD、英特爾和像 Groq、Graphcore 這樣的創業公司都在開發富有競爭力的硬件。IBM 也在開發用於訓練和推理的高競爭力產品。

英偉達 GPU 面臨的問題主要在於成本和功耗效率。英偉達的 GPU 非常昂貴且耗電量大,這使它們對邊緣 AI 和對成本敏感的部署來說缺乏吸引力。像 AWS Inferentia、Google TPU、Graphcore IPU 這樣的競爭對手提供了專門的硬件,對某些應用來說通常更便宜、更節能。

而且我認為,像 OpenAI Triton 和 Onyx 這樣的開放標準,以及新的框架,也在努力減少對英偉達專有生態系統的依賴,這使得競爭者更容易在這裏獲得發展機會。如果我們看看推理專用硬件,就像我之前提到的 VLLM,這些專用推理引擎如 VLLM、SG-Lang、Triton,它們展示了非英偉達硬件的潛力。它們為競爭打開了大門,降低了進入門檻,而且它們在推理場景中表現出色,特別是對於大型語言模型。所以我們將看到由 ASIC 驅動的邊緣推理解決方案的廣泛湧現。我認為這正在挑戰英偉達在這個快速增長的邊緣 AI 市場中的地位

主持人:是的,我想邊緣計算是最後一個我們必須要談到的重點。對我來說,顯然今年的大新聞之一是蘋果,他們進軍 Apple Intelligence 領域並確保所有 iPhone 都配備了 AI 芯片。我認為這個趨勢將持續到 2025 年。但我很好奇,對於我們那些不太關注硬件領域日常發展的聽眾來說,在未來 12 個月裡,有哪些趨勢值得他們特別關注?

Volkmar Uhlig:我認為蘋果的模式在功耗受限的環境中是非常優雅且實用的解決方案。在功耗受限的環境中,即使精度可能較低,你也會選擇在設備上直接處理能完成的任務,而當你需要更多計算能力時,再尋求雲端的幫助。我認為蘋果的架構也很有趣,他們在手機上運行的相同芯片,也可以在雲端使用。這是一個非常巧妙的架構,因為它簡化了開發人員的工作,也簡化了部署流程。

我認為我們將看到更多這種類型的混合計算模式。隨著芯片技術的成熟,我們將在邊緣設備上看到更多的計算任務本地化。現在有了更多的選擇,你不再需要高功率的顯卡了。而且隨著芯片變得越來越專門化,專注於簡單的矩陣乘法運算,我認為我們將看到實際上每一個出廠的芯片都會以某種形式包含 AI 功能。

然後真正的關鍵是這種設備內部和設備外部處理的混合架構,它使得硬件能夠長期保持競爭力。特別是在邊緣設備上,邊緣設備不僅僅是手機,它可能是一個工業設備,那裡的生命週期是 5 到 10 年。你不想每兩年就為了訓練另一個網絡而不得不更換芯片。所以我認為蘋果提出的架構將會更加穩固,我們將看到圍繞這個架構建立起來的軟件生態系統。

主持人:Khaoutar,當前最被低估的趨勢是什麼?在 AI 硬件領域,是否有一些人們沒有充分關注的發展方向?你知道,AI 硬件領域有很多炒作。所以我很好奇是否有一些更微妙的趨勢你認為值得關注?

Khaoutar El Maghraoui:這是一個很好的問題。我認為有很多關於實時計算優化的工作被低估了。例如,像測試期計算(test-time compute)這樣的技術,它允許 AI 模型在推理過程中動態分配額外的計算資源。這是我們在 OpenAI o1 模型中看到的技術,它真的在這裏樹立了一些重要的先例,它允許模型有效地分解複雜問題,某種程度上模仿了人類推理的方式。這也對我們設計這些模型的方式以及模型與硬件的交互方式產生了深遠影響。在這種情況下,它推動了更多的硬件軟件協同設計,特別是在推理過程中的處理優化。

我認為另一個重要趨勢是硬件的普及化。當我們看到 Llama 3 系列時,它展示了新的硬件生態系統正在發展,既適用於高端研究模型,也適用於消費級應用。Llama 模型發佈了多個版本,從 400 億到 80 億參數不等。這也是一個重要的趨勢。我們某種程度上可以縮小高端數據中心和基礎設施之間的差距,讓更多人能夠訪問這些高端計算和基礎設施資源。朝著這個方向推進將非常重要。

另一個方面是開源和企業的協同效應。IBM 發佈的 Granite 3,我認為這是朝著正確方向邁出的重要一步,它也突顯了開源 AI 的重要性及其最大化企業硬件性能的能力。但仍然存在硬件設計方面的挑戰。例如,我們看到英偉達的 Blackwell GPU 在散熱管理和服務器架構方面遇到的問題。因此,這些硬件需要不斷改進以滿足下一代 AI 模型的需求,功率效率變得至關重要。

如果我要總結這些趨勢,我認為 2024 年展示了硬件、軟件協同設計的重要性,以及行業向專用 AI 加速器的轉變。開源採用和實時計算創新確實非常重要,正在為進一步的突破奠定基礎。

「新生代」:AI 產品爆發

主持人:最後,為了完整回顧 2024 年的圖景,我們需要談談那些讓我們震驚、驚歎並引發深思的產品發佈。為此我們邀請到了 IBM Granite 技術產品管理總監 Kate Soule,以及負責 AI 治理工作的 IBM 研究員 Kush Varshney

顯然,今年在產品發佈方面的節奏非常快,感覺每隔一週就有新產品問世。Kate,回顧過去 12 個月,你認為最重要的突破是什麼?

Kate Soule:作為 Granite 技術產品管理總監,我想首先要為我們 IBM 團隊所取得的成就感到自豪。我們發佈了 Granite 3.0 模型系列,這些模型都採用 Apache 2 許可證,具有高度透明性,數據來源符合倫理要求,我們在線上的報告中分享了所有細節。我非常高興能夠繼續履行對開源 AI 的承諾,能夠創建最先進的語言模型。在 2 到 8 億參數規模範圍內,我們可以在允許的條款下將這些模型提供給我們的客戶和開源社區使用。

從更廣泛的角度來看,不僅僅是 IBM 的成就,我認為 GPT 4.0 系列模型和產品的發佈也令人振奮。我認為它開啟了一個新的浪潮,讓我們開始思考如何在不僅僅增加訓練計算成本的情況下繼續提高性能。

這真正預示了我們將在 2025 年看到的下一波創新:我們如何在推理階段投入更多資源,允許使用這些模型的產品進行更高級的推理計算來提升性能,而不是簡單地投入更多資金進行訓練,投入更多數據,不斷擴大規模。從更宏觀的角度來看,這是我非常期待的發展方向。

主持人:第一個方面,2024 年確實是開源領域反擊的一年。曾經有那麼一段時間,感覺所有閉源模型真的會主導市場。而現在開源活動的爆發真的非常令人興奮。第二個方面,就是「明智工作,而不是盲目增加工作量」的理念。我認為我們在很多領域都開始看到新技術發揮作用。在開源領域,這也是 Llama 3 的一年。那請問 Kush,回顧 2024 年,無論是開源方面還是在 AI 方面,有什麼值得銘記的內容?

Kush Varshney:是的,「開源的回歸」。我認為這是一個準確的描述。當我們與各行各業的客戶交談時,我們發現他們在 2023 年主要關注的是概念驗證和類似的工作,比如讓公司內部的人們認識到生成式 AI 可能發揮的作用。但隨著時間推移,他們意識到實際落地時需要考慮版權數據、其他治理問題、成本,以及如何使這些系統可操作。我認為 Watson X 這個 IBM 產品就在這方面發揮了重要作用,Granite 模型顯然也是如此。我們正在探索如何將 2023 年的科學實驗轉變為在今年得到更多實際應用,現在進入明年,一切都將變得更加成熟和嚴謹。

主持人:Kush,讓我們來談談 AI 治理。你一直以來花了很多時間思考這個問題。今年在這方面有很多重要進展,我不知道你是否想特別指出 2024 年的一些重要事件。

Kush Varshney:僅僅是整個 AI 安全領域的大規模集會這件事就很能說明問題。IBM 舉辦了南韓峰會,我們在 11 月在舊金山舉行了峰會。這已經成為了一個核心議題。我認為這是我們需要克服的關鍵問題,因為僅僅擁有生成式 AI 而沒有安全護欄,沒有治理機制,這是很危險的。我認為投資回報的承諾只有在你能夠克服治理這個門檻後才能真正實現。

主持人:你對 2025 年這方面的發展有什麼預測嗎?在 2024 年,我們幾乎為很多事情做好了準備。2025 年,我們將看到這些準備如何轉化為實際的發展。無論是在開源還是在治理方面,似乎都是如此。

Kush Varshney:我的預測是,Agentic AI 會真正爆發,而且治理將成為推動其他用例發展的關鍵因素。因為當你擁有自主智能體時,治理和信任變得極其重要。為了讓這些系統有一定的自我反思能力,也許能夠對它們要輸出的答案多思考幾次。所以,我們將看到更多用於管理智能體的工具。比如 Granite Guardian 3.1 剛剛發佈,實際上包含了一個函數調用幻覺檢測器。這是智能體實際執行的重要功能之一,作為 LLM 的一部分,它們會調用其他工具、其他智能體、其他函數。如果這個過程本身出現幻覺,無論是參數、參數類型還是函數名稱,所有這些都可能出錯。所以我們現在有了辦法來檢測這些問題。

Kate Soule:Kush,你剛剛說推理運行時將被更多地用於治理和自我反思,但你最近也說過這打開了其他風險和潛在安全問題的潘多拉魔盒。當模型在後台運行所有這些循環時,人們能夠觀察到模型的輸入過程。

Kush Varshney:你可以稱之為「自我反思」,可以稱之為元認知,甚至可以稱之為智慧。這些都將成為系統運作的重要組成部分。但是,任何時候你有額外的操作發生,更多的循環,更多的機會,就會產生更大的攻擊面。對吧?所以我認為這肯定會成為其中的一部分。但我仍然抱有希望,就像在其他系統中一樣,你可以有更好的控制,你可以有更多機會來影響和調節系統的行為。

主持人:我認為這最終變得至關重要。如果所有的開源在 2024 年發展得如此迅速,感覺 2025 年可能終於是開源與閉源平分秋色,甚至在某些方面開源會超過閉源的一年。我認為這種情況的發生不僅僅是因為技術在變得更好,而且就像 Kush 說的,我們確保開源模型部署安全的能力也在提高。過去,人們常說我們必須依賴閉源,因為只有他們真正理解如何進行對齊和確保安全。

Kate Soule:總是有人說只有大型模型提供商才有預算能夠研究如何安全地做這件事,或者只有他們才有這方面的專業知識。現在我認為我們終於開始足夠地打破這種說法了。我們看到 Meta 做得非常出色,發佈了非常大的模型,具有出色的安全對齊能力,並向外界展示你可以公開地做這件事。這不需要躲在黑幕後面進行。

主持人:這是你對 2025 年的預測嗎?我們可以兼顧開放性和安全性?你對未來 12 個月有什麼開源方面的預測?我們從這裏向何處去?我猜測會有更多更好的 Granite 產品?

Kate Soule:我認為明年的重點將更多地放在模型之上的技術棧上,以及優化模型和開發者框架的協同效應上。我們看到了 LlamaStack 的發佈,對吧?我認為我們將看到它隨著成熟而大幅發展,以及其他類似功能和技術棧的開發。我認為我們都也接受了像 OpenAI 端點這樣的工作方式是現有的操作方式。但可能還有其他方式,我們可以繼續創新和改進,現在我們已經積累了一定的經驗。所以我認為我們將開始看到很多開源創新出現在技術棧的更上層,特別是來自那些尋求進一步提高性能的模型提供商。這與其相輔相成,如果你試圖優化和改進推理時的運行效果,你需要一個能夠處理這些需求的技術棧。這就是我認為大部分開發將要發生的地方。

主持人:就像你說的,考慮到有這麼多新聞,很容易導致我們忘記這些都是很新的東西。就在幾年前,這些基本上是不存在的。你我經常談論聊天界面,只是因為 ChatGPT 非常成功,這是我們才開始使用的交互方式。但是從某種程度上說,沒有理由說這必須是我們將來與這些系統交互的唯一方式。我很好奇你們兩位對此是否有預測,甚至是關於界面本身,我們是否會開始以一種與現在完全不同的方式與這些系統交互?

Kush Varshney:我認為共同創造力,共同創作將成為一個更大的趨勢。所以會有多個參與者共同參與,我知道今年也推出了一些 Canvas 之類的協作工具。但我認為這隻會繼續增長。讓我簡單提一下我兄弟的創業項目 Kocree,這個項目的目標是通過 AI 幫助人們共同創作音樂,但更重要的是幫助人們和社會提升他們的幸福感。因為當你與他人一起創作時,這確實是一種積極的體驗。所以我認為未來的發展重點可能會稍微轉移,更多地關注人類的繁榮和幸福感,探索如何讓人們真正一起工作,實現一種開放性的協作等等,這可能會成為未來的主要趨勢。

主持人:也許我們還剩下幾分鐘時間討論這個話題。有什麼人們沒有在談論的事情嗎?在 AI 領域,每個人總是對最新的模型發佈或最新的突破保持關注。對你們兩位該領域的專家來說,什麼是目前被低估的,且真正值得在明年關注的事情?

Kate Soule:我認為在使用 LLM 構建模塊化組件方面將有巨大的機會。我真的希望這個方向能夠蓬勃發展。例如,我們如何達到這樣一個階段:你可以為你的特定任務微調一個 LoRa 適配器,也就是一組為你的任務定製的權重參數,它位於模型之上。現在,這些適配器必須為你要部署的具體模型量身定製,新版本出來後,你就必須重新調整你的模型。

但是我們如何創建這些更通用的版本?例如,有一些有趣的研究成果是通用的,可以在任何地方應用。這就能創造出一些真正優秀的模塊化組件,你可以發佈或者建立一個目錄供選擇和實時配置,並可以隨時替換進出。我認為在推理階段,你可以隨時替換這些類型的組件。

還有一些方面,比如我們現在都聽說過開創性的專家混合(MoE)架構,對吧?所以在這方面我認為會越來越多地關注我們是否可以製作模塊化組件,在架構層面有可以互相替換的模塊化專家模塊。所以我希望,我認為在基礎層面有一些非常有趣的研究正在進行,可以支持在 2025 年關注如何使模型構建和專業化變得更加模塊化。

主持人:我認為這個方向沒有得到足夠的關注。每個人總是認為 AI 就是一個能做所有事情的大模型。Kush,輪到你了,有什麼被低估的趨勢要向我們的讀者指出嗎?

Kush Varshney:我認為智能體的中間件也是一個重要方面。基於 Kate 剛才說的關於模塊化的內容,即使在多智能體系統中有不同的智能體,我們也需要考慮如何註冊它們,如何編排它們等等。從 IBM 研究院的角度來說,我們推出了 Bee Agent 框架。現在還有其他創業公司也在這個領域發力。一些前 IBM 研究人員創辦了一個叫做 Emergence AI 的公司,他們也有自己的解決方案。外面還有其他的參與者。所以,我認為這個領域會繼續增長。再次呼應 Kate 說的,我認為在開發環境和模型之間建立更緊密的聯繫非常重要。我認為,一旦所有模型都達到足夠好的程度,那麼問題就變成了:我們如何更好地使用它們?我們如何有效地使用它們?我們如何更好地開發它們?這就是我們未來該關注的問題。

參考: