大模型是新的數據庫!螞蟻開源負責人王旭:應用開發新範式,新一代LAMP正在形成 | MEET 2025
編輯部 整理自 凹非寺
量子位 | 公眾號 QbitAI
大模型的開源與閉源之爭至今仍是熱議話題,畢竟討論核心觸及技術發展路徑、產業生態構建,以及對未來創新動力的影響。
螞蟻集團開源技術委員會副主席王旭立下斷言:
具備數據生成式能力的模型正在取代數據庫在傳統應用的核心的位置。
王旭目前負責螞蟻開源技術增長和容器基礎設施。
在MEET大會現場,他以開源為題,以數據為證,給我們揭示了不同視角下大模型技術架構、基礎設施以及創新應用到底該往何處去。
他進一步表示,在AI時代,新一代LAMP正在形成,並且模型相比於數據庫更加具有可遷移性,相應的數據傳輸鏈路、數據安全性需求也在崛起。
MEET 2025智能未來大會是由量子位主辦的行業峰會,20餘位產業代表與會討論。線下參會觀眾1000+,線上直播觀眾320萬+,獲得了主流媒體的廣泛關注與報導。
核心觀點梳理
-
在過去一年半,尤其是近一年里,AI技術滲透進各種各樣的應用。雖然除了直接和模型交互來生成圖文之外,並沒有太多的「新業務」出現,然而,單單是直接的數量提升和加速就已經可以引發非常顯著的變革了。
-
AI Agent框架項目數量在Llama2開源模型發佈之後爆髮式增長,但沒有哪個項目如今已經「一覽眾山小」。
-
我們程序員這一群體從害怕AI,理解AI到擁抱AI;而我們日常的生產力應用都在逐漸變得智能化,從「錄入工具」轉向「有靈魂的協作夥伴」
-
GenAI時代,基礎設施變了,但是也沒有完全變。
-
具備數據生成式能力的模型正在取代數據庫在傳統應用的核心的位置。在AI時代,新一代LAMP正在形成,並且模型相比於數據庫更加具有可遷移性,相應的數據傳輸鏈路、數據安全性需求也在崛起。
(在不改變原意的基礎上,量子位做了如下梳理)
從錄入工具到「有靈魂的協作夥伴」
謝謝主持人,感謝大家參會。首先簡單自我介紹一下,我叫王旭,負責螞蟻集團的開源工作,同時負責了一個容器基礎設施團隊。五年半以前,我一直在做容器領域的開源創業,現在在螞蟻,也是基礎設施域的架構師。
分享這些經歷是為了向大家說明,與剛才發言的幾位嘉賓不同,首先我的背景是做基礎設施和系統的,不是做智能的,另外一方面我是做工程的,不是做研究的。儘管我也擁有博士學位,但研究領域是電路專業。今天告訴大家這些背景,是希望可以給大家帶來一個不同角度的思考。
螞蟻集團的開源技術增長團隊是隸屬於架構部的,其中一個工作目標就是利用對開源社區的洞察來為螞蟻的架構和技術的演進提供指引。
對於規模較大的公司而言通常會有內部延續性技術演進、也需要對外部技術新方向做探索。在這個過程中,我們會從社區中獲取更中立、多方參與的數據信息,通過這些信息形成對整個技術平台、架構和技術演進的全面看法。
這次我們帶來了一些社區數據,這些數據未必是全面的,也未必完全公正客觀,但可以反應一個沒有某一公司立場的外部的視角,我把這些數據帶到這裏來跟大家做一個簡單的分享,希望可以提供一些有趣的洞察。
在過去一年半,尤其是近一年里,AI技術滲透進各種各樣的應用。
雖然除了直接和模型交互來生成圖文之外,並沒有太多的「新業務」出現,然而,單單是直接的數量提升和加速就已經可以引發非常顯著的變革了——
以螞蟻這樣一家與金融相關的科技公司為例,有些業務涉及到財報研讀,傳統的分析非常耗費有經驗的人力。有了大模型之後,可以及時並全量地高效分析財報。雖然目前的大模型的工作還沒有人做得精緻且有靈魂,但是單單「量大」、提高效率就是過去無法企及的了。
構建這類應用需要一些基礎設施,螞蟻也在前一段開源了支撐這一工作的多智能體框架agentUniverse。
當然,這樣的智能體框架遠不止一個。
我們調取了近兩年的整體開源社區的部分數據,進行聚類之後提取出來一些用於構建AI應用的框架、智能體框架以及其他構建AI快速應用開發的工具。
在ChatGPT之後,尤其是Llama2開源大模型發佈之後,各種開源AI應用框架、智能體框架層出不窮,數量增長非常迅猛,配合快速增加的應用場景,這些框架廣泛應用在各種專業領域。
上圖的曲線顯示了在過去兩年的時間里項目的熱門程度或者活躍程度。
其數據依據並不是簡單地基於GitHub Star,在這個程序員的社交網絡中也有很多其他方式的互動方式可以用作評估因素,比如項目的參與人數,參與者來自的公司與組織分佈,不同組織的參與者之間的互動等等都是我們考察的因素。
目前開源社區有很多AI Agent框架項目,他們的數量大概在Llama2開源模型發佈之後爆髮式增長,沒有哪個項目如今已經「一覽眾山小」。
我們可以從上圖看出各個項目有明顯變化的趨勢,有的虎頭蛇尾,有的不斷攀升。雖然評價一個項目有很多因素,這個趨勢並不完全代表項目運營狀況,但是可以用於參考社區發展情況。
以上大部分項目都使用Python來開發,並非傳統大廠Java應用。很多用戶用Python,甚至低代碼的方式填一下表單就可以「30分鐘開發你自己的AI應用」,低代碼交互式生成方式的熱度遙遙領先。AI框架正在不斷貼近應用場景,給我們帶來很多變化。
如果剛才說的是以AI能力為中心設計的所謂「原生AI」應用,那麼傳統應用領域的應用和開發工具也在越來越多受到AI的影響。
以程序員自己為例,我們程序員是一個挺有意思的群體,一邊每天在擔心自己可能被AI取代,一邊又在開發AI取代自己。當AI開始有能力提供生產力的時候,他們又立刻開始用AI改造自己的工具。
所謂「害怕AI,理解AI,擁抱AI。」
上圖是隱藏VSCode後過去兩年內的IDE開發工具的社區活躍度(如果VSCode在的話是在屏幕上面的位置)。
藍色的曲線是最近躥紅最快的開發工具項目cursor,現在這個領域裡面帶上AI相關標籤協作式開發已經非常火爆了。
這反映一個趨勢,各種我們日常的生產力應用都在逐漸變得智能化——從「錄入工具」轉向「有靈魂的協作夥伴」,一個人也可以和AI來協作。
對於一些有數據安全顧慮的公司,肯定不能隨便使用外部大模型,比如螞蟻內部,我們也有自己的IDE框架CodeFuse來通過AI方式輔助大家編程。
GenAI時代基礎設施變了,但沒完全變
那麼在這樣的背景下,基礎設施到底是否發生了變化呢?
變了,但是也沒有完全變。
在GenAI時代背景下,算力規模迅速增大,比如說馬斯克的十萬卡的集群,這時的基礎設施團隊為AI不論訓練還是推理準備的資源,大家首先想到的是以GPU和高性能網絡為核心的智算硬件。
那麼從硬件的角度來說確實變化巨大,然而我們看到最底層軟件基礎設施沒有太大變化,只是在技術方向上做了不同的取捨。
即使是訓練,也是在同一套分佈式系統的框架之內,利用分層次的各種手段,對性能、穩定、成本和安全做不同的取捨。
「不同的取捨」所帶來的基礎設施的最大變化,是來自於應用範式本身的變化而非硬件的不同。
從支持應用需求的方面,很多新的元素在為AI打造基礎設施過程中誕生了。架構上可能看起來變化不大,但是生成式AI誕生的需求變化產生了更多、更深遠的影響。
當傳統的應用「非原生AI應用」都在向AI方向演進,開始基於模型構建,這樣演進帶來什麼變化?
新一代LAMP正在形成
我們可以用觀察到的數據得到一些簡單結論——具備數據生成式能力的模型正在取代數據庫在傳統應用的核心的位置。
剛剛徐立老師說下斷言經常被打臉,但是作為一個架構師總是要敢於下斷言,我先下斷言,以後再說打臉的事——
在AI時代,新一代LAMP正在形成,並且模型相比於數據庫更加具有可遷移性,相應的數據傳輸鏈路、數據安全性需求也在崛起。
所謂LAMP是在2000年左右形成的Web2.0應用開發基本的範式,傳統數據庫是整個架構的核心。對大型公司來說,數據庫承擔非常大的海量數據存儲,基礎設施是圍繞數據庫來打造的。
我們觀察到AI時代的不同——現在基礎設施開始圍繞模型展開了。從模型的生產到服務,如何保證模型尺寸不大的同時又能進行大規模傳輸,對基礎設施的每一個環節都在產生深遠的影響。
在新範式的影響下,做基礎設施的人或者相關參與者應該把精力投到哪裡去,應該開發什麼,是去寫新的框架還是改進基礎設施,抑或是準備數據等等,這是我們希望大家可以從裡面獲得的有價值的信息。
這個時代對我們做基礎設施或者軟件行業的人來說,有沒有變化的地方,也有變化很大的地方。這些變化來自於整個時代應用變化的需求,可以幫助我們調整軟件架構和向前演進我們的基礎設施。
以上就是我今天的分享,我們希望從開源角度給大家帶來一些啟示,謝謝大家!