獨家對話楊傳輝:AI時代來臨,數據庫龍頭OceanBase如何自我變革?|鈦媒體AGI

2025年,開源AI模型DeepSeek、OpenAI推出的GPT-4.5引爆全球新一輪生成式AI熱潮。
作為AI技術發展「數據、算法、算力」三大要素之一,數據已經成為推動AI技術發展的關鍵因素,也是數字時代的新型核心生產要素。
IDC數據顯示,2024年,全球大數據IT總投資規模約為3540億美元。預計到2028年,這一規模接近6440億美元,五年復合增長率(CAGR)約16.8%。其中,2028年中國大數據IT支出規模預計為621.7億美元,全球佔比約10%,復合增長率24.9%位居全球第一。而當前,中國的數據產量已經佔全球數據總產量的23%。
OceanBase CTO楊傳輝對鈦媒體AGI表示,AI時代來臨,數據處理的邊界得到進一步延伸,如多模態大模型圖片、文本、影片等富媒體的無結構化數據規模增長。而且,數據擴展性、數據規模、碎片化等行業挑戰不斷加劇,OceanBase希望形成一體化數據處理平台,解決客戶需求和難題。
據悉,OceanBase創立於2010年,是國內領先的一體化分佈式數據庫公司。2020年,螞蟻集團旗下的OceanBase成立北京奧星貝斯科技有限公司並開始商業化運作,陸續發佈自研OceanBase4.0、4.2、4.3版本等系列技術產品和解決方案。目前,OceanBase已助力金融、政務、運營商、零售、互聯網等多個行業的2000多家客戶實現關鍵業務系統升級。
2025年4月,OceanBase CEO楊冰發佈全員信,宣佈OceanBase將全面進入AI時代,打造「DATA×AI」核心能力,建設AI時代的一體化數據底座,螞蟻集團接下來也將向OceanBase開放全部AI場景。同時,為保障戰略推進,OceanBase啟動人才和組織體系升級,任命公司CTO楊傳輝擔任AI戰略一號位,併成立AI平台與應用部、AI引擎組等新部門。
5月17日,OceanBase將舉辦2025開發者大會,大會主題同樣與AI相關。大會前夕,鈦媒體AGI與OceanBase CTO楊傳輝進行了一場獨家對話。這也是楊傳輝被任命為OceanBase公司AI戰略一號位之後的首次公開對話。
楊傳輝對鈦媒體AGI表示,打造「AI時代的一體化數據底座」是OceanBase現有戰略的自然延伸,這來自於市場需求以及OceanBase已經具備的產品技術能力。AI時代下,數據規模和數據種類越來越複雜多樣,數據庫與AI的關係不是簡單的DATA+AI,應該是DATA×AI,背後則是處理海量數據和不同結構數據的能力,以及將數據與模型融合的工程能力。作為一體化分佈式數據庫平台,OceanBase將成為AI時代下的最好選擇。
楊傳輝強調,要實現這一目標,OceanBase還面臨不少挑戰,包括技術創新、生態建設等,因此OceanBase需要不斷把握策略定力,讓時間和足夠堅持來確保公司的未來發展。
「我們堅信,AI時代的一體化數據底座,一定能夠滿足用戶需求。」楊傳輝稱。
以下是鈦媒體AGI和楊傳輝獨家交流速記整理(有部分刪減):
鈦媒體AGI:最近許多公司都宣佈加碼AI戰略,而OceanBase也提出戰略升級到「AI時代的一體化數據底座」,那麼對於外界來說,如何思考OceanBase這個轉變?
楊傳輝:首先要明確的是,不是因為有AI熱潮OceanBase才提出AI戰略。本質上,要做「AI時代的一體化數據底座」,是OceanBase現有戰略的一個延伸。
原本數據庫處理大部分是結構化數據,及少部分半結構化數據。隨著IT發展,尤其AI時代來臨後,數據處理的邊界就得到了延伸,需要在數據層面直接處理無結構化的數據,如多模態大模型的圖片、文本、影片等富媒體數據。同時,AI大模型也使得數據規模變得比以前更大。
OceanBase是一個原生分佈式數據庫,我們經歷了雙11海量數據場景考驗,也具備金融場景數據庫的穩定性安全性,同時我們的一體化能力又原生支持多種數據類型,提供向量能力,這種分佈式和一體化產品特色,在AI時代的用武之地會變得更大。
所以,我們戰略由一個「數據庫」,慢慢延伸成「數據底座」,我們希望全方位、一體化處理結構化、半結構化、無結構化數據,同時數據庫的研發團隊天然具備AI基礎設施的工程能力,我們希望將數據與模型也實現一體化融合,這是DATA×AI的關鍵。
從全球來看,最有名的數據庫公司包括甲骨文Oracle、Snowflake、Databricks等,隨著業務場景的不斷變化和演進,它們也會隨著趨勢變化。如今AI時代下,我們也要確保OceanBase的未來會比今天更流行,在AI趨勢下抓住新的應用場景。大家會發現TP/AP負載、向量、搜索等技術的邊界會越來越模糊,最終企業需要AI時代下的一體化「數據底座」,這會讓OceanBase成為AI時代下最好的一個選擇。
鈦媒體AGI:2024年鈦媒體和ITvalue舉辦的數字價值年會上,OceanBase CEO楊冰提到AI對於數據庫的重要性:一個是AI for DB,一個是 DB for AI,如今,OceanBase提出的DATA×AI是怎樣一種新變化?
楊傳輝:我們對數據庫、AI兩者關係進行了深入思考,我們認為,兩者不是簡單的DATA+AI,而應該是DATA×AI。
一方面,客戶的數據天然存儲在OceanBase這類數據庫,而AI大模型原本也具備token這類公有的通用數據,兩者應該有更融合的化學反應。另一方面,大模型在技術層面主要分為算法能力、工程能力、數據能力、應用能力,在工程能力上,由於工作的本質都在於如何讓數據處理更高效,解決計算、資源、效率等問題,除了數據能力外,數據庫的研發團隊也天然具備這一工程能力,這能夠幫助DATA與AI技術進一步融合,也就是實現DATA×AI,在開發者大會上我也會進一步闡釋清楚。
鈦媒體AGI:目前,生成式AI技術面臨數據量通貨膨脹、數據孤島碎片化嚴重、數據分析需求爆發等挑戰,對於這些變化,OceanBase做了哪些新的工作?
楊傳輝:AI確實給數據處理的工作帶來了挑戰,比如你提到的數據規模、數據孤島、多模態挑戰,尤其是數據規模會變得越來越大,對數據庫的要求很高。
OceanBase的分佈式能力、一體化架構都能解決相關問題,但只是在個別問題上還沒有做到完美,所以我們一直在堅持加強擴展性、工程能力等層面。
我們的4.3版本和4.4版本,基本上都沿著一體化方向繼續前進。AI 時代更是一種延伸,變化在於,我們的發展會更大膽一些,例如更好地處理無結構化數據,進一步加強我們的向量能力等。
鈦媒體AGI:今年OceanBase開發者大會主題也是AI,預計會有哪些發佈?
楊傳輝:首先,我們會發佈AI相關的數據庫產品和能力,在包括向量數據庫等一體化數據底座的數據處理能力上有很大提升。無論在性能,還是性價比上,我們基本都達到了業界一流水平。
其次,我們會發佈RAG服務。我們在 AI 領域原本就有很強的技術能力,將以RAG服務方式幫助企業通過一體化把自有數據和採用公開數據模型相結合,獲得更大的業務價值。
最後,我們也會發佈OceanBase自身應用大模型取得的成果。
鈦媒體AGI:現在做AI基座模型的企業越來越少,很多模型企業已經不再做預訓練,而是做推理模型,或是行業模型,數據參數規模沒有之前那麼大了。那麼,客戶數據處理需求會持續不斷嗎?
楊傳輝:這可能是兩個問題。
第一,我是這麼理解預訓練技術的。本身預訓練門檻越來越高,像考試考到90分以後,再往上評分就越來越難,需要更多的數據和工程能力積累。但是,我們也可以看到,也有很多企業對預訓練模型進行更大的投入。未來我相信,少數幾家公司還是會不斷提升能力,尤其後續強化學習可以挖掘的空間很大。
第二,預訓練和對數據的需求是兩個問題,特別是對於OceanBase這樣的一體化數據底座來說,我們的數據量會越來越大。因為數據底座的數據量跟預訓練數據不一樣,預訓練可能是把token拿過來,但一體化數據底座的數據量取決於AI應用量級。AI應用越多,數據量越大,而當下AI應用需求不斷爆發,加上 AI 應用對數據需求、數據種類、數據結構需求不斷增加,最終AI對數據的需求只會越來越大。
鈦媒體AGI:隨著企業在使用大模型過程中越來越多採用自有數據,模型的「幻覺」未來會變為0嗎?「幻覺」會影響AI發揮價值嗎?
楊傳輝:模型的「幻覺」不能完全消除,但會降低「幻覺」。
有時候我們需要換一種思維模式,AI大模型原理是預測下一個token,這就對算力的要求很高,是從很多詞語當中進行選擇。同時,AI調用模型也是一個「煉丹」的過程,不是一個確定性問題,而是概率性問題。我們需要從兩方面看待「幻覺」這件事。
一、隨著AI推理訓練、強化學習等技術發展,模型幻覺肯定會變得越來越低,而且語料準確率也會不斷提升,它有一個技術紅利。
二、儘管有幻覺因素,但今天的AI技術水平,已經能夠在很多場景當中應用,未來慢慢還有很多新的產品浮出水面。未來5年,如果AI部分幻覺降低,另一部分的技術能力充分發揮出來,在各個應用場景裡面使用,將會有非常巨大潛力。
鈦媒體AGI:要實現面向AI時代的一體化數據底座,OceanBase還面臨哪些挑戰?未來的更大終極目標和發展前景有哪些?
楊傳輝:挑戰還是比較多的。
第一是技術本身的挑戰。我們對於發展前景想得很清楚,OceanBase優勢也很多,但是如何真正讓DATA x AI,兩者結合在一起,把幻覺、成本變得更低,讓數據融入AI,這本身的技術挑戰就是世界級的,大家都在探索。
第二是生態的挑戰。無論是數據底座,還是數據庫,本質上還是要轉化為千萬家企業要用的技術產品,這是一個過程,涉及開源策略、商業策略、服務能力、生態層面等細節,這些都需要策略、時間和足夠的堅持,一個都不能少。具體來說,策略包括兩個部分:一是由數據庫產品到AI時代的一體化數據底座,適應AI時代需求,讓產品迭代速度更快、更敏捷;二是更加開放,鍛鍊研發團隊能力,讓團隊擴展外部能力。
從數據庫生態來講,OceanBase的開源社區已經是國內最強、最流行的數據庫社區,但在全球我們還有差距,如何讓生態真正做到「全球級」,也是一個重要課題。
至於終極目標,我認為OceanBase無論是做數據庫,還是做數據底座,本身依然專注於數據處理,這是我們的核心。隨著數據種類,數據規模不斷變化,OceanBase要幫助用戶完成數據處理,成為全球數據處理領域最好的一個選擇,這個目標永遠都沒有變。
很多人認為,OceanBase是強大的「分佈式關係型數據庫」,但我們的未來在於做AI時代的一體化數據底座。所以我們不想把自己用「關係型數據庫」的標準來卡在「舒適圈」裡面。我們產品是一流的,我們工程能力是一流的,因此需要用一種更開放的心態看待最新的業務場景和數據。
我們堅信,AI時代的一體化數據底座,一定能夠滿足用戶需求。
(本文正選於鈦媒體App,作者|林誌佳)