螞蟻集團CTO何征宇揭秘AI四大挑戰:未來所有數據公司都將成為AI公司

新浪科技訊 5月18日上午消息,5月17日,在OceanBase第三屆開發者大會上,OceanBase發佈面向AI的應用產品PowerRAG,該產品提供開箱即用的RAG應用開發能力,是OceanBase面向AI時代的探索之一。此前,CEO楊冰曾通過全員信宣佈公司全面進入AI時代。OceanBase正致力於構建Data×AI能力,面向AI時代推動一體化數據庫向一體化數據底座的戰略演進,有望在未來實現從算力、基礎設施,到平台層、應用層、交付形態的全方位佈局。

螞蟻集團CTO何征宇在大會現場分享了題為《AGI時代,海量數據帶來的質變》的演講。他認為,海量的互聯網數據成就了今天的大模型,但大模型幻覺問題的源頭也是數據問題。數據決定著大模型的能力上限,且依舊有四大挑戰:一是數據的獲取成本顯著增加,二是嚴謹的行業數據稀缺且流動困難,三是多模態數據需要更強的處理能力,四是數據的質量評估難。

何征宇表示,螞蟻集團將支持OceanBase在金融、醫療、生活等AI核心場景的突破,支持OceanBase去實踐DataxAI的理念和架構創新。同時繼續支持OceanBase開源開放,把在Data×AI上的能力逐漸開放給行業,為AGI的夢想添磚加瓦。

以下為他的分享全文:

各位OceanBase的開發者大家好!非常榮幸能夠有這次機會和大家聊一聊通用人工智能(AGI)。為什麼我會來這次會議,我其實覺得首先要講一句話,沒有數據肯定就沒有今天的AI和大模型;沒有開發者的興起和爆發,也就不會有AI應用的爆發。正是數據的力量鑄就了今日的AI與大模型,而開發者生態的蓬勃發展和持續創新,是真正推動AI應用爆發的核心引擎。我今天想分享的題目是《AGI時代,海量數據帶來的質變》

AI的發展其實並不是一帆風順,甚至它不是線性的。這已經是AI的第四次爆髮式發展了,AI終於變得通用,這裏蘊藏著巨大的市場機會和商業機會。當ChatGPT發佈的時候,你會看到很多原有需要做專用模型的任務,包括翻譯、寫作、對話等等一都需要智能模型,從我們的視角看過來,這是符合“長尾理論”的。大家不知道有沒有印象,知名科技雜誌《連線》前主編Chris Anderson在早年著作中提出的經典案例:在書中,他以亞馬遜書店為例指出,其成功關鍵在於將稀缺難尋的長尾書籍悉數納入銷售體系,也就是它把所有難找、長尾的書本全部上架了。這背後遵循的冪律法則對技術從業者而言並不陌生——當海量長尾需求聚合時,其總和將超越任何單一主流市場的規模。

今天AGI意味著什麼?當前AGI的突破在於單個模型或解決方案能夠完成多個細分AI任務。隨著這些基礎功能的實現,我們預見將湧現出指數級增長的長尾應用需求。這些需求的疊加效應極有可能超越現有AI市場的總和,預示著一場由技術革命驅動的商業爆發即將來臨。更多的人會享受到更大更好的AI服務。對於基礎設施開發者和技術團隊則面臨三重挑戰——構建足以支撐海量需求的服務架構,持續降低計算成本,以及不斷突破智能系統的性能極限。唯有在規模效應、成本控製和技術突破三個維度同步推進,方能把握這場智能革命的戰略機遇。所謂追求智能的上限。

對數據意味著什麼?“數據的邊界決定著智能的上限”—這句話很多人都有共識的。物理學家費曼的名言“我無法創造的即我無法理解”也尤為深刻,成為生成式人工智能的指引。在此啟示下,我們可以說:無法數字化即無法智能化。一方面,數字化的過程即是創造智能的過程:模型本身需要數據這個比較好理解;此外,將物理世界轉化為數字形態,不論是文字還是影像,都是人類智能的結晶。從另外一方面說,當前大模型面臨的大多數幻覺問題,其本質源於特定領域的數據缺失或質量缺陷——當模型遭遇數據空白區域時,由於模型訓練目標是流暢表達,基於概率的生成會導致預測失準。這一認知反向印證了基礎邏輯:優化數據質量與完善數據體系,才是解決幻覺最源頭去做的事情。

今天,我們認為AGI在數據領域依然面臨很多的挑戰,這裏簡單跟大家分享一下我們的看到:

一是數據的獲取成本顯著增加。OpenAI首席科學家Ilya Sutskever曾用“數據是人工智能的石化原料”的隱喻揭示行業困境:作為大模型訓練基石的互聯網公開數據資源已接近枯竭。這種枯竭並非物理意義上的耗盡,而是指唾手可得的、廉價的數據資源已被用完。因為互聯網上的數據,大家都可以free access。廉價數據用完了,就只剩真正昂貴的數據。未來一個企業成功與否,我們判斷不是看它如何消費數據、應用數據,而是看它如何能夠高效率的產生高質量的數據,這將成為未來任何一個數字化企業的成功標準。

二是行業數據流通難。我們觀察到了一個本質的問題,行業嚴謹性與數據可得性呈反向關係,就是越嚴謹的行業數據是越稀缺的。高嚴謹性行業(如法律、醫療)存在三重特徵:數字化進程滯後、數據質量要求嚴苛、核心數字化知識沉澱不足,這共同導致了高質量數據的結構性缺失。而生成式AI在專業領域的有效應用,既需要高密度的垂直領域知識(包括形式邏輯、因果推理等認知範式),又依賴跨行業知識遷移能力。以DeepSeek-R1為例,其通過代碼邏輯向文本創作遷移已驗證技術可行性,但專業領域的智能化突破仍面臨關鍵瓶頸——如何系統性地將行業特有的思維範式、專業規則等隱性知識轉化為可計算模型?該瓶頸若無法突破,將嚴重製約專業領域的智能化進程。

三是多模態數據處理難。我認為核心不可忽視的一點是,我們身處的世界是三維的,並不像語言一樣是線性的。未來的數據不僅僅應該包括文本,肯定包含大量的視覺,甚至是觸覺,包括現在機器人講的更多本體的感覺,等等一系列的問題。可以預見,即便當前大模型已經能夠處理數十億量級文本單元(Token),未來數據規模仍將呈指數級增長。面對未來更海量的數據,我們將如何處理,這也是另外一個非常大的挑戰。

四是質量評估難。大家知道大模型最難的一個問題是怎麼評估,評估的質量又決定著這個模型的質量。評估到底是什麼?評估本身也是數據,它需要大量的評估數據,需要大量具備人類思維,或者人類知識數據。這些數據如何獲取也是一個很大的挑戰,不然我們訓練大模型永遠就像“煉丹”一樣,只有出爐了之後才知道好不好。

以上問題是目前我們觀察到的挑戰。應該如何攻克它,這是個open question,是很多公司都在攻克的,能夠解決好這裡面任何一個問題的公司都有可能成為一個偉大的商業公司。我們有一句話可以分享給大家:未來所有數據公司都將成為AI公司。

OceanBase是為理想而生,更加是為場景而生。過去OceanBase自研海量交易數據的技術創新,應用到螞蟻集團內部的場景,我們針對當年所面臨的IOE價格的挑戰,率先應用了全分佈式的數據庫架構。在這個之上,我們構建了包括容災,包括海量的數據服務能力等技術體系。可以毫不謙遜的說,OceanBase是螞蟻集團持續創新,突破行業技術難題的代表。面向未來,我堅信OceanBase將為實現AGI夢想繼續綻放。在上述的問題里,我相信OceanBase將大有可為。

螞蟻集團將支持OceanBase突破一些關鍵的AI場景,包括在金融、醫療、生活等螞蟻AI的核心場景的突破,支持OceanBase去實踐DataxAI的理念和架構創新。今天AI的競爭已經進入到深水區,AI的競爭不僅僅只是模型的競爭,它更加是一個公司乃至行業基礎設施的競爭,基礎設施的效果將直接決定模型的效果。

同時,螞蟻集團將繼續支持OceanBase開源開放,把Data×AI的能力逐漸開放給行業,為整個社會提供Data x AI的Infra創新服務,我們想借助一點小小的力量,為我們的行業,為AGI的夢想添磚加瓦。

最後,我想以印在50英鎊上的圖靈名言結束今天的分享:“這不過是將來之事的序章,也不過是將來之事的影子。”AGI的夢想很大,期待與各位開發者同行。