張兵:AI的基礎是CDM
文 | 鈦資本研究院

DeepSeek使算力和算法走向平權,AI場景化商業化應用推動數據資產化加速,數據資產化的前提是合規,合規的原則是以第三方的客觀手段對業務留痕,而符合應用一致性和時間完整性的複製數據管理CDM是AI數據的重要基礎設施。
最近,鈦資本邀請中國CDM領先廠商雲信達科技的創始人張兵進行分享,為大家帶來一些AI投資熱點下的「冷思考」。主持人是鈦資本郭吉榮,他畢業於南京大學,關注信息技術應用創新、新能源等領域。以下為分享內容:
AI三大基礎生產要素
今年春節期間,DeepSeek現象引發了全社會對AI的廣泛關注,它不僅刺破了美國股市的泡沫,也標誌著AI技術的普及化。算力和算法,其實在走向平權。
DeepSeek現象消除了算力和算法的神秘感,使得算力和算法走向平權化,為行業和企業提供了實際的商業價值。AI正在通用化,大舉進入越來越多的行業和場景,大模型下一階段的訓練必然觸及行業或企業數據乃至個人隱私數據,數據繼算力算法之後成為最稀缺的資源。
數據取代模型成為AI最重要的生產要素,通用人工智能AGI加速了數據資產化,私域數據的全方位、全流程、資產化管理,以及能夠和算力、算法無縫結合,強烈需要新型數據基礎設施的出現。企業開始將數據視為資產,但同時也意識到數據的保密性,不會輕易公開,以防企業秘密被公開模型學習後喪失競爭優勢。
數據資產化並非新概念,早在兩年前,國家財政部就修改了會計準則,允許數據資產入表,同時成立了國家數據局,這標誌著數據資產化進程的加速。數據資產化管理成為企業面臨的緊迫問題,需要新型的數據基礎設施來支持。
隨著數據資產化進程的加速,企業對其私域數據的全流程資產化管理變得尤為重要。這一進程不僅改變了人們對數據的認知,也推動了政府對公共數據資產的管理,從大數據應用轉向了數據資產化管理。因此,數據資產化和新型數據基礎設施的出現,對企業和政府都具有重要意義。
數據基礎設施是超越IT基礎設施的新型基礎設施
數據基礎設施、傳統IT基礎設施有何區別?儘管雲計算代表了傳統IT基礎設施的高峰,但數據基礎設施與之有根本不同。IT基礎設施對最終用戶而言是服務而非資產,而數據則是用戶的專屬資產。
數據基礎設施是虛擬的、無形的,具有高維度特性,與物理實體的低維度IT資產形成對比。數據資產不僅包含時間維度,能夠承載過去、現在和未來的信息,這使得數據成為高維度的資產。
AI企業級應用需要一個可管理的數據基礎設施,該基礎設施需貫穿數據採集、管理和流通的全流程,即端到端的數據管理。
數據基礎設施必須符合合規性和敏捷性兩個目標。合規性指的是數據的一致性和完整性,敏捷性則要求數據可見且可操作。數據資產化是DeepSeek現象後最顯性化的現象,加速了數據生產化,這對企業來說是一個迫在眉睫的現實問題,因此需要新型的數據基礎設施來支持。數據資產化進程的加速意味著企業對其私域數據的全流程資產化管理變得尤為重要。
1、複製數據技術與AI數據基礎設施
數據管理的底層技術,特別是「複製」(copy data management)技術很重要,複製技術是將無形的數據資產從有形的IT基礎設施中分離出來的關鍵,它既是動詞也是名詞,代表著信息在自然界中存放和傳遞的形態。
數據基礎設施的構建基礎是複製技術,能夠承載高維度的數據空間。真正的可信數據空間是基於虛擬數據資產的高維度空間,而構建的。隨著AI大模型算法和參數調整進入瓶頸,當前最需要的是真實、有效的未經清洗的原始數據(raw data)。
為了支撐AI的數據基礎設施,複製數據技術需要滿足幾個條件:首先,它需要能夠將數據要素從其他IT要素中分離,實現數據與原始應用的解耦合;其次,數據需要符合合規性和敏捷性,即數據的一致性、完整性以及可見可操作性;最後,這些條件需要貫穿數據採集、管理和流通的三個階段。
傳統的數據中心和雲計算服務(如SaaS)並沒有解決數據與應用之間的解耦合問題。為了將數據從應用中分離出來,可以使用的技術包括複製技術、ETL(提取轉換加載)和數據備份。只有元格式的數據備份技術同時符合合規性和敏捷性原則,能夠與原始應用結合。
2、數據備份與數據合規、數據質量
數據備份不僅僅是簡單的三倍存儲,而是一種對業務數據的留痕,是業務連續性的關鍵。在AI時代,備份數據因其未經清洗、真實、有效和全面的特性,成為AI所需的高質量數據源,同時也是合規性的重要保障。數據備份的首要目的是作為合規審計手段,它能夠確保數據的一致性和完整性,並且具有時間戳,為數據的全生命週期留痕。對生產數據進行合規審計是業務需求,而非僅僅是IT概念。
數據備份的真正價值在於其對數據資產或數據要素的價值。可以把數據看作人類生命體,具有不同層次的需求,從存儲、安全到合規、定價和價值實現。
數據備份與數據保護有所區別,數據保護是低端需求,關注業務連續性,而數據備份是更高層次的業務屬性需求。數據備份是數據管理合規流程中的關鍵一環,是數據需求由低到高演進的必經階段。
數據備份如何展現數據資產的高維度屬性?即數據備份能夠使數據穿越時空回到過去,恢復到乾淨、完整、良好的版本。這也是數據資產價值實現的途徑。
CDM顛覆力量湧現,企業級數據管理成AI新基礎
2024年對美國CDM(Copy Data Management)技術市場而言是關鍵的一年,市場經歷了顯著變化。2025年2月8日,全球知名的數據備份廠商Veritas被一家美國創新的CDM廠商Veeam收購,其經典產品NetBackup將轉為Veeam的資產,收購金額達30億美元,由英偉達和IBM提供資金。此外,另一家CDM企業Rubrik在諾斯達克上市,市值一度超過150億美元,目前約140億美元。
2024年初創的雲備份態勢管理廠商Eon在資本All in AI的時代實現10個月內2億美元的融資,Eon專注於提供下一代雲備份平台,釋放備份數據的即時訪問能力。雲備份的真正潛力在於備份數據的即時訪問能力,這在2024年引發了重大認知轉變。一家成熟的雲備份公司Veeam去年12月又獲得了20億美元的新融資。
這些變化表明備份技術正在向CDM技術轉型,以適應雲數據管理和即時訪問的需求。
1、CDM破解數據管理不可能三角
CDM技術解決了數據管理的不可能三角問題,即一致性、可用性和分區容忍性。以12306購票APP為例,說明了分佈式系統的CAP不可能三角,即在分佈式系統中,一致性、可用性和擴展能力不能同時得到。這表明,CDM技術在數據管理和備份方面具有突破性,能夠提供更高效的數據管理和備份解決方案。
IT服務和金融系統的特性,特別是它們在一致性、可用性和分區容忍性(CAP理論)方面的不同表現。儘管IT服務可以隨時隨地提供查詢服務,但這些服務並不總是保證一致性和可用性。
以12306購票APP為例,分佈式系統在查詢時提供高可用性,比如查票的時候,你點擊一下,各個車次有多少票就出現了,它可以在全國各地分佈成千上萬台甚至幾百萬台服務器。但在佔座和付款的時候,通常需要一個集中式系統來保證,實現一致性和可用性,背後要有一個強系統,實現讀寫分離——有限的幾台機器來提供全國所有用戶的下單。
金融系統要求強一致性和可用性,不能像12306彩票系統那樣無限分區,因此金融系統是一個強一致性的系統,不可能實現無限分佈式。
數據管理的不可能三角,即合規性、可管理性和敏捷性。傳統的數據備份雖然符合合規性並具有數據生命週期管理的優勢,但在敏捷性方面存在不足,因為傳統備份數據通常不能直接訪問,這限制了其敏捷性。比如傳統備份將數據打包壓縮成一個專有格式的壓縮包,這種數據包在電腦上無法直接打開,只能在手機上恢復,這限制了其敏捷性。
一些美國創業公司正在提供備份數據的即時訪問能力,這正是敏捷性的體現,但這與傳統備份的強合規性存在矛盾。傳統備份的目標是盡快將數據打包保存下來,而沒有考慮數據的即時訪問和敏捷性。CDM(Copy Data Management)技術實現了合規和敏捷之間的平衡,解決了數據管理的不可能三角問題。
2、創新CDM技術——原格式、黃金副本、虛擬副本
CDM(Copy Data Management)技術通過結合黃金複製(Golden Copy)和虛擬複製(Virtual Copy)解決了數據管理的不可能三角問題,即合規性、可管理性和敏捷性。黃金複製是原始業務數據的一致性備份,具有合規性,但不可修改。虛擬複製則可以在毫秒級時間內從黃金複製生成,零成本且可無限生成,提供指針式訪問,實現敏捷性。這種鏈接實現了原始合規數據的敏捷性,平衡了合規和敏捷。
CDM技術進一步破解了數據管理不可能三角,通過元格式複製、黃金副本管理和虛擬副本服務,解決了數據採集、管理和流轉三階段的問題。數據採集階段,為了業務數據的敏捷性,使用了ETL(Extract, Transform, Load)技術,這是一種根據特定需求人工調整、清洗並加載到人為定義的新數據結構的過程,但不具備合規性。
CDM技術是下一代數據管理基礎設施的關鍵技術,它通過合規和敏捷的平衡,為數據管理提供了新的解決方案,為數據採集、管理和流轉提供了端到端的解決方案,實現了數據管理基礎設施的技術進步。
以前,有銀行因無法提供原始交易數據而被法院駁回,法官認為數據倉庫的數據不是原始的,這也突顯了電子數據作為證據的局限性。儘管銀行運作規範,但數據倉庫中的數據經過ETL(Extract, Transform, Load)過程,並非原始憑證,這在司法系統中難以穿透審計。ETL過程由人工編寫,法官難以認定其規則的合規性。
對比大數據和數倉時代與AI時代數據採集方法的差異,可以看到,在BI時代,人們先有商業目的,再建模找數據;而在AI時代,由於AI大模型的強大能力,人們更傾向於使用未經清洗的原始數據(raw data)。這種變化反映了從目的驅動的數據採集到數據驅動的模型構建的轉變,強調了原始數據的重要性。
這種生成式AI可以與原始合規數據對接,因為它沉澱了企業業務的所有歷史數據。這種對接是RAG(Retrieval-Augmented Generation)生成式檢索與原始合規數據之間的橋樑,使得AI可以直接利用未經清洗的業務數據進行分析和決策。
認知數據資產
數據資產化不僅是財務屬性,更關鍵的是數據的業務屬性,即數據的定價、流通和交易能力。數據首先需要具備IT屬性,因為數據是現代信息技術的產物,沒有現代IT技術,數據可能還停留在書本或竹簡上。
數據資產化需要考慮數據的合規性,這是數據資產化的物理保障。數據備份,即原始複製,是確保數據合規性的基礎。數據資產化過程中,合規性是關鍵,沒有合規性的數據資產化是空中樓閣,無法實現。
儘管會計準則在2023年有所修正,允許數據資產入表,但實際操作中存在困難,因為合規性難以認定。許多人試圖通過法律手段來證明數據資產的合規性,但這並不是一個可持續的解決方案。數據資產化過程中的合規性問題可以通過CDM(Copy Data Management)技術來解決,因為CDM技術可以幫助確保數據的合規性和敏捷性。
數據資產化是現代金融業務中不可或缺的一部分,需要正確的技術和管理策略來實現。數據應該從其所在的IT基礎設施中分離出來,以便在不同的地點或雲平台上展現其價值,但同時不能帶著IT屬性到處移動。
數據資產化過程中的一個關鍵挑戰是確保數據的真實性和有效性,這需要通過技術手段來實現,而不是僅僅依賴法律文件或印章來證明。為了克服這些挑戰,需要新的技術和管理策略,以及對數據分佈和計算資源的合理規劃。
美國企業普遍採用多雲或混合雲架構,以避免將IT基礎設施放在一個籃子裡的風險。這種架構允許企業在多個雲服務提供商之間分配應用和數據,從而提高靈活性和降低風險。
美國的CDM公司如Rubrik正在幫助企業實現數據的多雲管理,這涉及到兩個關鍵技術概念:cloud on和cloud out。Cloud on指的是數據以複製(copy)的方式在多雲環境中擴展,而cloud out則是指數據在多雲上的任何地方都可以被激活使用。這種技術使得企業能夠低成本、靈活地管理和調用數據。
如果企業的數據分佈在多個雲上,那麼在每個雲上都存儲一份數據的成本並不高,但可以實現數據的多雲分佈。CDM技術的核心在於,如果數據以元格式的複製形式分佈在多雲上,那麼這些數據可以以虛擬複製服務的形式隨時被激活使用。這意味著企業可以根據需要在任何雲上啟用計算資源,使用後可以釋放資源,從而實現低成本和高靈活性。
數據分佈和數據調度本質上是一回事。CDM技術可以貫通數據要素的五個層次的需求,幫助國內重要企業進行數據備份的國產化升級替換,從而避免使用過時的打包備份技術,實現數據管理的現代化。
CDM與AI之間存在雙向賦能關係
國產數據備份技術不僅要成為AI大模型的數據底座,還要實現數據管理和提取,成為AI應用的引擎。CDM與AI之間存在雙向賦能關係:一方面,生成式AI有助於提升原始數據的質量;另一方面,備份數據能夠為AI大模型的推理提供數據支持。
應用數據敏捷性很重要,許多業務應用需要及時使用原始數據。在審計和業務仿真測試中,需要訪問原始數據。
隨著業務應用的擴展,這些應用場景不斷展開,我們雲信達正瞄準國家戰略推動的AI數據管理基礎設施市場,實現數據歸集的標準化、規劃數據要素的資產化、數據流轉使用的服務化和敏捷化。
由於數據重要性客戶對數據管理技術的關注,雲信達公司在金融和電信行業中獲得了廣泛認可。在IDC發佈的中國CDM市場研究報告中,公司連續三年排名第一。此外,公司聯合大型用戶起草了國內CDM的第一本白皮書。從中國軟協的信創國產化替代市場摸底報告來看,公司連續三年在金融行業國產化領域排名第一。這表明公司在國產化替代市場中的領導地位,以及其在推動數據管理和AI應用發展方面的重要作用。
問答
Q:雲信達未來會通過 RAG (Retrieval-Augmented Generation)在數據檢索備份上面有些動作嗎?
A:數據備份主要分為兩大類:結構化數據和非結構化數據。結構化數據具有數據字典,易於檢索,而非結構化數據,如郵件和PDF文件等,檢索起來較為困難。當前,RAG檢索和量化技術正致力於對這些非結構化數據進行標籤化處理,通過深度學習和檢索技術進行初步識別,即數據的提取和存儲。
美國的一家CDM(Copy Data Management)廠商去年推出了一個名為GA的RAG檢索引擎,該引擎能夠將備份數據直接對接至大模型進行檢索。RAG技術是雲信達今年的重點方向,旨在實現備份數據與大模型的直接對接,以提高數據檢索的效率和準確性。深度學習和AI技術在數據管理和檢索領域的應用正在成為必然趨勢,雲信達正致力於通過這些技術提升數據備份和檢索的能力。
Q:如何評估數據資產的金融價值?企業如何培育具有高價值的數據資產?
A:要使數據成為資產,首先必須證明數據的合規性,即數據來源的真實性和有效性。這意味著數據不能是雜亂無章、錯誤或不完整的。證明數據的合規性,需要通過應用一致性和時間完整性的原始複製(copy)技術來實現穿透審計。這種技術手段可以幫助追蹤數據的來源,確保數據的真實性和有效性。這是數據資產化過程中無法繞過的基本問題。只有解決了數據合規性問題,數據資產化才能真正實現其價值,從而在金融和其他領域中發揮其應有的作用。
Q:如果國內的CDM 應用案例和國外進行比較,大致處於怎樣的狀態?
A:關於國內與國外在CDM應用方面的差異,對於國外客戶,數據資產化之前必須證明數據的合規性,這是數據來源真實性和有效性的關鍵。數據是業務的數字化描述,備份數據是對業務數據一致性的描述,業務一致性對於獲取一次性數據至關重要。
國外的企業普遍採用多雲或混合雲架構,而國內企業在數據庫選擇上存在多樣性,這導致了國內外在數據管理上的巨大差異。以美國為例,大多數企業使用Oracle、MySQL、PostgreSQL等數據庫,而國內則存在多種國產數據庫,這給數據的全局一致性控制帶來了挑戰。
CDM技術最初由Oracle和Veritas提出,旨在實現數據的快速獲取和管理。他提到,美國的CDM廠商已經在中小企業中廣泛應用,因為這些企業的數據通常存放在混合雲和多雲上,新興的CDM廠商能夠輕易切入這些市場。
關於中美之間在CDM應用上的差異,國內企業在信創國產化替代過程中堅持使用CDM新技術,而不是依賴老技術。國內企業在數據管理和備份技術上的升級和替代,以及如何利用CDM技術實現數據的敏捷性和合規性。雲信達在CDM過程中結合人工智能技術,以滿足用戶對下一代數據需求的追求,即數據價值的提升。公司在數據管理和備份技術上的升級和替代,以及如何利用CDM技術實現數據的敏捷性和合規性,是當前的重點方向。
Q:雲信達完成這輪融資之後的技術方向,有何規劃?
A:數據備份在企業資產管理中很重要,它不僅是IT部門的職責,更是企業資產管理部門的職責,數據備份是業務數據的原始合規留痕,是數據資產化的基礎,應該由資產管理部門負責,而IT部門負責實施。
雲信達當前的三個主要業務方向為:數據備份的國產化替代、虛擬副本服務和數據管理基礎設施。數據備份的國產化替代是公司業績增長的第一推動力,而虛擬副本服務和數據管理基礎設施是公司未來的增長點。我們正在研發一個數據管理基礎設施,旨在實現合規數據與AI大模型的對接。數據資產化是不可避免的趨勢,如果企業不能解決數據資產化問題,將面臨巨大風險。也希望全社會正視數據資產化問題,因為隨著時間的推移,數據管理和應用中的問題將越來越突出。
鈦資本研究院觀察
國產數據備份技術正成為AI大模型的數據基礎,不僅支持數據管理和提取,還推動AI應用的發展。生成式AI與備份數據之間存在相互促進的關係,前者提升數據質量,後者為AI模型推理提供數據支持。數據的敏捷性對於業務應用至關重要,尤其在審計和業務測試中需要訪問原始數據。國家戰略推動AI數據管理基礎設施市場,相關創業公司也應致力於實現數據歸集標準化、數據要素資產化、數據流轉服務化和敏捷化。