AI時代,為什麼要做好數據治理?

撰文 | 李信馬撰文 | 李信馬

題圖 | AI生圖

在AI時代,數據已然成為關鍵生產要素,企業想充分發揮AI的潛力,數據治理是繞不開的核心環節。

不久前,亞馬遜雲科技在北京召開的媒體溝通會上,圍繞著如何助力企業數智化轉型升級,亞馬遜雲科技成長型企業及新興業務總經理倪殿令進行了分享,尤其是有關數據治理,已經成為企業數智化轉型升級的關鍵支撐,數據引擎和治理也是亞馬遜雲科技在AI時代的核心優勢之一。

拍攝:DoNews拍攝:DoNews

他用了一個餐館的比喻,餐館有後廚,後廚每天要去採購食材,農場把菜運回來後,需要把這些食材進行處理。亞馬遜雲科技的Amazon EMR服務,原理就像把倉庫里所有的菜洗乾淨、按歸類放好,切成適合炒菜的原材料。

“向量”就像採購回來的菜,把它洗淨、切片,如果要炒土豆絲,就切成土豆絲;如果是炒番茄,就洗乾淨切成番茄塊。

這些處理好的食材存放在冰箱里,是按照類別存放的,冰箱就是支援向量存儲的,我們稱之為向量數據庫,如Amazon Aurora、Amazon RDS和Amazon OpenSearch。

深度學習的應用,就像客人點菜——一個查詢(Query)來了。廚師把冰箱門打開,把菜品拿出來,再炒製後送出去,這就是AI應用查詢的邏輯。

“所以大家理解,最重要的不是前端的模型,也不是前端AI的App來查詢,最重要的是底層的數據處理能力,以及向量數據如何存儲、DBMS數據如何歸類存儲的能力。在生成式AI應用中,這部分的影響力超過90%。一家企業能否用好生成式AI,其使用的開源模型或微調(fine-tuning)模型的‘幻覺’程度,取決於企業數據量的大小和數據的質量。”倪殿令說道。

下面的這張圖講的是AI應用企業領域數據實施模式,可以進一步看到,數據為企業帶來的競爭優勢。

拍攝:DoNews拍攝:DoNews

先看右邊,最底層是大模型,然後掛上RAG(Retrieval-Augmented Generation)增強檢索。有時候外掛的效率很低,需要做微調。還是用比喻的方法來解釋,一個人從小幼兒園到大學,就像是模型訓練的過程,需要很長的時間去訓練思維模式。

畢業後到企業工作,企業進行上崗培訓,讓你瞭解行業知識,這就是微調(Fine-tuning)。畢業後到企業工作,企業進行上崗培訓,讓你瞭解行業知識,這就是微調(Fine-tuning)。

剛上崗的時候,老闆給你指定一位老師,他在試用期6個月的時間里用最快的方式把他腦子裡的精華告訴你,要怎麼做事,這就是蒸餾——在特定的小範圍找到正確答案最快的方式。

再看左邊,將開源的非結構化數據變成結構化數據,再經過Amazon EMR的數據治理,變成向量存儲,再用於調用,跟大模型結合。但對絕大多數企業來說,模型用的是開源或者買的,這終究是“別人的”,數據才是關乎企業能否用好深度學習真正重要的東西。

倪殿令和客戶交流時,對企業的管理者提出,可以通過“黃金三角”——場景、數據、人才——擁抱生成式AI。

首先,場景方面,企業需要找到既能創造價值,又適合用生成式AI解決的具體業務場景,比如智能客服、知識庫構建、文生圖或文生文等,但針對業務的場景需清晰界定輸入、輸出及預期效果。

其次,數據方面,為模型選擇和模型適配的正確的工具,以及建設良好的數據基礎。“把底層的數據處理,包括結構化的數據基礎夯實好,然後再通過跟大模型之間的調用關係把它動起來用好。”

最後,在整個數據治理的過程當中,要有相應的人才,比如數據工程師、算法工程師,有人做模型適配,有人做調優。

不難看出,數據治理被置於企業數智化轉型升級核心支柱的位置,當然,強調選擇“正確的工具”,多少也有雲廠商“王婆賣瓜,自賣自誇”的原因在。不過在IDC發佈的《IDC MarketScape: 中國面向生成式AI的數據基礎設施2025年廠商評估》報告中,亞馬遜雲科技位居領導者類別,也佐證了亞馬遜雲科技在數據治理方面的實力。

在AI時代,數據治理髮揮著至關重要的作用,為生成式AI應用提供了堅實的數據基礎,確保其準確性、穩定性與可迭代性。隨著企業落地AI應用的需求日益增長,可以預見,數據治理領域的技術創新也將不斷出現,助力產業界通過AI創造更多的價值。

註:文中圖片來自現場拍攝(有修正)及AI製作