談談AI 項目中需要關注的基本數據質量能力
圍繞人工智能 (AI)和大型語言模型 (LLM)的最初熱潮已開始成熟。儘管基礎的 LLM 本身正在迅速商品化,並通過API 和開源版本日益普及,但人工智能創新的步伐卻遠未放緩。相反,該行業的重點已急劇轉向構建複雜的數據和人工智能解決方案,以提供可觀的投資回報率 (ROI)和切實的商業價值,並 從單純的實驗轉向戰略實施。
企業最有防禦力的競爭「護城河」在於其專有數據資產。
然而,這種戰略優勢在很大程度上取決於數據是否具有明顯的高質量、可靠的一致性、豐富的上下文和嚴格的安全性。
數據固有的動態性意味著信息永遠不會靜止。隨著數據流經複雜的工作流程,從源系統經過各種轉換最終到達下遊目標,這些關鍵數據管道的完整性和功能性可能會在其整個生命週期內反復顯著下降。這種惡化通常源於多種因素,包括意外的上遊數據模式變更、新字段的引入或底層業務邏輯的修改。至關重要的是,持續穩健地跟蹤和管理這些變化,能夠提供對數據整個沿襲和演變的深刻洞察。這種在單個數據管道和數據集層面保持的整體理解,對於確保持續的可靠性、實現有效的故障排除以及培養對下遊分析產品的堅定信任至關重要。
本 文 探討了全面的數據質量和可靠性框架應包含哪些內容,以及它如何使組織能夠成功地進行分析。該框架強調了為什麼如果不能及時全面地解決數據質量問題,數據和人工智能解決方案將無法滿足企業的要求。
全面的數據質量和可靠性框架
數據質量是數據驅動決策成功的基石,因為決策結果的好壞取決於其所基於的數據。因此,確保數據的準確性、完整性、一致性、相關性、及時性和可訪問性至關重要。全面的數據質量能夠確保組織信任其使用的數據,從而做出更可靠、更有影響力的業務決策。
除了建立信任和可信度之外,有效的數據質量還能減少代價高昂的錯誤、錯誤的預測以及其他運營效率低下的問題。乾淨可靠的數據可以最大限度地減少返工,降低風險,並節省資源。
保持數據質量對於滿足各行各業日益嚴格的監管標準和合規性要求至關重要。乾淨可靠的數據有助於避免法律處罰,並保護組織免受監管違規行為的侵害。
高質量的數據是探索新機遇、優化流程和推動創新的基礎。正確捕捉和利用客戶的偏好、行為和互動,還能提升客戶滿意度,從而提高客戶忠誠度和客戶粘性。換句話說,數據質量不僅僅是一項技術要求,更是業務的必要條件,是成功企業與失敗企業之間真正的差異化因素。
但是數據團隊能否確保他們充分處理數據質量和可靠性的各個方面?這需要一個如圖1所示的綜合框架。

這種集成方法利用元數據來確保用戶能夠獲得實時、可信的洞察。一些供應商提供專注於特定領域的功能,但大多數企業尋求一套集成且全面的功能來全面管理端到端數據管道。這種方法統一了整個組織的數據管理實踐,確保了一致性、準確性和可靠性。通過公開不同來源和系統的數據質量,可以建立統一的數據質量標準、策略和流程。當數據源分散在內部和外部時,孤立的團隊往往會加劇數據質量問題。集成方法可以打破數據孤島,鼓勵各部門(例如 IT、數據管理、市場營銷、財務)共同承擔數據質量責任,從而促進跨部門協作。讓我們檢查一下每一層。
數據發現
數據發現是交付可靠數據和 AI 產品的首要基礎要素,因為它能夠全面概述所有可用的數據資產,包括其來源、格式、質量和關係。通過瞭解完整的數據格局,組織可以識別最符合其需求的數據,確保在數據和 AI 計劃中僅使用準確、可靠和高質量的數據。瞭解現有數據及其當前狀態有助於避免使用過時、不相關或錯誤的數據,從而避免損害數據和 AI 產品的質量。
隨著組織越來越依賴數據來推動業務決策,發現、理解和有效利用數據的能力變得更加先進和重要。
數據發現曾經只是一個簡單的數據源定位任務,如今已擴展為一個複雜的過程,它利用大型語言模型的強大功能來發現那些可能並不明顯的關係。這些隱藏的模式和洞察有助於評估數據是否符合預期用途,並為後續的數據分析、編目、數據質量和可觀察性步驟奠定基礎。傳統上,數據發現層連接結構化和非結構化數據源以及業務應用程序,以創建技術或操作元數據。在現代人工智能世界中,合成數據也應納入數據發現的範圍,因為這些人工生成的數據模仿了真實世界數據的特徵,同時不會泄露任何實際用戶信息或消除任何偏見。在許多情況下,真實世界的數據是不完整的,缺少構建穩健分析模型所需的關鍵記錄或特徵。合成數據可以通過創建代表性數據點來填補這些空白,確保數據集完整併可有效地用於分析或機器學習。
數據發現工具應該能夠使用優化的原生連接器或開放標準(例如 ODBC/JDBC)以及 API(包括 RESTful 服務、SOAP 和 GraphQL)連接到數據源。原生連接器旨在始終滿足高吞吐量、性能、安全性和可靠性需求,從而提高數據發現工作的效率。通常,連接器有助於實時提取數據源中新建或更新數據的元數據。這通過變更數據捕獲 (CDC) 功能實現。
數據剖析
組織數據通常雜亂無章,存在諸多問題,例如質量問題(例如缺失值、重覆數據、不一致數據)、缺乏理解以及跨不同數據源的集成挑戰。因此,需要發現隱藏的關係並識別數據隨時間的變化。這種透明度有助於優化數據處理工作流程,提高分析的可靠性,並有助於滿足合規性要求。換句話說,如果沒有這種清晰度,組織就有可能基於有缺陷的數據做出決策,從而導致效率低下和潛在的合規風險。
通過分析,組織可以清晰地瞭解其數據格局,確保數據準確、相關且易於理解。它可以幫助 數據團隊瞭解數據的特徵,例如唯一性、基數、值範圍和敏感度,從而豐富他們對所發現數據的認知。它涉及收集統計數據、元數據和其他數據信息,這些信息隨後可用於數據管理、數據質量保證、法規遵從性和分析計劃。
數據分析使用一套複雜的算法來評估各個維度的數據上下文和質量。此過程通常是自動化的,但應該根據組織的特定需求進行定製。這些需求可能涉及通過識別列之間的依賴關係和關係來合併來自不同來源的數據,或識別不必要的重覆信息或高度相關的列,以優化數據並提高存儲效率。其他需求可能涉及數據準備、異常檢測、數據遷移、業務規則管理或降低因數據質量低下而導致的風險。
對源數據進行分析可能需要大量計算,並且可能會降低操作系統的運行速度。為了最大限度地降低源系統的負載,可以對用戶定義的數據樣本進行分析。另一種選擇是使用 Apache Spark 等工具將數據提取到外部集群中。每種方案都有其自身的利弊,企業應該選擇最符合自身需求的方案。
數據分析可以按需運行,也可以安排在特定時間間隔運行。此外,工作流有助於實現流程自動化。為了提高效率、可靠性和可擴展性,這些工作流應該能夠與現成的編排引擎(例如 Apache Airflow)集成。自動化數據分析可以減少人工干預,最大限度地減少錯誤,並確保工作流程順暢運行。
數據分類
數據一旦被分析,就必須被標記或分類為結構化格式,以改進數據管理、使用、治理和可用性。如果沒有分類,數據可能會變得雜亂無章,從而給確保數據質量、保持合規性、保護敏感信息以及優化數據集成和分析帶來挑戰。未分類的數據可能會增加安全漏洞、違反法規和運營效率低下的風險,因為它會阻礙應用適當的控制和治理的能力。
數據分類標籤充當元數據描述符,方便用戶搜索、查找和訪問相關數據,並根據數據的敏感性、用途和擁有權對其進行分類。這些元數據可以為人工智能和機器學習模型提供上下文,從而減少幻覺。
創建標籤或標記的分類過程也用於數據質量和可靠性框架的後期階段,例如應用質量規則和訪問策略。
機器學習算法再次用於自動創建標籤,但現在大型語言模型 (LLM) 正被用於利用其對語義的理解,從而顯著改進僅使用關鍵詞和靜態分類法的傳統分類方法。例如,LLM 利用其對語言模式和上下文的理解,自動將文本分類到預定義的類別中,例如情緒分析(正面、負面、中性)。最後,LLM 還可用於對非結構化數據進行分類,例如電子郵件、聊天消息、社交媒體帖子和其他非傳統數據格式。
為了確保數據分類的高標準,使用了兩種測量方法:
精確度:衡量模型正向預測的準確度。更高的精確度表明分類相關且準確。高精度表示模型的誤報率極低。如果出現誤報,則會提交工單,請求數據所有者進行必要的補救。
召回率:衡量模型識別所有相關正實例的能力或其完整性。較高的召回率表明分類沒有遺漏標記數據元素。
總之,自動分析和分類可以主動且經濟有效地檢測數據集中的異常、不一致和錯誤,並在潛在問題影響下遊流程之前提醒數據工程師和管理員。
數據目錄和語義層
組織數據通常彼此孤立,難以定位,記錄不全,管理不一致,導致效率低下、錯誤百出和合規風險。用戶難以找到正確的數據、理解其背景並信任其質量,這阻礙了數據驅動的決策和協作。
數據目錄通過集中數據發現、加強數據治理和提升數據素養來解決這些問題,最終使整個組 織能夠更高效、更合規地使用數據。它幫助用戶瞭解哪些數據可用、數據來源、如何使用以及數據的質量和治理狀況。
元數據構成了數據目錄的基礎,它能夠提供組織內數據資產的全面視圖。在發現、分析和分類階段生成的元數據存儲在數據目錄中,以便在決策過程中進行搜索和利用。目錄中的元數據分為三種類型:
(1)技術元數據
描述數據的技術方面,包括其結構、存儲和處理細節,例如模式信息、列數據類型、數據分佈直方圖、索引等。
對於文件,數據目錄顯示數據格式,如 CSV、JSON 和 XML 等,如果未明確定義,則推斷模式。
(2)操作元數據
關注數據的使用、性能和生命週期,例如擁有權、數據保留策略、數據刷新計劃頻率和訪問策略。
數據訪問和安全策略信息有助於實施數據治理策略,以確保遵守法規(如 GDPR 或 CCPA),並提供數據使用、轉換和共享方式的審計跟蹤。
它還有助於可觀察性和沿襲(稍後討論),因為它包括使用情況統計數據(例如,訪問頻率、大多數查詢表、最活躍的用戶)和性能指標(例如,查詢響應時間、系統負載)。
(3)業務元數據
為數據提供業務上下文,使其易於理解並與業務用戶相關。該層也稱為語義層,包含業務詞彙表和術語(例如 KPI、指標、維度)、業務規則以及數據在業務流程中如何使用的上下文細節。
現在,借助 LLM 的功能,描述性和上下文相關的業務描述可以自動生成,並存儲在數據目錄中。這進一步簡化了對元數據進行自然語言問答的功能。傳統上,目錄允許用戶使用關鍵字進行搜索,但隨著與 LLM 集成的出現,目錄現在支持使用自然語言進行語義搜索。
業務術語表中的術語映射到底層技術元數據。領域專家可以定義更符合業務需求且直觀易懂的術語,使其更貼近分析執行。該術語表還可以按層次結構組織術語,並提供變更審計日誌,從而實現完全透明和歷史記錄。BPMN、OMG SBVR、對象角色建模、面向事實建模、RDF/OWL 和 SKOS 等多種標準可用於管理業務術語表,但這些標準不在本文檔的討論範圍內。
近年來,數據目錄的範圍不斷擴大,涵蓋了所有類型的數據資產,包括數據產品、高級分析模型、報告、規則和 KPI 等。雖然數據目錄最初是為了發現和搜索元數據而推出的,但現在它們正被用於開發新的資產。
例如,用戶可以搜索某個數據產品,然後將其與其他資產組合,構建並發佈新的數據產品。在這種情況下,數據目錄就變成了一個提供可共享數據資產的市場。這些市場可能只是允許數據共享,也可能能夠計算使用量並進行退款,從而實現數據貨幣化。這對於數據目錄來說是一個激動人心的未來,因為它們將發展成為戰略性產品,創造新的收入來源。
本質上,數據目錄是數據生產者、工程師、數據消費者和業務利益相關者之間卓越的協作工作空間。用戶可以對數據資產進行註釋、評級和排序,讓消費者能夠輕鬆「選購」合適的產品並信賴它。 數據合同 是一個新興概念,它定義了存儲在數據目錄中的數據資產的屬性,以便消費者能夠圍繞其產品和服務構建服務級別協議 (SLA)。
總而言之,數據目錄顯著增強了釋放各類數據和分析資產價值的能力,從而改善決策製定。數據已成為一種戰略資產,它記錄詳實、元數據豐富、值得信賴且易於訪問。通過提高數據利用率,企業可以提高效率、獲得新的洞察並優化運營。
數據質量規則
數據質量是指確保數據集的準確性、一致性、完整性和可靠性,以便用於決策。對於任何旨 在從數據資產中獲取可操作見解並減少 LLM 幻覺的組織而言,高質量的數據都是基礎。
傳統上,數據質量評估是使用手動查詢構建的自定義規則進行的。然而,隨著數據的快速變化和新類型數據的不斷湧現,手動流程因其動態特性而難以持續。這促使我們利用標準差和Z分數對已分析數據進行統計分析,以確定數據如何圍繞均值聚集,從而識別異常值。隨機森林尤其擅長識別已分析數據中某些數據集之間的潛在關係。編輯距離使用模糊匹配來檢測潛在的重覆項。其他機器學習算法可以進行調整,以精確定位數據值的頻率,因為低頻值可能表示異常。
這些機器學習算法有助於預測管道中的潛在故障或瓶頸,從而實現主動補救。它們會自動檢測與預期模式的偏差,從而發出潛在的數據質量問題或管道故障信號。
數據可觀測性
數據可觀測性是指理解和監控數據管道健康狀況的能力,確保數據從源頭到目的地順暢流動,且不會降低質量、可靠性或成本效益。隨著企業數據運營規模的擴大,維護這些管道健康狀況的可視性變得越來越複雜。因此,持續監控數據在管道中的流動情況,可以洞察每個階段的異常、故障、性能下降、成本超支和準確性問題。
圖 2 顯示了數據可觀察性工作流的關鍵組件,與不使用數據可觀察性產品的情況相比,它有助於更快地識別和解決問題。
將顯示縮放圖像

數據可觀察性工作流程的各個組成部分包括:
監視
持續監控數據和元數據,能夠在問題發生時立即發現模式和異常。組織應根據戰略需求,確定關鍵數據元素和相關數據源的優先級,以保持有效的關注並減少不必要的警報。他們應監控數據漂移、數據量、質量、服務等級協議 (SLA) 和資源使用情況等關鍵指標,以確保全面監管。
分析
數據和元數據分析有助於識別隱藏的模式、故障和異常,從而能夠及時甚至主動地採取干預措施,防止下遊影響。有效的可觀測性工具能夠動態檢測偏差,優化資源使用,並持續重新訓練模型,以保持系統的效率和準確性。
警報
當大量細粒度警報生成時,響應人員會逐漸失去注意力。這種情況被稱為「警報疲勞」。因此,數據可觀測性工具必須能夠智能地管理警報,並升級最關鍵的警報。
數據可觀測性工具能夠主動向團隊發出異常警報,並通過根據正常範圍智能調整閾值,以及對通知進行分類或自定義以減少不必要的通知,從而管理警報疲勞。這種方法有助於確保關 鍵警報得到處理,從而提高管道的正常運行時間和問題解決速度。
事件管理
事件管理支持根本原因分析,通過從源頭而非下遊解決問題來避免技術債務。此流程支持跨業務部門協作啟動補救措施,從而提高整體系統可靠性。
異常修復通常需要手動操作,因為關鍵任務源系統可能有其自身嚴格的數據更新操作流程。通常,當數據質量或可靠性閾值被突破時,數據管理員團隊會收到警報,然後根據通知的優先級採取必要的措施。
反饋
數據可觀測性中的反饋循環確保系統持續演進並滿足 SLA。運營反饋(例如延遲或數據缺失)可推動即時改進,而業務反饋則通過增強數據質量檢查和部署透明度來展示價值,從而促進採用。
人工智能正在進一步提升數據質量和可觀測性。 大語言模型(LLM) 擅長理解語義,並使用歐氏距離尋找相似性。此外,如果副駕駛都能為我們編寫功能齊全的代碼,那麼規則又何嚐不可呢?我們的想法是利用人工智能推斷隱藏的關係和上下文模式,從而自動檢測、編寫規則並應用它們。
數據可觀測性功能可以精確定位源系統變更對下遊系統的影響。此過程稱為 影響分析 ,依賴於對數據管道沿襲的理解。這是該框架的最後一步,我們將在下文中介紹。
血緣和影響分析
瞭解數據沿襲有助於組織追蹤數據從源頭到最終目的地的路徑,提供對數據使用方式、準確性級別的洞察,並更容易識別和解決錯誤或不一致等問題。
血緣追蹤並記錄數據在組織內各個系統和流程中流動時的起源、移動和轉換。它就像一張地圖,顯示數據的來源、處理或修改方式,以及最終的歸宿。
其用例包括法規遵從性、數據質量管理或運營效率。因此,各種角色都會使用譜系輸出。例如,非技術利益相關者瞭解數據流如何與業務運營、決策和報告要求保持一致。數據工程師收集技術棧內部流程的洞察,例如數據如何從原始輸入轉換為處理後的輸出。數據科學家使用數據集和模型的譜系來管理可重覆性、合規性和模型完整性。
將顯示縮放圖像

在這個具有代表性的沿襲示例中,SQL Server 中的原始 CRM 數據經過提煉,並在雲數據湖的消費區中可用。一個提供客戶銷售和客戶流失洞察的 Tableau 工作簿正在消費此示例中的數據。數據質量得分 (89.8%) 也可在「客戶產品銷售」表中看到,並在 Tableau 項目中的消費區 (94.7) 中看到。
沿襲應該適用於任何物理層,例如模式和表,直至最低粒度級別(例如列),以便進行更精確的影響分析和調試。此外,沿襲還應包含資產之間的轉換邏輯。這需要從 ETL/ELT、SQL 和 BI 工具中提取轉換元數據。如果數據元素或轉換發生變化,沿襲圖應該能夠清晰地理解其對上遊和下遊系統的影響。
為了幫助提高數據可靠性,可以將數據質量規則、維度、指標和分數疊加到譜系中,從而使業務用戶能夠識別相關質量控制的實施位置。
AI 可以使用相似的數據集自動推斷和預測數據沿襲。這使組織能夠快速識別數據來源,瞭解其旅程,並評估任何更改或錯誤(即使對於新數據集)的影響。通過簡化這些複雜的流程,AI 有助於維護數據完整性,支持合規性工作,並通過提供對數據依賴關係和潛在風險的清晰洞察來增強決策能力。
目前,一個名為 Open Lineage 的新開放標準正處於測試階段。一旦該標準正式發佈,並被數據治理、ETL 和 BI 產品廣泛接受,元數據的雙向共享將變得更加便捷。
治理和政策管理
到目 前為止,本文 的重點一直集中在元數據的發現、分析、分類、存儲和共享,以及創建衍生數據產品。但組織需要確保數據使用者遵守約定的使用和治理政策。治理和政策管理功能支持並將框架的所有其他部分緊密聯繫在一起。這些政策涉及定義、規則、指標、角色、職責、工作流程和流程:
數據政策:涉及分類、質量、使用/隱私、安全等
商業術語政策:詞彙表、分類、指標等。
利益相關者管理政策:誰做什麼,誰需要被通知等
流程政策:問題管理的流程是什麼,政策、規則、指標的創建和批準的流程是什麼
數據訪問策略:確保數據消費者只能訪問他們被授權查看的數據,以保護隱私、管理數據泄露風險並滿足合規性準則。
組織出於各種原因執行策略,例如被遺忘權(技術上稱為擦除權)、數據保留、訪問控制和使用。數據治理平台充當跨所有底層技術平台管理安全策略的單一管理平台,從而確保一致性。
數據訪問策略首先檢測所有個人敏感數據在管道中的位置,然後根據安全、隱私、法律和合規性要求對其進行分類。這種可見性對於管理跨不同系統、應用程序和存儲位置的數據流的數據隱私風險至關重要。它還可以檢測是否存在冗餘數據副本,以便引入流程,通過限制不必要的數據擴散來減少攻擊面。數據最小化的概念已被許多合規法規(例如歐盟《通用數據保護條例》(GDPR))所強製執行。其他具有具體指導方針的常見法規包括 PCI DSS 4.0、加州消費者隱私法案 (CCPA) 和健康保險流通與責任法案 (HIPAA) 等。對這些法規的討論超出了本文檔的範圍。
接下來是策略管理階段,首先定義並執行訪問和使用策略。組織應根據數據的敏感性和關鍵性確定保護措施的優先級,確保針對已確定的用例,優先保護風險最高的數據。
理想情況下,策略可以使用下拉選項以自然語言編寫,因為管理員並不總是擅長使用 SQL 或 Python 等語言編寫複雜的邏輯。數據可觀測性工具將策略應用於在分類階段創建並由相應所有者驗證的相關標籤。例如,如果社保號碼被標記為敏感信息,則策略可能會規定,對於大多數數據消費者,除最後四位數字外,該數據應進行加密、標記化或編輯。
數據目錄充當定義、管理和執行數據治理策略的中央存儲庫,而底層系統則負責處理這些策略的執行。這些系統可能位於本地,也可能跨不同的雲提供商。訪問策略的執行採用了基於角色的訪問控制 (RBAC)、基於屬性的訪問控制 (ABAC)、屏蔽、標記化、匿名化、假名化以及其他各種較新的方法,例如差異噪聲。這些方法用於遵守各種安全和合規性法規,尤其適用於個人身份信息 (PPI)、支付卡信息 (PCI) 和受保護的健康信息 (PHI) 等敏感數據。
在數據質量和可靠性框架的這一部分,重點主要放在保護數據資產上,但安全領域要廣泛得多。它包括多因素身份驗證 (MFA)、防火牆、入侵檢測和防禦系統 (IDPS)、防病毒軟件、端點檢測和響應 (EDR)、數據丟失防護 (DLP) 以及安全信息和事件管理 (SIEM) 等。這些用於監視和控制用戶、網絡流量和設備。
小結
那麼,為什麼良好治理(包括質量、可靠性、訪問控制、血統、可觀察性、語義層等)的需 求比以往任何時候都更加重要?
因為比以往任何時候都有更多的人訪問更多數據,用於更多業務用例。如果沒有可信可靠的數據用於人工智能和分析,結果將會很糟糕,時間和金錢將會浪費,企業領導層也會對人工智能和分析失去熱情和信心。結構化、全面的數據管理方法將使您的組織能夠提供人工智能和分析成功所需的高質量、可靠的數據。
一些規範的方法可以加速人工智能和分析的開發和部署,並提高解決方案的準確性和性能。
提高數據質量透明度:通過提供對人工智能開發和運營數據質量不同維度(例如準確性、完整性和一致性)的可見性,數據質量透明度可降低人工智能應用中出現錯誤、偏差和不可靠輸出的風險。
實現檢索增強生成:通過訪問可信可靠的數據,確保生成式人工智能模型輸出的準確性。這種方法可以消除幻覺,並實現對生成式人工智能輸出的事實核查和驗證。
建立對AI輸出的信任:通過提供對數據管道、數據處理方式以及AI系統實時行為的可視性,讓客戶、員工和監管機構確信AI輸出在規定的操作範圍內,並符合預期標準。
要想讓您的組織走在運用人工智能和分析技術改善業務成果的前沿,就需要立即採取行動,利用可信可靠的數據為人工智能和分析引擎提供動力。使用高質量的數據來訓練和增強您的人工智能模型,能夠帶來高質量的模型輸出和更佳的業務成果。
本文來自微信公眾號「數據驅動智能」(ID:Data_0101),作者:曉曉,36氪經授權發佈。