能源電力行業的運維數據真的有那麼難搞?

出品|虎嗅智庫

作者 | 樑子博

頭圖 | 視覺中國

數據治理這個話題在許多行業並不新鮮。企業數字化轉型步入深水區,企業對於IT運維的依賴程度持續走高,數據治理的重要性愈發凸顯。不同於傳統的業務數據治理,運維數據治理主要針對業務應用在運行過程中產生的實時數據,統一進行管理、分類和治理,強調通過運維數據的治理來保障業務的連續性和成本投入的有效性。

本文聚焦能源電力行業的運維數據治理話題,將深入探討運維數據治理的重要性及其核心特點,並透過展示數據治理如何為能源企業帶來提高運維效率、降低成本、增強業務連續性等價值點。

運維數據治理具備實時性高和運維對象特點明確等特性

運維數據治理是數據治理分支中的細分領域,從框架上會關注數據的統一管理、分類分層、開發和加工數據等工序。在應用層會根據不同應用需要生成相應的數據集市,對於數據質量、數據生命週期、數據血緣等領域會有相應的管理和控制。按照業務邏輯、成本運營等角度,把數據之間的關聯性組織在一起,發揮數據的價值。

運維數據治理與我們熟知的業務數據治理有一些明顯的區別。所治理的數據上,業務數據治理主要聚焦業務的結果數據,例如交易結果、客戶信息等等,而運維數據治理更多關注的是一些機器數據、指標監控、報文數據、配置信息等業務應用在運行過程中實時產生的運維數據。這些數據離散在各種各樣的工具系統當中,其信息量很大,信息密度比較低,但各數據間所蘊含的關聯性價值非常大。

時效性上,運維數據治理對實時性的要求比較高。業務數據一般以事後的挖掘分析居多,無需在數據產生之後立即進行相關處理。客觀來看,傳統的數據平台或者數據倉庫也不一定具備這樣的能力。

而運維是一個非常不一樣的場景,尤其對於工業製造或能源電力等行業來說,基本需求是要在秒一級(最慢也要在一分鐘之內)產生分析判斷的動作。在生產運行的過程中,企業會需要實時精準的數據運維處理分析等操作,來支撐起流程的正常運轉。否則一旦錯過時間點,可能會造成不可逆的差錯,甚至出現不可遏製的生產事故。

另外,運維數據有明確的對象模型特點。業務數據的核心對象通常是客戶,因為業務品種不一樣,客戶群體也不一樣,實際上複雜業務客戶還需分類,不同的客戶可能要不同的方法。但在運維世界中,運維本身就是為了支撐業務的數字化,業務數字化的主要運維、要保護的對象就是業務應用,所以每一個業務應用就是運維對象。在運維數據治理中,非常強調運維對象的建模。不管是哪一類型、什麼規模的業務應用,需要建模的是運維數據之間的相關性關係。

運維對象的建模能力約束了運維數據治理的平台是否能夠有效快速地幫助管理者以全局視角觀測這些業務應用的狀況。通過形成一個軸心,把數據形成一張圍繞業務應用建設起來的立體模型(運維對象模型),這樣無論是橫向的交易狀況,還是縱向的基礎架構支撐狀況,管理者都能以一種通用的規範去管理所有不同結構化程度的運維數據。

雲化、虛擬化和容器化的轉變加速了能源行業的運維數據治理

能源電力行業大約從2020年開始做運維數據治理的嘗試。之前行業內大家涉獵的比較少,原因是那個當時業務應用和業務系統之間的關係相對簡單,沒有大規模出現雲化、虛擬化和容器化的轉變。後面隨著國產化替代的進程加速,國內企業陸續開始採用分佈式架構的雲服務,來替代國外廠商高密度計算的服務器。虛擬化、容器化轉變的好處是擺脫了國外的技術依賴,而壞處是數據運維的複雜度大幅提高。

而運維的複雜度變高最典型的情況就是上層應用和下層組件之間的支撐關係不明確,交易關係非常複雜,用來詮釋上下遊業務關係的調用鏈的數量呈指數級增長。舉例來說,原先可能僅十幾種鏈路關係,現在一天就可以產生大概10-15萬條鏈路關係。

這種情況下,如果再用傳統運維工具或人為的方式去解決排障分析的問題,效率會非常低。這時行業內普遍傾向運用運維數據治理的方法,結合技術平台與算法能力,以比較高效的方式解決同類問題。

此外,能源電力行業原有的監管控運維體系通常配備了監控工具、流程管理工具和自動化工具,其最大的弊病就是運維數據不能集中管理,只能夠圍繞著配置管理工具去做相應的保障運維事務。而在數據量級變大、數據類別變多的情況之下,傳統運維工具很難維持住秒一級的處理效能,行業內對新一代運維大數據平台的運維數據治理需求量持續增長。

在此背景下,企業推動運維數據治理的核心價值點有兩個。第一是利用運維數據確保業務的連續性,或者加速排障分析的效率;第二是利用運維數據分析來優化IT成本投放的有效性。這兩點也是能源行業在運維數據治理領域開始投入建設的重要抓手。

企業業務的連續性原則上是不能夠受到任何影響的。一旦用電或輸電中斷,業務連續性受到哪怕一分鐘的影響,帶來的經濟和社會聲譽上的損失是不可接受的。因此,企業更希望將原有的離散數據集中管理,對數據之間的相關性做出判斷,更高效地加快排障分析的效率,預測性地感知問題的端倪,保障業務的連續穩定運行,而不是等到真正出現問題的時候再救火。

行業不景氣的情況下,企業積極主動尋求降本增效,從IT資源的使用有效性入手是一個非常合理的價值取向。過去大家更關注的是零事故,寧可多投放一些資源也要保證安全和穩定,成本敏感度相對較低。但行業不景氣,企業經營狀況不容樂觀,大家開始慢慢關注IT的財務分析或成本分析。

在數字化轉型過程中,IT資源的投入非常大,這些投入究竟是否產生了有效的、有意義的業務價值,需要從業務側數據檢驗結果。之後可以再從IT投入看相應的使用率,包括容量和業務量增長之間的配比關係,來判斷衡量資源運營的有效性,從數據分析得出一些指導作用的結論和決策支持。

大量的數據信息與業務決策息息相關,比如像交易報文,企業希望通過數據的清洗和治理,把有業務價值的信息提煉出來,找到報文與其他數據的相關性,輔助業務的進一步決策。這也是用一些更好的手段,從運營數據中給出指向性的分析,幫助業務層優化成本結構、IT投入和投放的頻度批次,以達到最好的投入產出比。

運維數據的有效治理既是對業務數字化轉型的戰略支撐,也是對運維組織自身數字化轉型的有效手段。從整體的數字化轉型來講,能源電力行業現在處於深水區,都在更積極、更有效地利用新質生產力去提升自己整體的效能,運維數據治理其實是幫助企業的IT組織去做數智化轉型。

缺乏良好的運維數據治理,智能化的有效手段也少有用武之地,缺少可施展的舞台。數據質量提升起來後,把智能化手段和運營數據的價值擬合在一起,便可以實現保障業務連續性、找到IT成本投入和效率平衡點這兩個核心價值,整體上是對數字化和智能化的有效保障。

數據治理需要規範性要求和角色設定,配套約束流程和工具平台去推進

運維數據治理的應用場景大類上可以分成事前預測類、事中排障分析類和事後複盤分析類。整體上都會對數據質量、數據生命週期、數據安全以及數據服務進行相應的約束和管理。

事前,以預測性的應用為主。在具體應用場景中發揮計算效率,代替人來強化對數據的加工分析能力。同時利用算法模型發現運維數據裂變的趨勢或異變,找到一些新奇的事件,捕捉到問題的端倪,儘可能把一些重大事故消滅在萌芽之中。

宏觀上,這對於整個的業務系統來說,能夠從交易側盡快捕捉到問題的根因,保證業務的連續性,或者保障業務不出錯,儘量避免比如用電故障帶來的用電賬務糾紛、電力調度失誤所產生的重大事故等等。

事中,事故一旦發生,要在很短的時間內快速定位捕捉問題並解決,需要不同業務應用產生的運維數據來支撐分析。能源的業務應用,不像互聯網那樣訪問一個頁面就返回一個結果。而往往是登錄一個應用,還調用到很多子系統,這些子系統相互關聯,有很複雜的上下遊關係。如果不能準確判斷出影響業務路徑中的關鍵節點,前站業務應用慢,後站就會受影響。

前文提到,雲的轉型帶來了業務支撐和被支撐關係的複雜化。電力、石油石化等行業紛紛上雲,所帶來的問題是企業自己的業務應用分散在自己的私有數據中心、私有雲和公有雲上,這之間存在複雜的支撐關係。

上層業務應用如果出現延時或宕機的情況,很難判斷是由公有雲上的應用組件造成的,還是私有雲上的實例造成的,判斷難度和原來一台機器一個應用的情況不可同日而語。需要在事中很短時間內完成判斷,挑戰其實非常大。通過數據的治理和分析手段,可以使得問題一覽無餘,並賦予管理者一種全局視角,清晰地看到業務應用究竟與哪些數據相關聯、這些數據的波動變化與業務現象之間是怎樣的影響關係,這實際上對於排障分析的效率提升十分有效。

另外,一般來說業務運維的人員眾多且分工明確,當出現應急問題時,多人分工可能會導致工作衝突。如果有運維數據支持,業務影響關係高度透明化,這樣不同部門之間就會有共同語言,然後在短時間內迅速形成戰鬥力,組織起來完成共同事務,利用系統來排查問題。相當於賦予所有人一個通用的地圖,而不是各自獨立的地圖。

事後,複盤分析的場景居多。例如基於容量分析,判斷業務應用佔用的業務資源是否合理;是否有資源浪費或者過渡申請的情況;一些情況下配置是否可以再優化,使得同樣的主機可以承載更多的業務應用,優化資源的分配效率和投放成本。

根據虎嗅智庫調研,能源行業80%的企業最關注的是事半場景,讓業務在短時間內恢復起來,這屬於剛性需求;另外還有20%關注事前場景,不僅希望能夠提升排障分析的效率,防患於未然,預正選現大多數故障,用預測性的原則判斷健康度、完成維保。事後分析類場景目前則已基本覆蓋。

某上市能源企業運維數據治理解決方案——擎創科技

隨著數字化轉型進程不斷加快,新技術、新業務的不斷湧現,加之企業雲化發展深入,業務系統日益複雜,運維數據類型也越來越多,使用數據的場景也越來越豐富。然而在使用數據時,該企業總是面臨無數據可用、有數據不可用等情況,具體痛點包括:

1.數據孤島、數據煙囪:數據孤島可能是人為主觀不共享、客觀數據安全和敏感性等問題,導致數據間關聯性不夠無法有效連接;

2.數據不可知且不會用:常見數據使用問題包括,都有哪些數據、數據與業務間的關係、是否有解決問題的關鍵數據等;

3.數據質量低,不好用不想用:無數據質量管理標準和管控手段,數據各管各的,低質量數據難以利用,數據價值被埋沒;

4.數據服務能力薄弱:數據消費場景明確,卻拿不到數據,數據獲取成本高,需求難以被快速滿足;

5.數據標準化程度低:運維數據格式多,管理各自為戰,無統一數據標準,跨部門數據應用成本非常高。

根據企業痛點,擎創科技以數據價值為核心、以數據治理為手段、以技術平台為支撐,同時結合大數據智能處理和分析能力,打造了一套深度挖掘運維數據應用價值的解決方案,從而提升運維數據的洞見力、優化運維效率,利用運維數據反哺業務運營,為業務發展提供更多的助力。

主要通過建立運維數據治理體系、建設數據治理平台、輸出豐富數據價值,三個關鍵步驟實現運維數據的治理。建立運維數據治理體系首先要建設一套完整的數據治理規範,規範內容主要包括:數據治理管理組織與制度的建立、數據標準化的規範、數據過程的規範三大部分工作,明確數據治理的工作原則和數據管理流向等內容。

數據治理過程中除需要成立專業的數據治理團隊、製定治理規範、建立流程制度外,還需要建設一套先進、穩定、開放的數據治理平台來保障數據治理的效果。平台總體功能架構分為數據接入層、基礎數據層、數據治理層、數據服務層、對外服務場景。從數據流程層面可分為數據接入、數據治理、數據服務三大主模塊,運維數據在這三個模塊逐層清晰。

該平台具備五大核心能力中心,包括數據治理中心、數據集成中心、數據服務中心、數據應用中心以及平台管理中心。

運維數據治理的最終目標是讓運維數據更好用,且用得更好,平台則通過數據服務中心、應用中心實現數據價值的對外服務。平台數據服務中心是通過數據服務目錄和數據對外訂閱實現消費方對指定數據的訂閱和消費;數據應用中心則主要實現數據服務場景的管理,包括場景定製、場景分類、場景發佈、場景訪問等。數據服務場景整體上可以歸納為數據治理、運維分析、運維決策三類場景。

該平台對於協助客戶實現數據治理具有重要價值。該能源企業通過平台實現數據管理的標準化、規範化,統一採集納管、統一指標規範、統一服務歸口等,避免了多源數據不統一導致的應用困難。同時,企業實現了場景需求統一歸口、快速數據查詢分析、快速場景定製和發佈,從而降本增效,豐富且靈活的輸出數據價值。

另外,通過該平台,對於數據質量、安全、生命週期、集成、服務等核心管理能力,企業實現了數據管理的制度化和數據質量的監管閉環,保障了應用數據的可信性、可用性和可優化性。

整體來看,該方案的規劃及治理平台建設結合了能源行業的數據治理現狀,目前已實現對業務交易、設備、系統、日誌等多類運維數據的統一納管和標準化。通過數據服務中心、應用中心實現了多維數據應用場景的輸出。

其核心價值在於實現了企業內部多維運維數據的標準化,提供了對數據質量、安全、生命週期的統一管理手段等,快速輸出數據應用和服務的能力,在運維數據應用價值的挖掘、降本增效、快速響應等方面均有較大提升。

建設路徑上,在做運維數據治理之前,首先推薦企業進行標準和規範的製定。企業可以參考通用標準,再根據實際運維需要做一些減法,來生成組織自身的運維數據規範。有了這個規範後,就可以上平台開始納管數據,後面對於每一次數據質量的核查都可以作參考並持續改進,然後再納入對應的數據域和數據集市,以供後續使用。在使用過程中間,可以在閉環內去做相應的核查、校驗、整改,這是一個持續性改進的過程。

其次,組織要有配套的流程和相應的人員角色定義。運維組織需要去做角色定義的調整,會有專員管理相關的運維數據收納、管理、質量檢查、核準入庫等過程。這樣的話一旦哪個部門報送的數據質量有了問題,就可以開整改單,優化採集的能力來達到數據規範的要求。

數據治理需要規範性要求、治理崗位的角色設定,配套約束流程和工具平台去推進,才能真正落實,產生長期效果持續性輸出價值。

關於虎嗅智庫

虎嗅智庫是一家聚焦企業數字化、AI創新實踐的新型研究服務機構,為產業智能化進程中的甲乙雙方,提供有洞察性的研究報告、案例評選、以及線上會議、線下活動與參訪服務,以支持企業高管在智能化、數字化方面的明智決策。

我們提供的核心價值

及時與優質的洞察,瞭解技術、瞭解行業、瞭解同行與對手;

為決策者技術與產品戰略決策、產業規劃、解決方案選型提供重要參考;幫助市場全面瞭解前沿科技及所影響產業的發展狀況,還有未來趨勢;

虎嗅智庫官網:hri.huxiu.com