導讀:隨著大數(shù)據(jù)的深入發(fā)展,數(shù)據(jù)越來越成為公司的重要資產(chǎn),但圍繞數(shù)據(jù)流的全鏈路管理工作細致且技術(shù)復雜,數(shù)據(jù)的治理越來越成為DT時代數(shù)據(jù)資產(chǎn)化、價值化的關(guān)鍵核心,該如何成體系地構(gòu)建數(shù)據(jù)治理框架?今天將介紹阿里巴巴在數(shù)據(jù)治理上的一些實踐和總結(jié)。主要包括以下兩方面內(nèi)容:
01
數(shù)據(jù)治理概念和需求層次
1. 數(shù)據(jù)治理的理論參考
數(shù)據(jù)以及數(shù)據(jù)領(lǐng)域經(jīng)過多年的發(fā)展,行業(yè)已經(jīng)沉淀了較為完善的理論體系,比如數(shù)據(jù)管理協(xié)會DAMA推出的數(shù)據(jù)十大職能領(lǐng)域、DCMM推出的數(shù)據(jù)管理能力成熟度評估,以及國內(nèi)信通院推出的數(shù)據(jù)資產(chǎn)管理實踐白皮書。這些指導標準,不但有利于產(chǎn)業(yè)發(fā)展的高度,同時也使得行業(yè)朝著更加規(guī)范、健康的方向發(fā)展。
國際上的標準更加側(cè)重于對完整的數(shù)據(jù)生命周期進行管理,而國內(nèi)則更加注重從組織、制度、流程、技能角度,對數(shù)據(jù)進行不同視角下的解讀和處理。
2. 數(shù)據(jù)治理的概念和需求層次
在數(shù)據(jù)的管理過程中,要保證一個組織已經(jīng)將數(shù)據(jù)轉(zhuǎn)換成有用的信息,在這個過程中所需要的流程、工具就是數(shù)據(jù)治理的主要內(nèi)容。
隨著數(shù)據(jù)行業(yè)的發(fā)展,數(shù)據(jù)治理的內(nèi)涵也逐步泛化,涵蓋了更多的方面和層次,比如數(shù)據(jù)發(fā)現(xiàn)可用,數(shù)據(jù)及時穩(wěn)定產(chǎn)出,數(shù)據(jù)質(zhì)量保障,數(shù)據(jù)安全合規(guī),數(shù)據(jù)生產(chǎn)的經(jīng)濟性等。對于企業(yè)的不同發(fā)展階段,數(shù)據(jù)治理的需求也存在著差異。
- 時效:對于自有數(shù)據(jù)產(chǎn)生系統(tǒng),數(shù)據(jù)生產(chǎn)的時效問題,決定了后續(xù)所有的數(shù)據(jù)處理的及時和數(shù)據(jù)的價值。比如理財方面,股市開放時間內(nèi),每天都會計算營收情況,如果數(shù)據(jù)產(chǎn)生不及時,會造成用戶的困擾和可能的利益損失。
- 質(zhì)量:主要從數(shù)據(jù)自身屬性和特點的角度,來衡量數(shù)據(jù)可靠的一些標準,包含了準確性、完備性、唯一性、一致性、有效性等。
- 可用:數(shù)據(jù)的接入和加工完成后,就是數(shù)據(jù)發(fā)揮價值的環(huán)節(jié),即數(shù)據(jù)要容易被查詢到,并且能夠被理解。另外一個比較重要的點是可復用,復用可以放大數(shù)據(jù)價值。
- 安全:談到數(shù)據(jù),就會涉及安全性,主要包括數(shù)據(jù)權(quán)限的管理,敏感數(shù)據(jù)的處理與應(yīng)用,以及滿足各種數(shù)據(jù)政策和法規(guī)的要求。
- 經(jīng)濟:在數(shù)據(jù)的生產(chǎn)、處理,以及價值挖掘等環(huán)節(jié)相對完善之后,圍繞數(shù)據(jù)體系的經(jīng)濟特性,將會是企業(yè)的重點考慮方向。
—
02
企業(yè)數(shù)據(jù)治理痛點、阿里巴巴數(shù)據(jù)治理實踐
1. 企業(yè)數(shù)據(jù)治理的典型痛點
隨著國家數(shù)字化政策的引導和推動,企業(yè)越來越重視數(shù)據(jù),但企業(yè)的數(shù)據(jù)治理成效方面依然進展緩慢,數(shù)據(jù)問題依舊存在,其中缺少系統(tǒng)化的工具平臺支撐治理落地和效果展現(xiàn)是關(guān)鍵原因之一。
- 數(shù)據(jù)治理咨詢成果落地不足:數(shù)據(jù)治理產(chǎn)出成果,比如各類規(guī)范和管理辦法,包括數(shù)據(jù)字典,多以“紙面文件”的形式流轉(zhuǎn)與企業(yè)中,與實際業(yè)務(wù)和數(shù)據(jù)沒有緊耦合,能滿足“我有”,但是沒能做到“我執(zhí)行”。
- 自動化服務(wù)程度不高:業(yè)務(wù)人員使用數(shù)據(jù)更多需要數(shù)據(jù)和技術(shù)人員的貼身服務(wù),按照IT建設(shè)的模式提出數(shù)據(jù)加工需求或者取數(shù)需求,以被動支持的方式滿足業(yè)務(wù)需求,沒有形成數(shù)據(jù)資產(chǎn)目錄、數(shù)據(jù)服務(wù)目錄。
- 數(shù)據(jù)治理在線管理能力不足:依賴貼身服務(wù),業(yè)務(wù)人員難以借助工具自行完成。缺少靈活友好的數(shù)據(jù)治理在線管理工具來支持數(shù)據(jù)治理全流程工作,數(shù)據(jù)治理與數(shù)據(jù)原倉之間沒有打通“數(shù)據(jù)的描述”和“數(shù)據(jù)的記錄”兩張皮。
- 數(shù)據(jù)治理成效可視度低:缺少量化方式來評估數(shù)據(jù)治理成熟度水平,數(shù)據(jù)治理工作的推動成效無法體現(xiàn),變成了純手動的臟活累活,嚴重影響數(shù)據(jù)治理工作的開展推進。
治理中的痛點有很多,往往是由于認識不足導致的,尤其是思維方式。信息技術(shù)的飛速發(fā)展,使得信息的架構(gòu)已經(jīng)從傳統(tǒng)基于需求的IT架構(gòu)發(fā)展為基于數(shù)據(jù)的DT架構(gòu),思維方式也需要相應(yīng)地升級到圍繞數(shù)據(jù)資產(chǎn)化、數(shù)據(jù)價值釋放為核心的新模式。
2. 阿里巴巴數(shù)據(jù)治理新模式
不同模式下思考和解決問題的方式存在著很大的區(qū)別,模式的改變主要包括以下三個方面:
- 變思維:轉(zhuǎn)變傳統(tǒng)思維定式,從IT思維向DT思維轉(zhuǎn)型
- 變模式:工具和技術(shù)是生產(chǎn)工具,數(shù)據(jù)才是核心,IT流程不是核心
- 變定位:擺脫成本中心泥潭,通過運營數(shù)據(jù)資產(chǎn),探索如何成為利潤中心
基于DT架構(gòu)的思維模式,結(jié)合數(shù)據(jù)發(fā)展的階段不同,阿里巴巴形成了一套自己的數(shù)據(jù)治理模式:
- 數(shù)據(jù)穩(wěn)定性與質(zhì)量治理:解決數(shù)據(jù)產(chǎn)出及時性和準確性問題
- 數(shù)據(jù)規(guī)范治理:解決數(shù)據(jù)口徑一致性問題
- 數(shù)據(jù)安全治理:解決數(shù)據(jù)權(quán)限控制與數(shù)據(jù)共享交換問題
- 數(shù)據(jù)成本治理:解決數(shù)據(jù)計算和存儲成本高昂問題
① 數(shù)據(jù)穩(wěn)定性
阿里巴巴每天有千萬級大數(shù)據(jù)計算任務(wù)產(chǎn)生海量數(shù)據(jù),千萬級任務(wù)的調(diào)度情況下,調(diào)度依賴關(guān)系復雜程度遠超過人工處理程度,阿里推出了智能基線監(jiān)控機制確保高優(yōu)先任務(wù)高保障產(chǎn)出。
- 智能識別(DAG)關(guān)鍵路徑,合理設(shè)定告警閾值
- 任務(wù)異常產(chǎn)生事件,自動評估事件影響范圍,通知相應(yīng)人員
- 靈活告警方式配置,支持釘釘群機器人、電話
② 數(shù)據(jù)質(zhì)量治理
數(shù)據(jù)質(zhì)量直接影響數(shù)據(jù)價值和加工效率,高質(zhì)量的數(shù)據(jù)對完整性、有效性、準確性、唯一性、一致性、合理性等特性有很高的要求。阿里巴巴將這些特性封裝成靈活的規(guī)則,然后將規(guī)則應(yīng)用到具體的任務(wù),通過調(diào)度平臺,進行規(guī)則巡檢和規(guī)則執(zhí)行,并對有問題的任務(wù)進行告警或者阻塞處理。其關(guān)鍵特點如下:
- 質(zhì)量監(jiān)控與調(diào)度掛鉤,第一時間發(fā)現(xiàn)問題,避免上游臟數(shù)據(jù)污染下游數(shù)據(jù),大大減小影響面。
- 40+規(guī)則&自定義規(guī)則,精細化質(zhì)量控制。
- 無需設(shè)定閾值,算法自動判斷異常值。
- 故障快速恢復。
③ 數(shù)據(jù)規(guī)范治理
數(shù)據(jù)在實現(xiàn)層面以表為單位進行,阿里巴巴圍繞數(shù)據(jù)生產(chǎn)使用全生命周期,在指標體系設(shè)計、數(shù)據(jù)模型設(shè)計、數(shù)據(jù)處理任務(wù)開發(fā)、數(shù)據(jù)服務(wù)開放等環(huán)節(jié)的每個關(guān)鍵階段都設(shè)計具體標準、流程及規(guī)范,同時抽象核心公共層,進行強管控:架構(gòu)評審,發(fā)布管控,建設(shè)評估,持續(xù)改進。而對核心以外的部分,采取輕約束的方式推進。
④ 數(shù)據(jù)標準管理
數(shù)據(jù)的標準,主要是落實到開發(fā)層面的具體規(guī)范約束,比如制定各類數(shù)據(jù)實體(元素、碼表、模型分層、模型等)的設(shè)計約束,規(guī)范每類業(yè)務(wù)實體包含的屬性,屬性是否必須,屬性內(nèi)容約束等規(guī)則。
具體如圖所示:
⑤ 數(shù)據(jù)安全治理
隨著數(shù)據(jù)安全問題頻發(fā),人們對數(shù)據(jù)的安全意識越來越強烈,數(shù)據(jù)安全治理也越來越關(guān)鍵。阿里巴巴通過基礎(chǔ)的數(shù)據(jù)分級、權(quán)限控制來達到規(guī)范安全使用數(shù)據(jù)的目的,并通過敏感數(shù)據(jù)發(fā)現(xiàn)與脫敏,與第三方協(xié)作時構(gòu)建可信計算環(huán)境(即聯(lián)邦建模),以及數(shù)據(jù)的風險審計來搭建數(shù)據(jù)安全的完整體系。
其中對數(shù)據(jù)的分類,面向阿里龐大的數(shù)據(jù)體量,使用人工的方式很不現(xiàn)實,阿里自建了一套自動的數(shù)據(jù)打標工具,集合人工調(diào)整的方式,更合理地管理數(shù)據(jù)的分類分級體系。
⑥ 數(shù)據(jù)成本治理
通過設(shè)立組織大的成本目標,然后通過培養(yǎng)個人的成本意識,在數(shù)據(jù)的計算與存儲、治理與運營層面建立具體目標去細化和落地,來推進數(shù)據(jù)治理方面的成本管理。比如阿里巴巴2020年成本治理的目標:數(shù)據(jù)成本增速不能超過業(yè)務(wù)增速。
3. 阿里巴巴數(shù)據(jù)治理的成功關(guān)鍵
數(shù)據(jù)治理是一個非常龐大且細致的工作,阿里數(shù)據(jù)治理方面的成功主要源于上圖三個方面。
DT時代的核心思維就是數(shù)據(jù)的資產(chǎn)化,阿里將數(shù)據(jù)的資產(chǎn)化以及圍繞數(shù)據(jù)資產(chǎn)的價值的挖掘作為治理的核心目標。
從自上而下來看,站在全公司的高度來頂層設(shè)計,著手解決數(shù)據(jù)的管理問題,提供足夠的授權(quán)和支持。
從下而上來看,通過構(gòu)建強大的技術(shù)平臺支撐和完善的運營體系兩個方面促進治理的切實落地。
- 一套組織體系與制度
阿里構(gòu)建了以數(shù)據(jù)管理團隊負責人、業(yè)務(wù)線數(shù)據(jù)負責人、數(shù)據(jù)平臺負責人為核心的虛擬數(shù)據(jù)治理小組,從組織上劃分清洗數(shù)據(jù)治理的權(quán)責邊界, 并且從管理辦法、管理流程、技術(shù)規(guī)范及模板等建立起完整的數(shù)據(jù)治理制度保障。
- 一部數(shù)據(jù)資產(chǎn)管理方法論:按照數(shù)據(jù)運營思想貫穿數(shù)據(jù)建設(shè)的全過程。
- 一組平臺工具支撐
強大的平臺能力支撐是治理落地的核心保障,技術(shù)的創(chuàng)新和演進是數(shù)據(jù)治理落地的堅實基礎(chǔ)。阿里自研了DataWorks和MaxCompute兩個平臺,支撐全司的數(shù)據(jù)治理落地。
DataWorks:阿里自研的一站式大數(shù)據(jù)開發(fā)和治理平臺,各類存儲和計算引擎的上層操作系統(tǒng),提供數(shù)據(jù)集成、數(shù)據(jù)開發(fā)、數(shù)據(jù)地圖、數(shù)據(jù)質(zhì)量、數(shù)據(jù)安全和數(shù)據(jù)服務(wù)等全方位的產(chǎn)品服務(wù),幫助企業(yè)專注于數(shù)據(jù)價值的挖掘和探索。
MaxCompute:自研、全托管、EB級大數(shù)據(jù)存儲和計算引擎,阿里自研的安全可靠、高效能、低成本、從GB到EB級別按需彈性伸縮的在線大數(shù)據(jù)計算服務(wù),致力于海量結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)的存儲和計算服務(wù),提供數(shù)據(jù)倉庫的解決方案及分析建模服。
- 運營落地
組織、制度、平臺有了之后,推動數(shù)據(jù)治理落地最后一公里的治理運營是成功的關(guān)鍵因素。阿里巴巴構(gòu)建了量化的治理的評價體系(健康分)、日常治理運營推送和專項整治活動密切結(jié)合。
構(gòu)建量化的數(shù)據(jù)治理評價體系,日常治理運營和專項整治相結(jié)合,促進治理工作持續(xù)落地改進。
今天的分享就到這里,謝謝大家。
分享嘉賓:吳永明 阿里云 高級技術(shù)專家
編輯整理:Taylor 東南數(shù)據(jù)實驗室
出品平臺:DataFunTalk
分享嘉賓:
活動推薦:
關(guān)于我們:
DataFun:專注于大數(shù)據(jù)、人工智能技術(shù)應(yīng)用的分享與交流。發(fā)起于2017年,在北京、上海、深圳、杭州等城市舉辦超過100+線下和100+線上沙龍、論壇及峰會,已邀請超過2000位專家和學者參與分享。其公眾號 DataFunTalk 累計生產(chǎn)原創(chuàng)文章700+,百萬+閱讀,14萬+精準粉絲。
歡迎轉(zhuǎn)載分享評論,轉(zhuǎn)載請私信。