一色屋手机视频在线_一级线看片免费人成视频_久99久人碰人_波多野结衣乱码免费观看

讓商業(yè)變得更智能

數(shù)據(jù)治理到底治什么?有沒有前景

數(shù)字中國建設規(guī)劃之后,兩會又確定了國務院機構改革的方案,組建國家數(shù)據(jù)局,朋友圈紛紛被數(shù)據(jù)人刷屏,這可能算的上是數(shù)據(jù)人的一個高光時刻了。近期也有粉絲咨詢數(shù)據(jù)治理工作的崗位前景,有沒有必要考數(shù)據(jù)治理的DAMA證書,今天就花點時間聊聊數(shù)據(jù)治理那些事。

數(shù)據(jù)治理到底治什么?有沒有前景

01 數(shù)據(jù)治理到底指的是什么?

大禹治水,是因為洪水泛濫,禍及民生題,修堤建壩河流改道,并且也要防患于未然。百度百科把數(shù)據(jù)治理定義為組織中涉及數(shù)據(jù)使用的一整套的管理行為。所以了解數(shù)據(jù)使用過程涉及的工作,也就能夠更加準確地理解數(shù)據(jù)治理到底指的是什么了。

數(shù)據(jù)治理到底治什么?有沒有前景

數(shù)字中國建設,首先要解決有數(shù)據(jù)的問題,也就是數(shù)據(jù)基建,連數(shù)據(jù)都沒有或者沒采集,上層建筑也就沒有根基,都是空談。

其次是,數(shù)據(jù)準不準,也就是質量的問題,數(shù)據(jù)臟亂差,錯誤數(shù)據(jù)帶來錯誤的決策指導,還不如沒有數(shù)據(jù)拍腦袋。

第三階段就是效率了,想分析個數(shù)據(jù)要等個十天半個月,決策時效也過了。最后是成本,寒冬還沒過,企業(yè)數(shù)字化轉型本質是追求依賴數(shù)據(jù)進行降本增效,而如果數(shù)據(jù)團隊的人和資產本身成了成本大頭,肯定不是長久之計。

數(shù)據(jù)治理到底治什么?有沒有前景

所以,一切圍繞這四大目標而進行的相關開發(fā)工作或者數(shù)據(jù)產品工具的建設,都是數(shù)據(jù)治理的范疇,比如為了獲取數(shù)據(jù),需要制定數(shù)據(jù)采集的流程和規(guī)范,對于線上業(yè)務主要是埋點采集,線下靠傳感器或其他數(shù)據(jù)導入。

02 數(shù)據(jù)治理的工作范圍和主要職責

既然數(shù)據(jù)治理的目的是為了完成數(shù)字化應用的四大目標,那么,數(shù)據(jù)治理日常的工作范疇和全貌主要包含哪些呢?

1. 有數(shù)據(jù)

在數(shù)字化轉型意識覺醒之前,很多企業(yè)數(shù)據(jù)是缺失不全的,甚至很多人都不知道想要分析用戶行為數(shù)據(jù),必須要先埋點采集。在一些公司中,數(shù)據(jù)分析、數(shù)據(jù)產品承擔了制定埋點規(guī)范的職責,定義數(shù)據(jù)采集的規(guī)范和標注,一個功能上線,需要采集哪些字段,字段的結果和規(guī)范是怎樣的等。

或者散落在不同的業(yè)務系統(tǒng),數(shù)據(jù)是孤島般存在的,數(shù)據(jù)中臺的概念興起后,首要的任務就是要打破煙囪和孤島,把數(shù)據(jù)統(tǒng)一匯聚起來。不同系統(tǒng)怎么整合和匯聚,不同部門數(shù)據(jù)打架時,該聽誰的也同樣需要制定數(shù)據(jù)匯聚的標注和規(guī)范。

2. 數(shù)據(jù)準

主要是指數(shù)據(jù)質量問題,數(shù)據(jù)從采集、加工處理到應用要經歷非常長的鏈路和流程,任何環(huán)節(jié)出了問題,都可能導致數(shù)據(jù)錯誤,所以需要建立數(shù)據(jù)質量檢查和監(jiān)控的標準,防患于未然,提前發(fā)現(xiàn)數(shù)據(jù)問題并修復

一致性:一致性是指數(shù)據(jù)是否遵循了統(tǒng)一的規(guī)范,數(shù)據(jù)集合是否保持了統(tǒng)一的格式。

完整性:完整性指的是數(shù)據(jù)信息是否存在缺失的狀況,數(shù)據(jù)缺失的情況可能是整個數(shù)據(jù)記錄缺失,也可能是數(shù)據(jù)中某個字段信息的記錄缺失。不完整的數(shù)據(jù)所能借鑒的價值就會大大降低,也是數(shù)據(jù)質量更為基礎的一項評估標準。

及時性:及時性是指數(shù)據(jù)從產生到可以查看的時間間隔,也叫數(shù)據(jù)的延時時長。及時性對于數(shù)據(jù)分析本身要求并不高,但如果數(shù)據(jù)分析周期加上數(shù)據(jù)建立的時間過長,就可能導致分析得出的結論失去了借鑒意義。

準確性:準確性是指數(shù)據(jù)記錄的信息是否存在異?;蝈e誤。和一致性不一樣,存在準確性問題的數(shù)據(jù)不僅僅只是規(guī)則上的不一致。更為常見的數(shù)據(jù)準確性錯誤就如亂碼。其次,異常的大或者小的數(shù)據(jù)也是不符合條件的數(shù)據(jù)。

有效性:對于數(shù)據(jù)的值、格式要求符合數(shù)據(jù)定義或業(yè)務定義的要求,如某些電話、郵箱的格式。唯一性:針對某個數(shù)據(jù)項或某組數(shù)據(jù),沒有重復的數(shù)據(jù)值。值必須是唯一的如ID類數(shù)據(jù)。

3. 效率高

主要包括數(shù)據(jù)生產者和數(shù)據(jù)使用者兩個方面,即既要高效生產,又可以快速輸出業(yè)務價值。這就主要涉及數(shù)據(jù)倉庫的資產化管理和建設,比如元數(shù)據(jù)管理、主數(shù)據(jù)管理等。數(shù)據(jù)生產者:模型開發(fā)效率高,可復用,通過數(shù)據(jù)倉庫分層建設,提升開發(fā)效率和運維效率。

源端業(yè)務數(shù)據(jù)變動只需要修改一層底表邏輯,而不需要所有任務全部改一遍。數(shù)據(jù)消費者:數(shù)據(jù)找得到,敢使用??梢郧宄闹雷约盒枰臄?shù)據(jù)指標存放在哪個指標中,統(tǒng)計邏輯是什么,放心大膽的使用。

這就要求數(shù)據(jù)資產管理的數(shù)據(jù)產品,既能滿足數(shù)倉建設的高效率,同時也要具備資產索引地圖的能力,方便業(yè)務查找和使用數(shù)據(jù)。

4. 成本低

大數(shù)據(jù)數(shù)據(jù)量大、價值密度低導致需要大量的服務器來存儲每天海量增長的數(shù)據(jù),雖然說Hadoop分布式的能力支持廉價服務器的部署,但每臺4w也架不住幾千幾萬臺。

所以,數(shù)據(jù)不可能只增不減,還需要持續(xù)做加法,通過數(shù)據(jù)的冷熱分離、無效數(shù)據(jù)歸檔刪除,高耗時任務的治理來降低數(shù)據(jù)的存儲和計算成本。

03 數(shù)據(jù)治理涉及的工具及數(shù)據(jù)產品體系

數(shù)據(jù)治理到底治什么?有沒有前景

1)數(shù)據(jù)埋點管理系統(tǒng)將埋點規(guī)范集成到數(shù)據(jù)管理后臺中,讓整個埋點流程線上化流轉,提升埋點工作的規(guī)范化程度,減少漏埋和錯埋。即使像一些用戶行為分析系統(tǒng)力推的無埋點或可視化埋點,也都有埋點數(shù)據(jù)管理模塊提供界面化的指標定義能力。早期的埋點規(guī)則主要靠excel世代相傳。

2)數(shù)據(jù)倉庫開發(fā)與管理匯聚入湖的數(shù)據(jù)需要加工處理才能發(fā)揮其價值,尤其對于湖倉一體的架構中,涉及到結構化數(shù)據(jù)的數(shù)據(jù)倉庫模塊的開發(fā)。按照業(yè)務需求的邏輯對數(shù)據(jù)進行ETL處理,輸出一個個的數(shù)據(jù)模型。可以將數(shù)據(jù)模型開發(fā)規(guī)范和流程融入到系統(tǒng)當中,是一種低代碼的思想減少數(shù)倉建模的開發(fā)代碼開發(fā),提升模型的規(guī)范化和復用性,比如阿里的Datapin,系統(tǒng)化的好處在于方便前置化管理建模過程,而不是先污染后治理,弊端是可能沒有開發(fā)自己寫代碼那么靈活。

數(shù)據(jù)質量監(jiān)控數(shù)據(jù)不準可以說是業(yè)務和數(shù)據(jù)團隊最頭疼的問題之一,業(yè)務拿到數(shù)據(jù)不敢用,先來問下開發(fā)準不準,開發(fā)不自信,看了任務看了代碼說應該沒問題。數(shù)據(jù)質量監(jiān)控圍繞一致性、及時性、完整性、準確性維度構建豐富靈活的數(shù)據(jù)質量規(guī)則配置和自動化預警能力,讓數(shù)據(jù)開發(fā)人員更自信,只要監(jiān)控沒報警,就可以拍著胸脯說,是不是業(yè)務上有什么變化。

數(shù)據(jù)資產管理地圖酒香也怕巷子深,數(shù)據(jù)模型開發(fā)完了,找得到、敢使用才能提升復用性,數(shù)據(jù)地圖通過資產目錄共享和強大的數(shù)據(jù)檢索能力,提供逛數(shù)據(jù)、找數(shù)據(jù)的能力,同時需要具備豐富的模型元數(shù)據(jù)信息,讓數(shù)據(jù)消費者快速判斷是不是自己所需要的數(shù)據(jù),如何使用。

數(shù)據(jù)成本治理與優(yōu)化雖然說大家默認數(shù)據(jù)部門是成本中心,但是在這個寒冬之下,也要勒緊褲腰帶,雖不能開源但總要節(jié)流,哪些數(shù)據(jù)長期無人使用可以歸檔或刪除,哪些任務SQL性能奇差一個任務執(zhí)行10多個小時,消耗大量CPU、GPU?

數(shù)據(jù)成本優(yōu)化核心目標是建立數(shù)據(jù)健康分評價體系,自動化檢測治理目標,并提供歸檔、刪除等自動化治理動作,從而釋放服務器資源,常態(tài)化做減法。

數(shù)據(jù)血緣主要解決數(shù)據(jù)的追根溯源的問題,例如數(shù)據(jù)異常,需要通知下游業(yè)務,數(shù)據(jù)治理時需要下線或者刪除,下游有沒有人在使用,沒有血緣就不敢治理,數(shù)據(jù)&服務只增不減統(tǒng)一數(shù)據(jù)權限數(shù)據(jù)安全問題事關企業(yè)生死存亡和數(shù)據(jù)團隊的“錢途”,統(tǒng)一權限主要是建立數(shù)據(jù)資產權限申請、授權、審計對應的流程,從而保證數(shù)據(jù)既共享又安全。

04 數(shù)據(jù)治理的崗位有沒有前途

數(shù)據(jù)治理可以說是數(shù)字化建設最基礎的根基部分,在數(shù)字化建設初期需求量非常大,即使有些企業(yè)追求短期的數(shù)據(jù)應用價值快速可見,終究還是要回過頭來還數(shù)據(jù)治理的技術債,所以如果當前從事的是數(shù)據(jù)治理方向的開發(fā)或者產品工作,就先花1-2年把這個方向的基礎打扎實,然后再向雨后春筍一樣,遇到合適的機會快速向上。

如果開始選擇職業(yè)方向,那就根據(jù)自己專業(yè)背景決定是否以這個方向切入,計算機、統(tǒng)計、算法、數(shù)學等專業(yè)背景的上手數(shù)據(jù)治理相關工作相對會更快。

原文鏈接:https://www.woshipm.com/it/5785461.html