聊一聊數(shù)據(jù)報表/數(shù)據(jù)分析的【對數(shù)】日常
“這數(shù)不對”
“為什么A這里的數(shù)據(jù)和B的數(shù)據(jù)不一致?”
“為什么平時這個數(shù)是C今天變成了D?”
“為什么這么高?”亦或是“為什么這么低?”
——【我的對數(shù)日常】
一旦有人對某數(shù)據(jù)提出質(zhì)疑,就會開始令所有人崩潰的對數(shù)。尤其是經(jīng)營分析會、月度會議期間,數(shù)據(jù)團隊面臨反復(fù)且高頻的折磨,不同需求方不同角度都等著回答和解釋。
-
領(lǐng)導(dǎo):不理解,為什么沒有人能給出來正確的數(shù)據(jù)? -
業(yè)務(wù):技術(shù)給的結(jié)果不準...數(shù)據(jù)質(zhì)量差,又不能用...又要自己算...數(shù)據(jù)量太大算不動 -
數(shù)據(jù)團隊:數(shù)據(jù)不是我錄的、業(yè)務(wù)數(shù)據(jù)庫不是我設(shè)計的、指標邏輯也不是我定義的、運營邏輯和策略調(diào)整對數(shù)據(jù)的影響我也不知道。 數(shù)據(jù)根據(jù)邏輯加工出來就是這個樣子,不是你想要的,我該解釋什么?
(二)對數(shù)對數(shù),對的是什么?
2.1? 數(shù)據(jù)比對的場景
-
新舊指標對比,新指標上線替換就應(yīng)用
-
全新指標上線,證實數(shù)據(jù)準確
-
同預(yù)期不符或數(shù)據(jù)波動大,進行數(shù)據(jù)查驗
-
應(yīng)用端數(shù)據(jù)不一致,維度匯總不一致給出解釋
-
數(shù)據(jù)A和相關(guān)數(shù)據(jù)B不匹配,交叉驗證
...
2.2 數(shù)據(jù)團隊的心態(tài)
2.3 對數(shù)對數(shù),對的是什么
(三)?通用可復(fù)制的方法
數(shù)據(jù)比對是描述性分析,即對數(shù)據(jù)現(xiàn)狀拆解出數(shù)據(jù)依據(jù)。 那么數(shù)據(jù)比對的過程,就是描述性數(shù)據(jù)分析的過程,可按以下順序進行:
-
確認分析的目的和思路 -
數(shù)據(jù)準備、處理及分析 -
撰寫數(shù)據(jù)結(jié)論及報告 下面具體說如何操作,讓觀點可執(zhí)行 。
3.1 確認分析的目的和思路
3.1.1 假設(shè)驗證確認分析思路
3.1.2 數(shù)據(jù)一致性驗證方式
(1)基礎(chǔ)認識一致性驗證
指標的設(shè)計過程:定義、計算公式、統(tǒng)計維度(時間...)、維度含義、屬性定義
指標的技術(shù)屬性:技術(shù)方式、數(shù)據(jù)源、更新時間
-
更新時間天然不同,離線為批處理定時調(diào)度任務(wù)模式,而實時對數(shù)據(jù)的時序性有要????求,在某些場景并不能保證與離線同等的一致性。
-
計算邏輯無法對齊,離線邏輯相對復(fù)雜,支持補償邏輯,實時處理卻相對比較簡單
-
數(shù)據(jù)源不一致,比如日志在一些場景不能做到完全一致
Example 2: 回款率單位為%,城市結(jié)果值求平均并不等于全國數(shù)值,也可直接告知業(yè)務(wù)原因。
(2)正向驗證
-
確認是否是業(yè)務(wù)正常變動,如大促暴漲、廣告行業(yè)的1&2月淡季周期性異常。
-
交叉維度匯總不一致,數(shù)據(jù)缺失向上匯總記錄的處理方式。
(3)反向驗證
-
任務(wù)是否正常?數(shù)據(jù)是否更新?集群崩潰、任務(wù)失敗、任務(wù)超時、源數(shù)據(jù)系統(tǒng)字段變更...
-
處理過程是否正常?數(shù)據(jù)漂移、數(shù)據(jù)發(fā)散、數(shù)據(jù)傾斜...
-
業(yè)務(wù)口徑數(shù)據(jù)和數(shù)據(jù)庫數(shù)據(jù)映射是否一致?不同含義指標取相同名字...
3.2 數(shù)據(jù)準備、處理及分析
3.3 數(shù)據(jù)結(jié)論及報告
-
哪個數(shù)據(jù)是準確的?是什么造成了數(shù)據(jù)差異,數(shù)據(jù)差異的構(gòu)成和占比 差異是否合理?
-
是否需要進行修正,計劃、難點分別是什么
-
(2)結(jié)果呈現(xiàn)
-
結(jié)果數(shù)值比對,差異明細,對照過程及明細
-
呈現(xiàn)餅圖 和柱形圖足夠了,柱形圖看差異,餅圖看差異構(gòu)成
(四) 數(shù)據(jù)人的下一步
4.1 數(shù)據(jù)質(zhì)量
GB/T 36344-2018 數(shù)據(jù)質(zhì)量評價標準
Example:
-
完整性: 指數(shù)據(jù)元素和數(shù)據(jù)記錄完成性,例如:字段是否存在空值,指標數(shù)據(jù)維度是否足夠支撐業(yè)務(wù)分析
-
準確性: 指數(shù)據(jù)可信度,例如:是否數(shù)據(jù)正確、格式合規(guī)、唯一性、無臟數(shù)據(jù)
-
一致性: 指相同數(shù)據(jù)一致性和關(guān)聯(lián)數(shù)據(jù)一致性,如:相同指標在不同場景下數(shù)值是否一致
-
時效性: 指基于時間段的正確性、基于時間點及時性、時序性,例如:實時能否保證1分鐘以內(nèi)延時,離線能否保證每天9點定時更新
GB/T 36344-2018 數(shù)據(jù)質(zhì)量評價標準-數(shù)據(jù)質(zhì)量評價過程
4.2 數(shù)據(jù)清洗
-
識別數(shù)據(jù)問題
-
評估問題及解決方案
-
清洗計劃:更正、刪除、合并、替換、補齊...
-
數(shù)據(jù)應(yīng)用及周期性質(zhì)量評估清
-
數(shù)據(jù)問題是業(yè)務(wù)數(shù)據(jù)問題,需要多方人員參與,全面的考慮上下游聯(lián)動影響,包括產(chǎn)生數(shù)據(jù)的、使用數(shù)據(jù)的...
-
提升源端質(zhì)量是根本之法,增加系統(tǒng)界面端和數(shù)據(jù)庫輸入的的限制,如某些字段非空校驗、數(shù)據(jù)類型校驗、唯一約束等。
-
做好備份!做好備份!做好備份!