数据质量可衡量方案
timey小先生 2022-04-17 01:23:30阅读 150 数据治理闭环、数据质量衡量

背景: 通常企业在做完数据治理后,发现没有可衡量的指标去评估此次数据治理的好坏,只能通过人为的主观评价,但这种行为不够客观,不能让大家信服。所以,数据质量可衡量在数据治理过程环节中是必不可少的一个环节。

(web富文本插件显示未优化,有需要的同行可加个人版飞书,内有详细的流程文档)

数据质量可衡量流程:

 

A、   质量可评估需求(现公司存在的异常场景)

  • 必填字段是否出现NULL(adjustid缺失、#device_id缺失、#app_version、product_id、缺失等)
  • SDK埋点点位adjustid 、uid、gps_adid、idfa缺失,金额为0
  • 核心字段package等存在漏报
  • 支付埋点多了非玩家真实充值
  • 支付埋点出现重复上报
  • 枚举存在字符串
  • 采集的元数据logd或者json不纯粹,存在其他字符符号,如\t,\n等
  • log的长度错位
  • 字段类型错误
  • 上报字段不常用、价值低
  • 业务存在字段、核心枚举漏报
  • 使用过程中出现重复上报问题

B、  规则提炼

  • 完整性:是指数据信息是否完整,是否存在缺失情况。数据缺失的情况可能是整个数据记录缺失,也可能是数据中某个字段信息的记录缺失,也有可能是比存在枚举存在缺失等等。
  • 准确性:用于度量哪些数据和信息的准确度,反应数据上报是否正确。结合我们现有的异常场景,存在重复上报、不符合常规逻辑上报,出现各种异常编码/符号,金额为0等等情况。
  • 一致性:是指数据是否符合规范,数据内单项或多项数据间存在逻辑关系。比如,客户端上报adjust支付/登录/注册等点位,与协议的t_pay_flow/t_login/t_register等一致;枚举超出范围;上报的key长度与协议不一致等
  • 时效性:这里的时效性即为及时性,能够客观反应数据使用方可以在预期内看到数据,结合我们目前的现状,影响及时性更多的是调度任务/BI查询工具效率等,数据上报延迟比极少出现。
  • 合理性:是指协议是否符合设定,设计好的协议是否能够合理的满足目前、未来的分析需求,正常情况下极少会再次调整字段/上报时机;其次业务的设计需求是够合理,是否被经常使用等等


 C、mysql库建立

 

D、建立可视化反馈桥梁推动业务修复