伟德BETVLCTOR网页版

资讯中心

资讯中心

?数据治理:数据客栈的数据质量怎样管理?

作者: 时间:2022-01-14 泉源: 字号:  

现在数据客栈层面的事情日益增添,开发职员也越来越多,怎样包管数据准确性是一项很是主要的事情,数据客栈的许多应用数据是直接泛起给用户或者支持企业剖析决议的,容不得数据泛起过失。

因此,我们迫切需要制订一套数据的准确性验证流程,让各人都凭证规范流程来做,包管数据的准确性。

数据指标管理

首先,我们看下数据客栈的数据流程,要确认盘算出的指规范确,就要包管数据源的准确和逻辑的准确。

bevictor伟德官网 - 韦德官方网站

以是开发前需要确认需求的准确性。凭证“需求模板”完善开发的需求,遇到模糊界说,需要和营业职员确认指标口径的准确性。

开发数据指标历程分为四部分:看、查、管、控。

· 数据指标管理:看

首先我们要对开发出的指标效果数据举行审查,是否有一些显着的异常,好比某个数据值不在正惯例模内,如车速大于500KM/h,或者统计的总数过大,好比某都会生齿2亿人等。

通过“看”找出异常指标数据,并予以解决。

· 数据指标管理:查

查,分为测试验证和上线审核,两个办法。

测试验证要领如下:

1、总量核对:核对上下两步的数据总条数,没有过滤条件的话是一致的。

2、多维度统计:重大的多维度指标拆分成单维度SQL统计,对每个指标划分举行核查。

3、多表关联统计,拆分成中心表核对每一办法的指标。

4、明细到指标统计,好比随机找一台车的明细和最后统计的指标举行核对。

5、新老统计比照,好比有些指标是迁徙或者之前营业手工制作,可以将开发后的新指标同老指标举行比照。

测试需要有专门的数据测试职员举行测试,输出测试用例和测试报告。

上线审核要领如下:

需要对上线的SQL代码举行审核,主要从以下几个方面:

1、对盘问表的where后面的条件、join关联字段、group by分组字段等重点检查逻辑,和需求明确团结审核。

2、数据集命名、数据集字段命名、使命名称举行审核,是否凭证数据客栈建设规范中的营业域、维度、原子指标、修饰类型、修饰词、时间周期、派生指标等标准举行命名。

bevictor伟德官网 - 韦德官方网站

3、代码注释审核,每一步处置惩罚需要有注释该办法的作用,每个指标也要有注释,where条件等也要添加注释。

4、主要使命是否开启短信告警,使命启动时间等审核。

5、使命上线的位置是否切合上线标准,好比上线的数据层级与营业层级等。

上线审核需要审核职员凭证以上办法举行审核,对不对理的地方举行指正,审核职员和开发职员配合包管代码质量。

· 数据指标管理:管

开发历程中,各人需要遵照一些流程规则,以确保指标的界说,开发的准确性。

1.需求上线时间需要在知识库中完成所开发需求逻辑说明。

2.重大需求(好比项目指标),需要团队至少两人以上评审需求后开发。

3.提交上线申请的同事需要备注上需求逻辑说明。

4.审核上线职员为“轮值”,审核上线职员需要review开发职员的代码,需要和开发职员配合肩负代码质量。

· 数据指标管理:控

指标开发完成后,需要对指标的波动情形举行监控,发明波动较大的举行核查,指标波动规模需要详细营业详细制订,需要营业职员协助确认。常用的数据质量监控要领如下:

1、校验天天的纪录数

剖析师遇到的最常见数据异常是其报告的输出突然降至0。

我们通�;岱⒚髯詈蟮淖锟锟堑碧烀挥薪录吐继砑拥较煊Φ谋碇�。

一种简朴的检查要领是确保天天一个表中的新纪录数>0。

bevictor伟德官网 - 韦德官方网站

2、NULL和0值校验

剖析师常遇到的第二个问题是NULL或0值。我们要包管天天增量数据中的NULL或0值不可凌驾新增数据的99%。要检查这一点,只需将一个循环剧本设置为天天用NULL或0计数一个表中的新纪录数。若是看到纪录数急剧增添,则可能保存转换过失或源营业系统就保存异常。

3、天天新增的纪录数波动规模

某一天你发明数据量泛起大幅增添或下降,而规则1和2都已校验通过。这种波动可能是正常的,好比电商行业某天的大促活动,或者社交软件的营销活动。可是也可能这就是异常的,是由于从源系统抽取了重复的纪录。

以是针对此种情形,我们也要制订数据质量规则,检查这些波动何时爆发,并自动举行诊断。好比自动执行的一个简朴的SQL历程,天天检查COUNT个新纪录是否在7天跟踪平均值的误差规模内。阈值和误差规模可能因公司和产品而异,履历值一样平常是加减25%。虽然,你也可以直接和前一天的数据比照,增量不凌驾前一天的1倍。

bevictor伟德官网 - 韦德官方网站


4、数据唯一值校验

不管是电商系统、社交系统或者是物联网装备上报的数据,正常情形下都不会泛起两条完全一样的纪录(包括ID,时间,值都一样)。笔者曾遇到一个终端上报的两条数据完全一样的场景,导致我在做时间分段时间,划分不准确。以是,对数据值唯一性校验是有须要的。

bevictor伟德官网 - 韦德官方网站



5、数据时间校验

一样平常我们营业系统的数据都是带有时间戳的,这个时间戳一定比目今的时间要小。可是由于收罗数据装备异常(营业系统异常),我们会遇到“未来时间”的数据,那若是我们以时间作为分区,后期可能就会泛起异常的剖析效果。虽然,若是你的公司营业是跨国的,你需要思量时差因素。

bevictor伟德官网 - 韦德官方网站


写在最后的话


通过以上内容,我们对怎样管控数据客栈的数据质量管理要领和流程有了起源的熟悉。关于差别的营业或者公司,照旧需要团队小伙伴或者营业侧一起制订相关的数据治明确决计划,一直完善监控系统,只有这样才华包管我们的营业剖析效果是准确的,才华指导公司做出准确的决议。



链接:https://www.toutiao.com/a6987934317440025125/?channel=&source=search_tab

————————————————————————————————————————————


免责声明:本文转载自网络,所发内容不代表本网站态度,若有侵权请联系删除。

联系伟德BETVLCTOR网页版

网站地图