数据质量管理(品质数据管理中心)

2022-09-09 02:36:38 发布:网友投稿
热度:61

数据质量管理(质量数据管理中心)

是企业数字化转型的核心要素,大数据建设的目标是整合组织数据,增加组织洞察力和竞争力,实现业务创新和产业升级。数据的价值取决于其数据的质量。

如果没有良好的数据质量,大数据会误导决策,甚至产生有害结果,如:

在金融企业中,由于数据质量问题导致的信用卡欺诈疏忽导致2008年损失了48亿美元。

商业上,美国零售业每年仅因为错误的价格标签就损失25亿美元。

经济损失方面,数据错误给美国工业造成的年度经济损失约占GDP的6%。

在医疗事故方面,美国医学委员会的统计数据显示,数据错误导致的医疗事故在美国每年仅导致多达9.8万名患者死亡。

在电信行业,数据错误往往会导致故障排除延迟、租用冗余设备出错、收取服务费等,损害企业声誉,甚至失去很多用户。

在多个仓库的建设中,有50%的数据仓库由于数据质量问题而被取消或延迟...

提高数据质量的目的是巩固大数据建设成果。因此,高质量的数据是企业业务能力的基础。今天,萧艺将告诉你什么是数据质量管理。数据质量问题的原因是什么?我们如何管理好数据质量?

1.什么是数据质量管理?

1.数据质量。

数据质量在业务环境中,数据满足数据消费者的使用目的,数据质量需要满足业务场景的具体需求。数据质量包括两个方面:数据本身的质量和数据的过程质量。

数据本身的质量很容易理解,比如数据必须真实准确地反映实际业务,任何业务操作的数据都没有遗漏,对数据有各种约束,不能相互矛盾等。

数据的过程质量是指数据的使用过程符合标准规范,如数据存储:数据是否安全地存储在合适的介质上,可以保证数据不受外界因素的破坏。当然,数据存储只是数据使用过程中的一个环节,除此之外,它还包括获取、传输、应用、删除等一系列使用过程,这些过程实际上都是数据生命周期的各个阶段。

2.数据质量管理。

数据质量管理是指通过识别、测量、监视、预警等一系列可能在数据的各个阶段引起各种数据质量问题的管理活动,通过提高和增强组织的管理水平来保证数据质量的提高。

换句话说,数据质量管理是一个集成了方法、管理、技术和业务的解决方案。它不是一种临时的数据治理方法,而是一个持续的管理过程。一方面反映出企业数据很难达到标准规范一次性使用。毕竟,数据治理是一个相对漫长的过程。另一方面,也反映了数据质量的重要性和数据质量工作的碎片化、琐碎化。

3.数据质量评估。

至于如何评价数据质量管理的过程,我们可以从以下五个维度来评价数据质量:

(1)完整性:描述信息的完整性,如电话号码是否有值空;

(2)准确性:描述数据是否与客观实体特征一致,如数据库中记录的电话号码与实际电话号码不一致;

(3)有效性:数据是否满足用户自定义条件、内容规范约束等。如果年龄是-32岁,是违背常识的;

(4)一致性:描述同一信息主体在不同数据集中的属性是否相同,如CRM系统和人力系统中岗位名称的不一致性;

(5)时效性:描述从业务发生到相关数据被使用的时效性,比如实时查看与用户行为相关的数据。

这五个维度共同构成了数据质量评估的基本框架,每个维度可以通过设置评估问卷随机抽取一些问题,然后收集相应的数据。注意不同的数据收集方式,如访谈、发放环节、随机抽样等。

二是数据质量问题的成因。

大数据的建设和管理是一项专业而复杂的工程,涵盖了业务梳理、标准制定、元数据管理、数据模型管理、数据聚合、清理处理、集中存储、资源目录编制、共享交换、数据维护、数据失效等流程。任何环节的错误都会导致数据错误。因此,数据质量问题的原因主要分为以下三类:

1.技术原因。

(1)数据标准制定。

数据输入规范不一致,不同的业务部门,不同的时间,甚至在处理同一业务时,由于数据输入规范不同,导致数据冲突或矛盾。如果主观判断的结果包含在数据生成过程中,必然会导致数据中存在主观偏差因素。此外,并非所有行业都有公认可信的数据标准,在制定组织标准的过程中,数据元素的描述和理解存在错误,代码集的定义不正确、不完整等。容易发生。

(2)数据模型设计。

由于对业务认识不足或技术实践水平不足,导致数据库表结构、数据库约束和数据验证规则设计不合理,导致数据存储混乱、重复、不完整、不准确。

(3)数据源本身。

生产系统中的一些数据不规则、不完整、不准确、不一致等。,但是这些问题在收集过程中没有进行清理和处理,或者清理和处理程序代码不正确。

(4)数据梳理过程。

在数据采集之前,需要对组织机构、业务事项、信息系统、数据资源清单等信息进行梳理。如果对业务的理解不到位,整理报告就会不完整或不正确。

(5)数据采集过程。

采集点、采集频率、采集内容和映射关系等采集参数和流程设置不正确,数据采集接口效率低,导致数据采集失败、数据丢失、数据映射和转换失败。

(6)数据清理和处理。

数据清理规则、数据转换规则、数据加载规则的配置存在问题,甚至相应的清理处理工作也没有按照数据标准进行,因此空的自由发挥过大。此外,在数据聚合过程中,数据的相关性没有及时建立,后期难以补充完善。

2.商业原因。

(1)业务理解不到位。

数据业务描述、业务规则、关联分析不到位,导致技术无法构建合理正确的数据模型。

(2)业务流程的变化。

随着业务流程的变化,数据模型设计、数据录入、数据采集、数据传输、数据清理、数据存储等环节都会受到影响,稍有不慎就会导致数据质量问题。

(3)数据输入不规范。

常见的数据输入问题,如大小写、全角、特殊字符等。,如果他们不小心就会被记录错误,甚至数据会被输入错误的字段,从而导致“失业”。人工输入数据的质量与记录数据的业务人员密切相关。如果记录数据的人员工作严谨认真,数据质量会相对较好,反之亦然。

(4)业务系统有很多烟囱。

20年来,只要较大的企业和政府部门建设了一批解决业务问题的信息系统,也导致了信息集成的痛点和难点,把先发优势变成了数据困境。

(5)虚假数据。

运营商为了提高或降低考核指标,对一些数据进行处理,使得数据的真实性无法保证。

3.管理原因。

(1)人才缺乏。

按照自身业务发展的主要原则组织团队,而数据建设依赖于外部服务公司,但没有建立相应的管理手段和监督机制资源网络,无法准确判断数据项的建设效果。

(2)流程管理不完善。

没有有效的数据质量保障机制和问题处理机制,没有发现、分配、处理和优化数据质量问题的统一流程和系统支持,数据质量问题无法闭环。

(3)成员意识不开放。

组织缺乏数据思维,没有意识到数据质量的重要性,重系统轻数据,认为系统无所不能,数据质量差没关系。组织成员不从组织战略的角度看待数据资产,而是将数据视为创建数据的部门的资产,导致数据冗余、不一致、碎片化,从而难以发现数据的价值。

(4)奖惩机制不明确。

没有数据集中管理部门或岗位,没有数据问责机制。出现数据质量问题,找不到权威来源或负责人。缺乏数据规划,没有明确的数据质量目标,没有与数据质量相关的政策和制度。

三、如何做好数据质量管理。

1.从数据的整个生命周期进行管理。

也就是说,在数据生命周期的任何阶段,都有严格的数据规划和约束来防止脏数据的产生。一般来说,可以分为三个阶段:事前预防、事中监控、事后改进。

(1)提前预防。

①建立质量管理机制:基于数据管理的复杂性和激励的多样性,仅仅依靠一种技术工具来解决数据质量问题是不够的。需要建立长效工作机制。即根据组织的特点,制定符合自身环境的工作制度,制定各环节的工作流程,规定各参与方的职责,确定各数据的权威部门,制定数据质量指标,制定数据质量修复流程等。

②制定数据质量标准:数据标准是否定义成功直接决定了大数据建设的成果和数据质量水平,需要在整合国家标准、行业标准和地方标准的基础上,整合组织自身的业务特点;

③建立质量监控模型:数据质量模型代表业务需求,从业务需求的角度进行描述;

④制定质量监控规则:数据监控规则代表具体的质量检查手段,从技术角度描述数据质量要求是如何满足的,包括标准化、完整性、准确性、及时性、可及性等。

(2)过程监控。

①监测原始数据质量:数据采集工作从数据源获取最原始的数据,在数据采集过程中将数据分为“好数据”和“坏数据”。“好数据”入库,而“坏数据”反馈到源头修复,因为数据源部门最了解这些数据,可以在源头彻底修复数据问题。

②监控数据中心的质量:经过各种采集、清理和处理过程后,数据存储在数据仓库中,这些数据也会被业务部门使用,因此对这些数据的质量进行监控和修复仍然很重要。对于这样的数据问题,我们可以使用简单的规则,如空值检查、规范性检查、值范围检查、逻辑检查、一致性检查等。,或者我们可能需要多源比较、数据确证、数据探索、波动检查、异常值检查等方法。

③反馈数据质量问题:在数据质量监控过程中,会发现两类问题,一类是源数据质量问题,另一类是数据中心的数据质量问题,数据质量团队需要及时将这些问题反馈给源部门和数据仓库建设团队。

④数据质量评估:数据质量评估的目的是引起各参与部门和团队对数据质量的重视,需要及时对各种数据质量问题进行统计分析,制定相应的对策。

(3)事后改进。

①修复数据质量问题:发现质量问题不是最终目的。我们仍然需要建立相关的流程和工具,通过人工、工单、自动化等手段修复质量问题,为业务创新提供可靠的数据支持。

②采集数据的质量要求:数据中心的建设和质量问题的修复必将促进数据的应用。我们还需要建立畅通的数据质量反馈渠道,让各部门都能参与到数据质量的再提升中来,从而形成建设、应用、反馈的良性循环。

③完善质量管理体系:体系和流程的建设不是一蹴而就的。要结合自身组织架构和业务特点,在数据建设和质量提升过程中不断完善工作体系。

④完善数据质量标准:各行各业新的业务形态不断涌现,原有业务不断变化。要紧跟业务变化,不断完善符合业务需求的数据标准。

⑤完善质量监控模型:如上所述,监控模型所代表的业务需求、业务形式的变化、数据标准的变化以及新的质量需求的出现,也要求监控模型做出相应的改变。

⑥完善质量监控规则:同样,今天的信息技术日新月异,需要不断引入各种新技术,更智能地发现和修复数据质量问题。

2.根据数据质量问题所依赖的知识进行管理。

(1)数据梳理。

数据梳理是理清企业数据现状,了解整体数据质量,提取具有共性特征的数据,按照主题领域的方式进行划分,便于后续数据管理。首先,明确企业数据的类型,根据不同的数据分类选择不同的方法提高数据质量。

梳理企业目前的数据情况,了解企业现阶段有哪些数据,数据来自什么业务系统,数据在哪里使用,数据是如何存储的,数据安全和数据隐私是什么;企业可以收集哪些数据;哪些数据缺失以及企业数据建设的现状,要做好数据评估分析报告,为数据质量提升提供全方位的参考。

我们从业务的角度,梳理企业数据、数据分类、数据分类之间的流动关系,明确什么数据是基础数据,什么数据是从基础数据中衍生出来的。只有梳理当前的企业数据,才能对企业数据有清晰的认知,找到提高数据质量的关键突破点。

俗话说,如果一个工人想做好工作,他必须先磨工具。以全面质量管理的PDCA循环管理方法为指导,宜华晨睿智数据管理平台的数据质量管理模块充分结合国内数据质量管理的特点,最终利用元数据管理、数据挖掘、数据分析、工作流、记分卡、可视化等技术,帮助企业和政府建立数据质量管理体系,全面提升数据的完整性、规范性、及时性、一致性和逻辑性,降低数据管理成本,减少数据不可靠带来的决策偏差和损失。

(2)数据规范。

主要从数据模型和数据标准两个方面来定义数据规范:

①数据模型:是数据特征的抽象,是获取和明确企业数据需求的方法,是数据需求分析和建模的基础。通过对表现客观事物的信息进行抽象、综合和分类,将其组织成具有一定结构的数据,并描述这些数据结构及其逻辑关系、数据运行模式和约束条件。在实际的建模过程中,数据模型描述了三个部分:数据结构、数据操作和数据约束。

②数据标准:是数据模型的又一次延伸,是数据资产管理的核心基础,是准确重新定义企业数据资产化的过程。数据标准可以促进企业数据模型的落地,对企业业务系统中关键数据的标准化起到关键作用。然而,真正的数据标准不是标准文档、过程文档、系统文档等。,而是通过由管理标准、控制流程和技术工具组成的体系逐步实现数据信息化标准的过程。

在数据模型的落地和推广过程中,由于不同组织的人员认知不同、对问题的视角不同等内外部原因,资源网络在集成和互操作时往往会遇到数据不一致的问题。因此,在设计业务系统的数据模型之前,企业应该设计一套相对标准的数据规范。通过数据标准规范,反向推动业务采集数据,解决数据不一致的问题。

常用的策略如下:

(1)需求规划阶段:梳理企业现有的数据模型,资源网络是否合理,如果有,则进行变更,然后增加激励,再根据现有模型设计整个系统的模型,整个过程始终遵循数据标准的规范要求;

(2)在数据采集阶段:重点关注数据安全与隐私、数据时效性、数据传输等问题;

③在数据存储和共享阶段:重点关注数据集成、数据一致性和数据完整性。

四、注意事项。

1.数据质量管理要针对其业务目标,企业数据治理不是为了数据治理,而是为了支持业务和管理目标的实现。因此,提高数据质量的主要目的是促进业务发展;

2.企业应不时积极清理和补救数据,纠正存在的数据问题,因为有效的数据质量控制虽然能在很大程度上起到控制和预防不良数据发生的作用,但实际上,无论质量控制有多严格,100%的数据问题都无法避免,甚至有时严格的数据质量控制会导致其他更多的数据问题;

3.建立企业的组织保障体系,企业需要建立一种文化,让更多的人认识到数据质量的重要性,比如成立数据治理委员会,为数据质量定调,对数据基础设施和流程进行决策。

动词 (verb的缩写)摘要

对于不同行业、不同规模甚至处于不同发展阶段的企业来说,按照相同的业务规则产生的数据质量是不同的,所以首先要记住数据质量本质上代表的是这些数据用户的满意度。

其次,数据质量管理是数据治理中非常重要的一环,企业数据治理的所有工作都是围绕着提高数据质量的目标进行的。然而,治理和管理是两个矛盾的对立面,数据质量归根结底主要受人的影响。对于管理范畴的数据质量问题,更多的时候在于企业人对数据的理解、支持和认知之间的巨大关系,这通常可以从数据规划、数据治理的组织和责任、数据标准化的制度和流程等方面来做。

下一篇:琅琊榜秦般若(琅琊榜秦般若最后的结局)
上一篇:六六无穷(三三不尽六六无穷打一数字)