A. 数据质量管理5要素分析
数据质量管理5要素分析
借助客户数据整合(CDI)软件和主数据管理(MDM)软件的帮助,人们可以把上述各种在不同时期因为不同目的而生成的数据进行一定程度的整合和清理,但是要想真正长期保证数据的高质量,还必须从以下5个方面着手。
1. 建立数据的标准,明确数据的定义。通常,独立的应用系统会有一个比较模糊的、有时也会有比较清晰的数据标准和数据定义。为了保证系统的正常运行,这些系统的用户必须在数据的标准和数据的定义上达成一致。不过,这些标准和定义大多数时候与企业中其他系统中的数据标准和定义并不一致。因此,需要从整个企业的角度出发,建立统一的数据标准和数据定义,同时,整个企业必须就这个数据标准和数据定义达成共识。这一句话说起来容易做起来难。因为人通常本能地会拒绝改变,改变数据标准和定义并不是轻而易举的。为此,强烈建立在企业中除了设立一个高管级别的数据质量管理委员会外,还需要选定一个执行能力强的项目负责人,需要他推动相关人员接受新的数据标准和定义。
在具体建立新的数据标准和数据定义时,需要仔细权衡,哪些定义和标准是出于企业内部的原因(比如出于方便、习惯等)制订的,哪些定义和标准是因为要有效反映外部的真实世界而制订的。相对而言,前者更容易执行一些。
2. 建立一个可重复的数据收集、数据修改和数据维护流程。数据管理面临的两个主要挑战是企业本身的复杂性和身份信息不断变化。这两个客观原因的存在意味着企业的数据质量保证行动永远没有结束之日,因此,企业在制订数据质量的保证措施和数据质量指标时,必须保证这些措施和指标能够不断重复。
3. 在数据转化流程中设立多个性能监控点。数据的质量高低可以根据最终用户的需求来评价,也可以通过与同类数据源的`比较来评价,还可以通过与前一阶段的数据质量进行比较来评价。但在制订数据质量的战略时,比较理想的办法还是根据最终用户的需求来进行。不过这里存在一个问题是,等到最终用户拿到数据时再针对数据的问题进行修正已经太迟了。一个有效的数据质量保证办法是在每当数据发生转换后就与前一时期进行比较,从而对数据质量进行评估。如果此前所采用的数据质量改进方法有助于提高最终用户的满意度,那么,这些中间指标的达标也预示着项目的最终成功。
4. 对流程不断进行改善和优化。我们常常听到有人说,他们制订了很多办法来迅速而且大幅度提升数据的质量,但很少听说最后他们能真正得到满意的结果。其原因就在于数据的质量改进绝非一朝一夕的事情,而是一个持续的过程。正确的办法是通过一个不断改进的流程,持续不断地排除错误、对数据进行整合和标准化,最后达到流程的自动化,从而降低数据质量保证计划的总体开销。实际上,排除错误、数据整合和数据标准化从来就不是一件容易的事情。数据质量管理计划的负责人将配合公司高管组成的数据质量管理委员会来保证这个流程的顺利执行。要注意的是,作为该项目的负责人,不能墨守成规,仅仅因为自己以前一向采用某种方法,就要求别人也必须采用这一方法,特别是当发现这些方法成本高昂的时候,就应该考虑换一种方式了。
5. 把责任落实到人。通常,我们认为那些与数据的产生、维护相关的人员是负责任的,但是,很有可能,他们有很多其他的工作要做,因此作为数据质量的负责人光有善良的想法是难以提高数据的质量,很有可能一辈子也达不到目标。对于那些负责数据的产生、数据的合理化以及对数据进行清理和维护的人,应该给他们的活动制订明确的指标,这样他们才能真正理解人们到底希望他们达到什么目标。更重要的,他们还需要针对这些指标细化对他们自己的要求,当然,他们会因为达到或者超过这些指标而得到奖励。其中,一个执行力强的负责人的价值体现出来,他会针对具体情况适时调整数据质量的目标。
最后,再次强调考虑与数据管理和数据质量的改进项目有关的人的因素,他们的行为是非常重要的。从某种程度上说,要比具体选择什么软件要重要得多。上述5点有助于帮助组织规范数据质量管理中与人有关的流程。
提高数据质量的三个步骤
由于大多数系统和应用程序会持续不断接收到新数据,数据量也在不断增加,因此确保数据质量并不是一次就能完成的。所有企业都应该使用一种反复进行的阶段性过程来管理数据质量,此过程包括数据质量评估、规划以及策略的选择和实施。
第一步对数据质量进行评估。评估当前的数据质量状态是第一步。对数据质量进行评估能帮助企业准确地了解数据的内容、质量和结构。主管人员参与数据质量评估以及分析在数据检查过程中发现的问题对于数据质量评估来说都很重要。在最有效的数据质量评估中,所有问题都将按照对业务影响从大到小的顺序列出,这将帮助IT机构节省项目成本。
第二步,制订数据质量计划。彻底了解企业数据的内容和质量后,接下来的步骤是制订一个计划,来修改当前的错误并避免未来错误的发生。有效的计划不但可以提高企业当前所有应用程序中数据的质量,还将制定一些方式以确保新应用程序从一开始就遵循数据质量规则。
第三步,选择和实施数据质量策略。选择改善企业数据质量的策略,要求决策者权衡每个数据质量计划的成本以及该策略产生的影响。目前的策略类型有两种: 在企业输入数据时提高数据质量的方法称为“上游”方法,而从运营系统提取数据的应用程序(如数据仓库)中改善数据质量的方法是“下游”方法。
上游策略研究当前应用程序的逻辑、数据和流程,解决检查过程中发现的异常情况。此策略可能涉及到更改应用程序逻辑、添加更好的表验证、改善与数据输入相关的流程,它致力于企业数据的高准确性。另外,此策略还要求使用应用程序本身附带的数据质量功能。
下游策略解决目标应用程序或数据仓库(而非数据源)中的数据质量问题。由于数据可以根据需要随时进行修改,所以企业能够在流程(尤其是数据转换、名称和地址清洗以及查找验证)中改善数据质量。下游策略仅为目标应用程序或数据仓库改善数据质量,但与上游策略相比,它的实施过程更简单,成本更低。 ;
B. 如何提高工作中数据的准确性
提高人工数据标注的准确性可指灶以从以下几个层面入手:
一、加强标注员培训,提高标注能力。
人工智能本质上是先有“人工”,后有“智能”,数据标注行业尤其如此。目前的数据标注行业仍属于劳动密集型产业,几乎所有的数据都依赖于人去标注。因此标注员的素质高低将直接影响标注数据质量的好坏。
通过自建标注团队,并设立合理的培训机制,可以有效提高标注员的标注能力,进而提高标注结果的准确率。
二、提高管理和执行系统平台化融合能力
随着AI基础数据需求多样化,以及复杂程度的提升,以往项目经理“人管人”的管理方式和使用单一工橡逗局具应对单一需求的执行方式在质量和效率上都显得捉襟见肘。因此,拥有一套自主研发管理和执行一体化平台,能在提升人机协作效率,扩大产能,灵活可变地增加标注能力之外,准确地把控每一环节的数据安全和质量问题。
三、梁让建立全面的质检与审核机制。
质检与审核体系的建立可以有效提高整体标注的准确率。同时,通过引入AI辅助,可以大幅提高质检与审核的效率与准确率。
C. 数据质量控制的数据质量控制方法
一个战略性和系统性的方法能帮助企业正确研究企业的数据质量项目,业务部门与 IT 部门的相关人员将各自具有明确角色和责任,配备正确的技术和工具,以应对数据质量控制的挑战。
Informatica 的六步法为帮助指导数据质量控制而设计,从初始的数据探查到持续监测以及持续进行的数据优化。业务部门与 IT 部门的数据使用者 — 业务分析师、数据管理员、IT 开发人员和管理员,能够在六个步骤的每一步中协同使用 Informatica 数据质量解决方案;并在整个扩展型企业的所有数据领域和应用程序中嵌入数据质量控制。
步骤一:探查数据内容、结构和异常
第一步是探查数据以发现和评估数据的内容、结构和异常。通过探查,可以识别数据的优势和弱势,帮助企业确定项目计划。一个关键目标就是明确指出数据错误和问题,例如将会给业务流程带来威胁的不一致和冗余。
步骤二:建立数据质量度量并明确目标
Informatica的数据质量解决方案为业务人员和IT人员提供了一个共同的平台建立和完善度量标准,用户可以在数据质量记分卡中跟踪度量标准的达标情况,并通过电子邮件发送URL来与相关人员随时进行共享。
步骤三:设计和实施数据质量业务规则
明确企业的数据质量规则,即,可重复使用的业务逻辑,管理如何清洗数据和解析用于支持目标应用字段和数据。业务部门和IT部门通过使用基于角色的功能,一同设计、测试、完善和实施数据质量业务规则,以达成最好的结果。
步骤四:将数据质量规则构建到数据集成过程中
Informatica Data Quality支持普遍深入的数据质量控制,使用户可以从扩展型企业中的任何位置跨任何数量的应用程序、在一个基于服务的架构中作为一项服务来执行业务规则。数据质量服务由可集中管理、独立于应用程序并可重复使用的业务规则构成,可用来执行探查、清洗、标准化、名称与地址匹配以及监测。
步骤五:检查异常并完善规则
在执行数据质量流程后,大多数记录将会被清洗和标准化,并达到企业所设定的数据质量目标。然而,无可避免,仍会存在一些没有被清洗的劣质数据,此时则需要完善控制数据质量的业务规则。Informatica Data Quality可捕获和突显数据质量异常和异常值,以便更进一步的探查和分析。
步骤六:对照目标,监测数据质量
数据质量控制不应为一次性的“边设边忘”活动。相对目标和在整个业务应用中持续监测和管理数据质量对于保持和改进高水平的数据质量性能而言是至关重要的。Informatica Data Quality包括一个记分卡工具,而仪表板和报告选项则具备更为广泛的功能,可进行动态报告以及以更具可视化的方式呈现。 上面介绍的Informatica六步法,该方法运用Informatica数据质量解决方案,提供公司所需要的各种数据质量管理能力,并确保其所有数据均是完整的、一致的、准确的、通用的。该解决方案包括几个针对特定用途优化的组件:
Informatica Data Explorer运用基于角色的工具可促进业务部门与IT部门之间的协作,该数据探查软件发现和分析任何来源中任何类型数据的内容、结构和缺陷。
Informatica Data Quality软件执行清洗、解析、标准化和匹配流程并使得可视记分卡和仪表盘上的持续监测得以进行。与Informatica data Explorer类似,它特有基于角色的工具,业务部门和IT部门可以借此得以协同工作。
Informatica Identity Resolution软件能使各机构从60多个国家/地区以及各企业和第三方应用程序中搜寻和匹配一致数据。 Informatica数据质量解决方案为业务部门与IT部门间的协作提供基础。其基于角色的工具特色设计使得业务分析师、数据管理员、IT开发人员和管理员能够充分利用他们独特的技能体系,并在流程中与所有相关人员沟通。
Informatica Analyst:适用于业务分析师和数据管理员。通过用语义术语表述数据,该款基于浏览器的工具使分析师和数据管理员能够探查数据、创建和分析质量记分卡、管理异常记录、开发和使用规则,以及与IT部门展开协作。
Informatica Developer: 适用于IT开发人员。这个基于Eclipse的开发环境允许开发人员发现、访问、分析、探查和清晰处于任何位置的数据。开发人员可以为逻辑数据对象建模,将数据质量规则与复杂转换逻辑合并,并在逻辑制定后,进行中游探查以验证和调试逻辑。
Informatica Administrator: 适用于IT管理员。该工具为IT管理员带来集中配置和管理的能力。管理员可以监测和管理安全性、用户访问、数据服务、网格和高可用性配置。
D. 数据质量控制通常做法
数据质量控制通常做法如下:
步骤一:探查数据内容、结构和异常
第一步是探查数据以发现和评估数据的内容、结构和异常。通过探查,可以识别数据的优势和弱势,帮助企业确定项目计划。一个关键目标就是明确指出数据错误和问题,例如将会给业务流程带来威胁的不一致和冗余。
步骤二:建立数据质量度量并明确目标
Informatica的数据质量解决方案为业务人员和IT人员提供了一个共同的平台建立和完善度量标准,用户可以在数据质量记分卡中跟踪度量标准的达标情况,并通过电子邮件发送URL来与相关人员随时进行共享。
步骤三:设计和实施数据质量业务规则
明确企业的数据质量规则,即,可重复使用的业务逻辑,管理如何清洗数据和解析用于支持目标应用字段和数据。业务部门和IT部门通过使用基于角色的功能,一同设计、测试、完善和实施数据质量业务规则,以达成最好的结果。
步骤四:将数据质量规则构建到数据集成过程中
Informatica Data Quality支持普遍深入的数据质量控制,使用户可以从扩展型企业中的任何位置跨任何数量的应用程序、在一个基于服务的架构中作为一项服务来执行业务规则。
数据质量服务由可集中管理、独立于应用程序并可重复使用的业务规则构成,可用来执行探查、清洗、标准化、名称与地址匹配以及监测。
步骤五:检查异常并完善规则
在执行数据质量流程后,大多数记录将会被清洗和标准化,并达到企业所设定的数据质量目标。然而,无可避免,仍会存在一些没有被清洗的劣质数据,此时则需要完善控制数据质量的业务规则。Informatica Data Quality可捕获和突显数据质量异常和异常值,以便更进一步的探查和分析。
步骤六:对照目标,监测数据质量
数据质量控制不应为一次性的“边设边忘”活动。相对目标和在整个业务应用中持续监测和管理数据质量对于保持和改进高水平的数据质量性能而言是至关重要的。
Informatica Data Quality包括一个记分卡工具,而仪表板和报告选项则具备更为广泛的功能,可进行动态报告以及以更具可视化的方式呈现。
数据质量控制流程
第一阶段:启动
在这个阶段我们需要根据所在机构的现行组织架构和工作规范基础上,建立一套质量管控流程和规范。如建立质量管控委员会、制定质量管控管控办法等。
质量管控委员会不必是全职,可由现有组织中如信息中心相关人员兼任。数据质量管控办法,则应明确质量管控的角色、职责,建立可执行的工作流程、可量化的工作评估方法,同时也应具备绩效考核、冲突解决与管控方式等。
有了流程和规范后,相应的责任人就应明确本轮质量管控的目标。如:数据质量提升范围,或者是满足一些业务的预期。目标制定完成后我们就可以进入下一个执行阶段了。
第二阶段:执行
进入执行阶段,我们就要开始具体的质量管控工作,整个工作应该围绕启动阶段制定的目标进行。这时我们应该适当引入一些质量管控工具来帮助我们更高效地完成我们的工作。
第三阶段:检查
检查阶段,主要是对执行阶段的成果进行检查并分析原因。
第四阶段:处理(本环节一般包括以下2个方面):
1、监控数据质量,控制管理程序和绩效
根据既定的操作程序,对质量管控过程中各个环节参与者进行绩效评估。还可以根据不同时期的重点的制定不同的评分标准,有针对性地进行评价和管控,如整改初期数据缺失严重,则可对完整性规则权重调大,以期更快看到成效或者达到更好的效果。
2、建立质量控制意识与文化
在这里沟通与推广是重点,要让所有参与者了解数据质量问题和其实质影响,宣贯系统化的数据质量管控方法,同时挖掘对各个环节参与者的价值,尤其是业务方,传达一种“数据质量问题不能只靠技术手段解决”的意识。最终形成一种数据质量的管理的文化。