• 业务咨询、市场合作:61619362
  • 公司邮箱:support@datatom.com
联系我们  | English

郑治国:政务数据质量管理及其面临的挑战

作者:郑治国     来源:站内原创     2020/10/28 09:36:37    

众所周知,21世纪是信息化的时代,当前,以数字化、网络化、智能化为特征的现代信息技术飞速发展,推动了数字经济的蓬勃兴起和网络社会的崛起,显著改变着人们的生产和生活方式。

 

建设数字政府是政府对信息时代到来的变革回应围绕国家大数据战略,国家和省市地方政府陆续出台了诸多大数据相关政策,特别是对大数据产业发展进行了规划,为推动产业快速成长提供了依据,奠定了基础。

 

2016年,工信部在分析总结我国大数据产业发展现状及面临的形势的基础上,出台了《大数据产业发展规划(2016~2020年)》,明确我国大数据产业2016~2020年的发展目标。该规划围绕大数据技术产品、大数据行业应用能力、大数据产业生态、大数据产业支撑体系、大数据保障体系五个方面提出七项重点任务和八个重大工程,为我国大数据产业未来5年的发展明确了目标和任务。

2017年,党的十九大提出要加快建设网络强国,数字中国和智慧中国。加强政府信息公开,数据开放和数据基础设施建设,既是推进“数字中国”建设的重要内容,也是促进国家治理能力现代化的必由之路。作为数字中国的重要组成, 数字政府是打造数字政府治理体系的关键。
 


2020年4月9日,中共中央、国务院印发了《关于构建更加完善的要素市场化配置体制机制的意见》,将“推进政府数据开放共享”列为加快培育数据要素市场的三大要点之首。

2019年,新华社中国软件评测中心评估结果显示,中国数字政府建设任务目前进入全面提升阶段,在创新政府治理和服务模式、提升行政管理和服务效率、提高政府公信力和执行力等方面发挥的作用越来越明显。该评估显示,截至2019年11月我国已有10个省级地方政府出台并公开数字政府规划计划;全国政府网站数量集约至2019年12月初的1.45万家;多地统筹建成全省政务服务App;交通部、生态环境部、广东、山东等部门、地方推进政府数据向社会开放,促进治理能力提升。

数字化时代的到来推动了数字经济的蓬勃兴起和网络社会的崛起,显著改变着人们的生产和生活方式。但随着数据规模以指数级增长速度迅速增大,数据的质量早已经成为了必须认真面对与处理的问题


数据质量的概念及包含的要素
数据质量问题自从有数据的那一天开始就是摆在数据使用者面前的问题。

在不同时期,数据质量有不同的概念和标准。从二十世纪五十年代开始,人们普遍认为质量仅单纯是指产品或服务的使用性能。但是随着人们质量观念的变化, 质量还包括产品或服务满足用户需求的程度, 它是一个包含丰富内涵、具有多维因素的综合性概念。而现在被人们普遍接受的数据质量的定义是“使用的适合性”

 


数据质量所包含的要素可以归纳为以下六个方面:
 

01.准确性:准确性是指数据源中实际数据值与假定正确数据值的一致程度。数据的准确性有时难以检査,在一些情况下可以通过检查其他字段的值或使用外部数据判断数据值是否准确,或者采用预先定义好的业务规则进行检验。
02.适时性:在所要求的或指定的时间提供一个或多个数据项的程度。
03.完整性:完整性是指数据源中需要数值的字段无值缺失的程度,在广度和深度上都是充分的。
04. 一致性:一致性是指数据在表述上遵循同一格式。
05.唯一性:唯一性是指数据源中记录以及编码是否唯一。
06. 有效性:维护的数据足够严格,以满足分类准则的接受要求。需要通过对数据的关联进行分析或在实践中进行检验。
 

20世纪80年代以前,国际上对数据质量的标准基本上是以提高数据准确性为出发点。但是随着人们质量观念的变化,对数据质量衡量标准的概念认识也从狭义向广义转变, 要求从数据提供者、生产者和用户等多个角度来衡量数据质量。准确性已不再是衡量统计数据质量的唯一标准。数据质量的高低必须从用户使用的角度来看,即使准确性相当高的数据,如果时效性差,或者不为用户关心,仍达不到质量的标准

提高数据质量的策略
现代数据质量概念主要包括以下几个方面:
 

一是注重从用户角度来衡量数据质量,强调用户对数据的满意程度。
二是数据质量是一个综合性概念,需要建立一套有效的数据质量管理体系,应从多角度来评价数据的好坏。
三是适用性、准确性、适时性、完整性、一致性和可比性构成了数据质量的基本要素。


至于如何处理数据质量问题,具体实践中需要不同问题具体分析。但是总体上看还是有研究指导思路可循的。

1. 从数据的整个生命周期来看,提高数据质量的策略主要从以下两个角度考虑:
 

一类是从预防的角度,即在数据生命周期的任何一个阶段,都有严格的数据规划和约束来防止脏数据产生。
另一类是事后诊断,即由于数据的演化或集成,会有脏数据逐渐涌现,须采取特定的算法检测出现的脏数据。


2. 从数据质量问题解决依赖的知识来看,数据质量的提高策略可以也分成两类:

一类提高策略不依赖特定业务规则,是应用独立的,如数据拼写错误、数据分布异常、某些缺失值处理等,这类问题的解决不依赖于特定的业务规则,可以从数据本身中寻找特征来解决。
另一类解决方法与特定业务规则相关,是应用依赖的,这些相关的领域知识是消除数据逻辑错误的必需条件。


政务数据质量管理的重要性
数据质量管理是数据科学中的关键问题之一,数据质量直接影响数据的可用性与可信度。如果缺乏优质的数据,基于数据的分析和结论往往都站不住脚。而对于政务数据,数据质量尤为重要,不仅关系到数据的可用性和可信性,还涉及到数据的机密性和隐私性


政务数据,直白地说,就是政府在运转中所产生的数据。数字化时代的到来已无需怀疑,而建设数字政府是政府对信息时代到来的变革回应。围绕国家大数据战略,国家和省市地方政府陆续出台了诸多大数据相关政策,为推动产业快速成长提供了依据、奠定了基础。

现阶段我国数字政府平台的建设取得了较大的进展,以“云上贵州”为例,作为我国第一个以政府数据为核心的省级政务数据平台,“云上贵州”政务数据平台打通了扶贫、教育、公安等21个国家部委和省市数据, 横向连接65个省直部门, 纵向部署了9个市州和一个国家级新区, 形成了一体化的贵州政府数据共享交换体系, 累计交换量达到1亿条以上, 系统平台的数据存储总容量达3000TB。

随着数据资源在提升生产效率、政府管理能力以及服务社会民生等领域发挥的作用越来越大,数据资源的丰富程度以及质量的优劣,已成为衡量一个地区数字化竞争力的重要标志

 


政务数据质量管理面临的问题
我国数字政府的建设如火如荼,并取得了很多的理想的阶段性成果。虽然政务数据不断增加,政务系统的日趋完备还需要有效的数据质量管理,政务数据的质量问题尤为关键也极具挑战性,因为在处理政务数据的数据质量的同时,不仅需要研究数据的可用性和可信性,还需要考虑数据的机密性和隐私性。


信息孤岛”问题是当前我国政务数据管理面临的最大难题。

过去,大数据在政务领域的应用主要聚焦于单一区域、单一部门,数据作为业务处理的信息载体,其生命周期伴随业务的结束而完结,因此,对数据质量的要求主要在于是否能够满足当时记录业务内容的需求。

而随着数据孤岛的逐渐打破,人们对政务信息化的期待逐渐向跨层级、跨系统、跨部门、跨业务的协同管理与服务需求转变,数据共享的需求越来越紧迫。而在数据融合的过程中,数据质量的问题被进一步放大,甚至能够影响整个政务行政管理和服务效能,因此在整个系统中数据质量问题需要着重考虑。

从根本上来说,“信息孤岛”与我国“十五”期间各地电子政务迅速发展,但缺乏“顶层设计”不无关系。正因为没有形成系统化的设计思路,我国的政务数据系统在技术、数据、接口三方面均没有实现统筹规划,造成政务数据难以融合。

除此以外,日常处理政务数据的相关工作人员不一定具有足够的专业知识,在政务数据的创建、传输、保存和维护等诸多环节都可能产生劣质数据和冗余数据,因此配套政务数据的成熟的数据质量管理系统就显得十分必要。

政务数据质量管理已取得的成果

政务数据的质量问题非常关键,影响政务数据质量问题的因素也多种多样,因此需要对不同的原因提出相应的政务数据清洗、管理措施,这也是留给研究人员的重大机遇与挑战。
 


解决数据质量问题的前提条件是定义和统一数据标准。目前我国还没有建立统一完善的数据标准。贵州省于2016年即率先颁布了政府数据分类、资源目录和脱敏的地方标准。但这些标准目前并不能涵盖庞杂的政务数据,而“数据孤岛”的客观存在使得标准制定面临各种困难以及不确定因素。

针对该问题,学术界也在积极参与和配合研究。林淼指出,政府开放元数据管理的主要问题在于尚无统一的开放元数据标准,应制定广泛适用的元数据标准。司莉等分析了美国Data.gov平台的数据标准。黄如花探讨了政务数据开放标准体系的构建方案,包含6大模块,其中就包含了数据管理和评估模块,但只提出了体系框架,系统各模块的实现细节有待进一步研究。

目前针对常规数据的质量管理技术比较成熟,例如现有的开源工具DataCleaner,能够对数据质量进行分析、比较、验证和监督;再例如美团企业的DataMan质量监管平台,该系统以数据质量检核管理PDCA方法论为框架,基于美团大数据平台,对数据质量需求和问题进行全质量生命周期的管理。

虽然针对常规数据的技术较为成熟,但具体应用到政务数据中,需要同时兼顾政务数据的异构性、复杂性、安全性、保密性、部门业务多样性等一系列特征,因此政务数据管理体系尚未能够统筹规划,在管理数据质量的同时如何处理好各种特征依然是有待解决的难题

虽然挑战重重,但是政务数据的质量管理问题已经得到政府相关部门的重视。

2016年国务院就发布《政务信息资源共享管理暂行方法》,该文件明确了政务信息资源的定义和分类,提出了“以共享为原则,不共享为例外”等原则,界定了信息共享的范围和责任,明晰了信息共享的权利和义务。例如将政务信息资源按照分享类型分为无条件共享、有条件共享和不予共享三种类型;再如要求共享平台应分别按照涉密信息系统分级保护要求和国家安全相关制度和要求进行国家电子政务内网和外网建设和管理;以及信息共享工作的监督和保障等一系列规定。

2018年,国务院又发布了《科学数据管理方法》,该文件划定了各部门在科学数据管理中的主要职责,并分别从数据采集、汇交和保存,数据共享和利用,数据保密和安全等三方面具体规定了科学管理数据的方法和原则。该文件首次站在国家高度、面向多领域科学数据,提出以开放为主的指导原则,具有划时代的意义。

2020年4月9日,党中央、国务院公布了《关于构建更加完善的要素市场化配置体制机制的意见》(下称《意见》)。该文件的最大亮点在于首次将数据列为一种新型生产要素写入政策文件。《意见》明确要求加快培养培育数据要素市场:推进政府数据开放共享、提升社会数据资源价值、加强数据资源整合和安全保护。

各地地方政府根据本地情况设置了大数据管理局、政务数据管理局等部门或机构。例如北京的大数据管理局、广东的政务服务数据管理局、陕西的政务数据服务局和大数据管理与服务中心等。除此以外,截止2019年12月,已有28个省(自治区、直辖市)制定了数据资源管理相关制度文件,其中,北京、上海、贵州等10个地区专门针对政务数据制订了综合管理办法。

政务数据的管理不仅与政府管理紧密相连,也与我们每一个公民息息相关。政务数据质量管理异常重要,也充满挑战,需要每一个研究人员共同研究,攻破难题。