什么是数据调研?
「数据调研」是大数据生命周期管理的初始环节,是正式进行数据处理前的准备工作,是对项目各业务领域、业务线的异同点,以及各个业务线业务模块划分和具体业务流程的环境等工作的了解过程。调研工作是否充分,将会直接决定大数据项目的建设是否成功。
自2015年起,德拓信息正式进入数据处理分析领域,通过多年的项目实战,不仅培养出一批有能力、有想法的项目团队,同时,经过不断地积淀总结,整理出一套针对数据调研的方法论。
德拓信息在做数据类项目时,会非常重视前期的调研工作,项目经理会在调研的过程中,充分了解业务知识和数据情况,为后续的数据采集、数据质量管理、数据建模做好铺垫。
鉴于项目中所涉及业务系统的不确定性,多源多类的数据归集方式往往对项目进度有着或多或少的影响,所以前期的数据调研尤为重要。
以公安行业的数据中心项目为例,整体调研采用「由大到小,自上而下」的思路,首先确认项目相关部门及每个部门的主要业务内容,同时确认该部门的工作权责,在该部门行使这些权责的过程中,分别使用到了哪些系统,会产生什么数据,系统使用哪些数据表进程,该业务数据的存储及字段标识。
经过众多项目的实践,德拓信息数据调研方法论将数据调研工作划分为以下具体工作步骤:
ONE. 业 务 调 研
业务部门调研工作的主要目的是获取数据来源单位、所属应用系统、业务含义描述、安全性要求、部门权责、业务过程描述、工作流程、对应的系统及功能模块、服务对象等内容。
以某市公安局人口办公室为例,涉及应用系统包括实有人口系统、常住人口系统、死亡人口系统。
职责权责为指导并监督全市户籍人口和流动人口管理、出租房屋治安管理以及居民身份证管理。
协同工作为协助做好社区矫正、预防青少年违法犯罪、妇女儿童权益保障等工作。
TWO. 系 统 调 研
系统调研工作在掌握部门以及部门业务后进行,主要针对每个部门使用业务过程中产生的数据,关注点在于办理业务过程中,通过哪些系统进行操作的。
其调研主要分为以下几点:
THREE. 数 据 表 调 研
数据表与业务内容息息相关,是调研工作的重点内容之一,数据表之间的关系是业务流程的数据体现,每次数据表的调研都是项目组内多人协作的成果。
数据表调研通过多种方式对数据集的数据规模进行调查,通过现场调研、接口等方式获取探查数据的数据总量、增量、更新频度等情况。
调研结果通常包括:数据集名称、数据总量(条数)、数据总存储量、平均增量(条数)、平均存储量、 存储周期、更新周期、更新日期等信息。
数据表调查后会进行数据深度调研核查,核查字段中不合理的信息,为后续数据清洗规则的制定提供依据。
核查问题分类一般包括代码字典表问题、数据类型问题、数据值逻辑问题、归一化原则问题、数据格式问题、必填项为空等。对每次探查结果记录并形成报告。
FOUR. 数 据 字 段 调 研
字段调研核心分为如下几个主要内容:数据元调研、类型调研、格式调研及字段空值率调研等。
工作主要包括如下内容:
数据调研的整体工作通过以上的业务、系统、表、字段四个调研过程,基本可以掌握项目中所有涉及部门的数据情况,对业务和数据整体情况有一个较为全面的了解。
对一项浩大数据工程而言,摸清数据家底是规划与建设的首要之务,因此数据调研工作是整个大数据生命周期中不可或缺的前提与关键。细致而全面的数据调研,将会为后续的系统对接、数据采集、数据质量管理、数据建模奠定基础、提供保障。