项目概述
通过本次大数据系统平台和系列业务应用系统项目建设,进一步实现打破数据孤岛壁垒,结合网络化运营管理和决策分析需要,对全路网的基础信息、行车、主要设备、客流、清分清算、票卡、运营维护等数据进行收集、存储,同时根据业务需求构建一套完整的业务指标体系,分析、挖掘数据潜在价值,并将数据分专题地展现到路网结构中,支持指挥中心和运营企业提高网络化运营管理水平、提高乘客服务水平,对网络化运营中突发事件提供应急辅助决策支持、对政府科学决策提供基础信息支持。
引入基于 Hadoop 的存储计算和数据挖掘体系,替代现有 Teradata 的存储方式,更便于集约化管理,节省未来硬件资源投入,又能提高其业务价值的目标,支撑未来不断增长的综合分析及数据挖掘的需求。
建设内容
系统扩容升级
完成数据中心系统扩容升级工作,搭建开放式大数据平台(Hadoop)。
数据采集治理
对未来新建线路基础信息、行车、设备、票卡、运营维护等数据进行采集、治理、存储等。
数据体系搭建
根据业务需求构建一套完整的业务指标体系,完成项目建设迁入数据标准化、新线接入数据标准化等。
数据业务迁移
对 TD 数仓内既有的数据、数据加工的作业脚本、以及基于 TD数仓建设的既有的业务系统迁移至Hadoop 平台。
数据分析挖据
基于业务指标体系,满足基于历史数据进行的数据挖掘,提供机器学习类库,支撑预测预警、智慧计算等业务,实现辅助决策。
业务系统建设
完成数据中心系统应用软件升级优化工作,实现车站档案、运营日系统等业务,并对 TCC、ACC 业务提供数据服务支撑。
客户价值
体系构建
经过深入的业务分析,将海量数据转换成可量化的指标,构建了一套完整的业务指标体系。
极简可视
专题可视化分析模块为业务人员提供了可视化的分析工具,系统将数据分专题地展现到路网结构中,极大地降低了传统模式下分析专题时业务人员手工组织数据的复杂度,支持业务人员快速、准确地分析数据,发现问题,寻找规律。
高效实时
SQL+ 流数据处理,使数据在产生的过程中,不断加工、汇总,不断产生价值信息,有效支持了实时数据的计算场景。
机器学习
系统利用数据挖掘和机器学习算法,结合行业模型,自动挖掘数据特征,在数据利用上从“统计型报表”向行业性“模型化特征挖掘”拓展。
成本节约
基于 hadoop 生态的大数据技术,可以大大降低单位数据存储成本与计算成本,从而为全量数据在线,海量数据加工计算提供了先决条件。