• 业务咨询、市场合作:61619362
  • 公司邮箱:support@datatom.com
联系我们  | English

朱峻涛:集中型数据应用系统的分布式改造技术

作者:德小拓     来源:站内原创     2020/07/29 09:51:44    

随着传统核心应用系统业务规模和系统运行时间的增长,传统集中式架构应用呈现出越来越多的问题,例如单位成本高、并发数受限、无法弹性部署、业务模块间可用性耦合等, 而且无论是应用程序变更还是数据库临时故障,该时间窗口内整套系统均无法对外提供有效服务,系统可用性已受到较大影响。

 

因此,对大规模集中式应用系统进行分布式改造,将其转变为性价比和吞吐量高、跨平台性好、可自动化弹性伸缩且便于快速响应的分布式系统,提高负载能力和可用性势在必行。


01 传统的核心应用系统
传统的核心应用系统大都采用“大机 + 商业数据库”的方式,经过多年的建设,目前的总体情况如下:

 

一是在信息化助力业务过程中积累了大量数据资源。从数据类型来看,大量的非结构化数据存储在数据库中,占据了存储容量的90%以上,由此在数据写入过程,对数据读取占用的资源造成了严重的影响,特别是做数据统计分析的过程中,会引起服务器压力过大,程序响应慢等,从而造成业务窗口压力过大。

二是业务信息的快速增长为数据管理和服务带来巨大挑战。随着业务的不断深化,数据内容庞杂、存储分散、访问效率低下、结构不统一等问题限制了科技管理部门对业务数据的管理和维护,传统技术架构下的设备资源存在升级成本高、可扩展性差,导致海量数据的存储、备份、扩容瓶颈和日志信息不易于管理,已成为目前较为严峻和亟待解决的问题。

三是管理业务发展向数据的科学利用提出更高要求。伴随城镇化发展,基础设施(设备)已进入了大规模建设时期。同时,社会转型的压力迫使管理部门需要在工作机制、管理方式、服务群众思路等方面进行创新和改革,除实现业务办理点等OLTP类应用外,通过先进的技术手段,实现大量数据统计分析等OLAP类的应用服务。通过对不同应用场景下的业务进行分割处理,提高平台的服务能力,成为了传统应用平台迫切需要面对的问题之一。

传统的关系型数据库主要是通过传统的数据组织形式、模型、查询语言及分析技术,聚焦于事务性结构化数据处理。随着业务的快速发展,数据积累和快速增长已超出关系型数据库的管理范畴,影响了应用平台的运行。鉴于上述问题,迫切需要一个具有较强管理能力、高效快速的分布式数据管理平台,全面实现业务与管理数据的整合,解决应用平台压力大的难题。

随着互联网的快速发展,基于互联网基因的分布式存储、分布式计算和分布式服务架构的技术体系逐渐成熟,其形成的高性能、高可靠、高可用和低成本可扩展的特性,给传统的核心应用系统改造提供了新的技术改革思路。

02 分布式管理应用平台目标及要求
提供大数据分布式管理应用平台,主要采用「分布式技术体系」来存储数据,以实现数据汇集、数据存储、数据管理、运行管理和数据服务等功能,与应用平台的无缝对接。

基于当前流行的分布式数据库,首先需要能跟原有的应用平台完全兼容,同时具备先进技术和较强的管理能力,能够高效快速的实现综合应用平台的分布式存储和计算,根据不同的数据内容和特点分门别类存储结构化数据、非结构化数据及日志数据;全面整合各业务与管理数据;管理业务日志等实时数据,并进行统计分析,提高数据处理效率和精准性,优化业务管理水平;保证数据的安全性、系统的稳定性和高可用性。

03 分布式改造技术实施思路及效果

//释放存储、业务减压
采用分布式数据库,把占90%的非结构化图片数据和日志数据与业务数据分开存储,释放OLTP数据库的存储压力,给业务系统减压。通过数据分布式改造,完成包括非结构化数据进入了分布式数据库数据库,日志和业务数据进入了分布式数据库、全文索引数据库和MPP大规模并行处理数据库。

//读写分离、高性能计算提升效率

图片数据文件数量大,需要占用系统大量的资源;
日志数据量大,需要频繁读写;
业务数据是核心数据,量也大,经常要进行查询和统计操作。

通过分布式计算技术,把三者分开存储,利用服务器集群克服传统数据库资源供应的不足,整体提升系统效率。

经过改造后的分布式数据管理平台,每天处理新增的图片数据,通过RPC接口实时写入分布式数据库,及每天新增的几百万条日志数据;通过REST接口实时写入分布式数据库和全文索引数据库,及访问分布式数据库中的图片和日志数据。

业务数据先保存到数据库中,通过定时任务程序及REST接口,定点导入到分布式数据库和全文索引数据库中。本次数据分布式改造后,在各类数据处理的时候,可根据业务场景的不同要求,通过不同的方式实现读写分离,并且通过分布式计算,极大的提高了整体计算效率。

//OLAP/OLTP分离,实现秒级统计查询
将图片和日志数据通过大量的事务性处理(OLTP)以及业务数据分析型事务(OLAP)的分开处理,能够解决以前传统数据库查询统计报表慢,效率极低的问题。以前采用传统数据库,某业务统计往往需要1、2天才能出报表,现在最多1到2分钟就能给出统计报表,查询统计效率有了极大的提升。

//业务模式创新
云搜索:模糊查询,可以实现多字段检索,全文检索(原来传统数据库再降低性能也达不到全文检索)。

改造后的分布式平台,通过全文索引数据库,提供姓名中文分词技术,可以通过查姓名等等模糊信息,平台从多张业务相关表中抽取相关信息进行展现,实现秒级查询,速度极快。

集中监控中心:统一的界面,具有更便捷的监控服务器集群的性能,监控业务数据的处理情况,含有告警机制。

分布式平台系统的服务器多,采用的相关组件和技术也多,为方便技术工程师进行运维管理,分布式平台提供了友好的图形化界面展示,便于及时了解各个节点服务器的硬盘、CPU、内存、网络、各组件等等运行情况。

//线性存储容量扩展,性价比高,可扩展性更好
分布式存储通过利用性能较低的经济型服务器集群技术来达到跟以往一样的业务要求。资金投入少,性价比非常高,而且可以通过增加服务器的方式进行存储容量扩充,可扩展性更强。

04 总结与展望
分布式改造工作顺应了信息技术发展的方向,依据目前业务应用的需求,结合从互联网领域发展起来的分布式技术,对传统应用系统进行升级改造工作,这不仅兼容了之前的开发成果,满足了业务平滑升级的要求,同时可根据客观的环境,提出高性价比的解决方案。

这种技术架构对传统应用系统与分布式技术结合发展,具有参考的价值。目前我们正在按照这个技术路线,开展系统升级研究工作,以期更好地提供服务。