大数据系统测试项目案例——县级政务大数据平台(下)

通过上篇文章的项目介绍以及需求分析,我们知道了,需要测试内容覆盖了平台质量测试、数据质量测试和应用质量测试。本文就详细为大家展开介绍。


针对平台测试,我们结合了基准测试标准对平台进行平台架构性能基准测试。另一方面针对平台的组件,像ApacheRanger等安全组件的使用和配置。同时通过基础功能测试、故障模拟去验证平台的基础功能和可靠性。


在数据测试方面,可以结合一些开源的工具,像ApacheGriffin进行数据质量验证。国内也有很多关于数据质量测试的商业化的工具,可以进行数据的检查。


另一方面是应用测试,通过人工测试去进行应用功能性、易用性的测试,特别是一些业务逻辑性比较强的功能。通过性能测试工具、性能监控工具去测试性能。通过漏扫工具、网络协议分析工具等安全工具去测试应用的安全性。


在平台方面主要发现的问题有:平台架构、数据采集质量和效率、平台安全这三方面的问题。


首先通过测试发现整个平台架构无法满足数据处理的性能,它虽然应用了像hadoop、HBase等这些大数据的基本架构,但它有很多数据处理都放在了关系型数据库里面。虽然在系统建成的早期,在数据量比较小的情况下,是能满足当前业务要求的。数据量还没有达到那么大,导入的数据是有限的。但是长期来讲,不使用大数据的标准架构,当数据增长到一定量级之后,就会出现整体的性能问题。所以说平台架构是无法满足数据处理的性能的。


第二点,数据采集质量和效率也出现了很多问题。它的数据采集有很多是通过离线的文件进行采集的,数据的实时性没法保证,具有很强的延时性,而且效率是非常低的。这也是受困于县级的政务系统,很多数据没法进行数据源或数据库的直接接入,所以说建议它使用接口或爬虫的方式进行数据采集,提高采集效率。


第三点是有关于平台的安全性。数据的采集传输过程中有很多数据是没有加密的,一些敏感数据的存储也是没有加密,是可以看到明文数据的。这时候就需要进行相应的加密的处理。


在数据层面,首先是数据的完整性的问题,数据记录采集是不完整或冗余的。这时候就需要相应的采集验证功能的增强。


另一方面是数据的实效性,有很多数据的传输延时是比较长的,这时候就需要进行数据压缩的传输,减少传输的容量,提升传输效率。


第三块是数据的准确性,在存储的时候有一些数据的采集出现了数据重复,在存储的时候也没有进行一些相应的验证,导致存储的一些数据是重复的。这就需要数据清洗和预处理功能的增强。


数据应用层面的问题,包括数据统计错误,相应的统计结果是错误的。比如像一些工业规模数据的统计,统计的一些数据不光是自己这条线的,把其他线的数据也采集进来了,也进行一些相应的分析了,也就是说数据源的控制是有问题的,相应的统计算法也是有一定问题的,需要进行相应的程序的优化修改。


再一个就是查询时间长,主要表现在点击查询相应的时间是非常慢的,可能需要好几分钟才能出一个统计分析的结果。这时候就需要进行SQL语句优化,特别是一些关系型的数据的处理。


第三块是日志审计不完整,部分关键操作是缺少日志记录的,一些数据处理如果缺少相应的日志记录,就有可能造成对数据的一些安全性的动作形成之后,系统没有去记录,那么就无法去追溯谁操作了数据,操作了哪些数据,需要完善关键操作日志记录审计功能。