大数据系统测试项目案例——水务大数据系统(下)

上篇文章里我们为大家介绍了水务大数据系统测试的项目背景以及针对数据质量方面、规范性方面和完整性方面如何进行测试做了介绍,本文我们继续为大家介绍剩下的的部分。

 

在数据的准确性方面。包括整个数据内容的正确性、格式合规性。数据重复率,数据的重复率越低越好,如果有数据的重复采集,应该经过数据清洗或数据预处理进行相应的去重。再就是数据唯一性,对于一些有唯一性要求的数据,要保证数据在系统中是唯一的。再就是脏数据出现率(过期、错误)要越低越好。


数据的一致性方面,数据的一致性首先是相同数据一致性,也就是数据源的数据和大数据系统的数据是完全一致的(HBase与国产数据库的一致性)。另一方面是关联数据一致性(用户数据关联删除),比如说针对一个用户数据,把用户删除之后,这个用户下的相应的其他表的关联数据都要相应的删除。


时效性,基于时间段的正确性(时间段内数据连续正确),比如说采集某个数据时,1分钟可以采集1000条,在1分钟里要保证这1000条数据都能连续地正常采集上来。再就是基于时间点的及时性(时间戳、数据处理频率正确性)。


可访问性。在需求所要求的数据访问的时间点和时间段内不同的数据访问方式(数据库直接访问的方式、数据接口访问方式)都是可访问的。再就是数据的可用性,在数据有效期内必须保证数据是可用的,超过数据的有效期,应该进行相应的销毁或者后续的相关处理工作。


数据的保密性,针对HBase的存储数据是不是使用了一些TDE这种插件去保证数据的加密存储,传输的加密是不是经过了像TLS这样的传输加密协议。再就是脆弱性,一些框架或者数据库的的安全漏洞是不是都进行了相应的处理。,不存在高危漏洞。


最后是数据的效率方面。高效的数据格式、数据格式效率(数据类型效率)。数据处理能用整型就不用一些更复杂的浮点型,更复杂的数据类型会造成数据处理效率的降低。


数据使用效率、数据处理效率、数据更新延迟(响应时间)。针对数据使用效率、数据处理效率,可以通过一些性能测试工具去验证响应时间。数据更新的延迟有的可以通过一些基准测试、通过一些日志去监控更新处理的响应时间。


浪费空间风险、重复记录控件。


这个案例也是存在数据的完整性、实效性和准确性的问题。


数据的完整性方面,主要表现在数据采集不完整或不符合标准,有一些数据采集上来出现了一些空值。或者行业标准里面规定了某一项数据应该是要保持小数点后面几位精度的,它的数据采集的精度和标准要求是不符合的。这时候就需要采集验证增强程序的修改,去保证数据的完整性。


数据时效性主要表现在数据传输延时长,有些数据要求必须达到每分钟处理1000条的处理效率,有时候数据有延迟,在某些时间段内没有在1分钟内把这些数据采集上来,出现一定的延迟,这是数据传输的性能问题。再就是数据存储的重复,也是需要数据清洗功能的增强。


以上就是为大家介绍的水务大数据系统测试案例的所有内容。欢迎继续关注道普云测试平台官方网站,获取更多软件测试前沿知识。