本文我们一起来看一下大数据系统的测试内容。还是分成三个层次,从平台、数据和应用这三个方面。
平台质量主要关注的是平台的功能性、安全性、性能效率、可靠性等。这个特别针对的是数据收集层和数据存储层,还有一些基础的数据预处理、计算引擎这方面相应的质量。
数据质量它关注的更多是数据的内容,数据内容的真实性、完整性、一致性、准确性、安全性、时效性、可用性、价值性、分析结果的易理解性。
应用质量更多针对的是数据的分析层,数据的可视化层,主要关注功能性、可靠性、安全性、性能效率等。
首先我们一起看一下大数据系统平台的质量测试内容。
这一块可以分为四个层次,首先是关于基础功能,包括数据采集和传输、数据存储和管理、数据计算、数据查询和分析、数据可视化等等,这些不同的平台基础功能。不同的平台的实现方式不同,所以测试的内容也会有相应的调整,最核心的是它前三部分的内容。
第二部分是平台基准性能,刚才也讲过了,有很多的平台基准性能的测试标准,特别是TPC委员会的标准,典型的TPCx-BB,还有很多像HiBench、AMPBenchmark、SparkBench、BigDataBench等基准性能标准,可以结合平台的具体的性能需求去使用相对应的性能标准,因为每一个基准性能标准使用的场景和测试方法都是有一些差别的。
第三块是平台安全,包括基础安全,像网络、主机等的安全;平台数据的安全,包括数据的加密、数据的存储、数据的传输等方面的安全性。
最后是平台可靠性,要保证平台是高可用的,包括各类故障的容错性,是有相应的可靠性保证的。
然后我们一起看下大数据系统应用或者大数据算法模型的测试内容,主要包括GB/T25000.51的8个质量特性方面进行测试。
接下来是大数据系统数据质量测试内容,刚才也讲过了,有好几个应用数据质量的标准,也有行业的对数据质量的要求。
《GB/T 36344-2018 信息技术 数据质量评价指标》 中,提出了以下这几个方面需要关注的测试内容。