大数据系统的测试方法

针对大数据平台的基准测试,举一个TPC标准中的TPCx-BB数据模型测试的例子。TPCx-BB模拟零售商30个应用场景,执行30个查询,包括部分机器学习算法(聚类、线性回归)。在这个测试模型里面,配备了比较完整的测试工具集,包括测试数据生成的工具集。

性能测试loadrunner

它的核心是以下五大部分:包括bin的执行脚本,conf进行测试配置,Data-generator进行数据表的处理。engines部分是针对不同数据的处理模型:Biginsights(IBM)、hive(批处理)、impala(实时处理)、spark_sql(流处理),Tools是响应的测试工具包。


性能测试loadrunner

(TPCx-BB测试工具)


数据安全测试
数据安全测试中有数据安全能力成熟度模型这样的标准,在数据安全性方面覆盖了不同的数据处理过程。


性能测试loadrunner

(数据安全能力成熟度模型)

 

数据采集安全,它关注的是数据的分类分级、采集获取、清晰转化等相应的安全性。
再就是数据传输的安全,数据的传输是不是采用了加密的处理,整个传输加密协议是不是合适。
在存储安全环节,包括存储架构、逻辑存储、访问控制、数据副本等方面的安全。
数据处理安全包括分布式处理安全、数据分析安全、数据脱敏的处理等。
数据交换安全包括数据导入导出的安全、数据共享安全、数据发布安全、交换监控等等。
数据销毁安全包括介质的使用管理,因为数据的生命周期中,有一些数据在完成使用之后要进行销毁,超过使用周期的过期数据要进行相应介质的销毁或者数据的销毁,介质的管理是不是安全。

 

数据质量测试
与数据安全测试一样,数据质量的测试也是覆盖数据整个生命周期的。包括数据采集的准确性、完整性、时效性、安全性。数据预处理的一致性、准确性、真实性、可用性、完整性、安全性和价值性。数据分析结果的可用性、价值性和准确性。大数据可视化的易于理解性,数据应用的价值性。
这些都是我们要覆盖数据的整个生命周期进行测试的每一个测试点。


性能测试loadrunner