本文我们给大家讲一下大数据整体测试的依据,大体上可以分为三个方面:大数据系统平台测试标准、大数据系统数据测试标准、大数据系统应用测试标准。
首先大数据系统平台测试标准它所关注的是整个大数据平台的一些基础软件,就像我们刚才讲到的HBase、NoSQL的数据库、spark这种典型的处理引擎等等。再就是通讯协议、接口,第四个是信息安全,这是平台测试的相关标准。
第二个方面是大数据系统的数据测试标准,作为大数据系统,数据是它非常核心的一个部分,也是整个大数据系统的基础。因为数据的体量越来越大、类型越来越复复杂,采集的过程也是越来越复杂,所以说数据质量面临着很严峻的挑战。数据质量的标准包括数据质量模型的标准、数据质量评价指标的标准和行业数据规范等。越来越多的行业都已经在制定相应的行业标准。需要保证数据的标准统一,才可以实现整个行业的联通。
第三个方面是大数据系统应用测试标准,大数据系统应用测试与大多数信息系统的应用测试标准是相类似的。大数据系统用的模型也是很多通用的模型,只不过它的场景与一般的信息系统是有差别的。
大数据系统平台测试标准
首先我们一起来看一下平台方面的标准,首先是国家标准,可以分成基础软件标准,比如像前面提到的基础软件的标准,关系数据库管理系统检测规范、数据管理系统化技术要求等这些偏基础性的软件相关的标准。
还有像通信方面,比如说网络安全层协议,还有一些加密协议相关的测试规范。再就是一些接口类的规范,比如说非结构化数据访问接口的规范,再比如像去年刚出的大数据接口基本要求等。再就是关于信息安全方面相关的规范,比如说像个人信息的相关安全规范,还有数据库管理系统的安全技术要求、安全评估准则这样的规范。
在去年(2020年)关于大数据系统也新发布了一些标准,比如说数据处理系统的功能测试要求、分析系统的测试要求、计算系统通用要求等等。
然后是国际标准,有些国际标准在国内没有形成等同采用的国家标准。下面是一些典型的标准,像隐私保护相关的标准,还有像SQL远程数据库访问的标准,还有很多的安全层面的标准。
接下来是基准测试标准,基准测试标准有非常多,比如一些学术机构,像加州大学伯克利分校这种,他们都提出了相应的标准。在工业界,也有非常多的相关标准。一般来讲,我们会把专业性的委员会的标准作为基准测试比较权威性的标准。
传统的数据库的TPC的标准有很多关于数据处理能力的标准。针对大数据,TPC委员会也形成了相关的标准,比如说TPCx-HS,它包括大数据的硬件、软件处理的性能都有相应的场景和测试的规范,是侧重于这方面。TPCx-BB是形成了30个相关的场景,包括整个数据处理性能的一系列的工具,去验证不同的框架所对应的性能的标准。TPCx-DS更多的是偏向传统的决策分析系统,OLAP这样的相关系统的处理性能。
另外在中国数据中心联盟,也是形成了一些大数据平台基准测试国内标准。包括相应的技术要求和测试方法都有相应的规定。
大数据系统数据测试标准
刚才讲到的是平台的标准,接下来我们一起看一下数据质量的标准。数据质量标准包括一些非结构化数据表示的一些规范,还有GB/T25000里面针对数据质量模型、数据质量测量这方面的标准。再就是在去年的时候形成了大数据的数据分类指南,工业产品核心元数据和政务数据开放共享相关的标准。
大数据系统应用测试标准
针对应用质量方面,有GB/T25000中关于测试的相关标准,还有一些在编的应用质量相关的测试标准。