/catalog/296695a3fdd74f71b4ced1996c9b6856//Document/311601443917893.html/Document/311285189517381.html/Document/310134890274885.html/Document/309794452426821.html/Document/309507604934725.html/Document/304898482892869.html/Document/304549706600517.html/Document/304188584996933.html/Document/303818784497733.html/Document/302700517105733.html/Document/302416475320389.html/Document/302077848256581.html/Document/301288627347525.html/Document/300279638184005.html/Document/274792263872581.html/Document/273024381308997.html/Document/272683642789957.html/Document/272351623921733.html/Document/271961406242885.html/Document/271560844214341.html/Document/270477420015685.html/Document/269881559916613.html/catalog/c51244b85e704db9a2a34ca396e9fe27//Document/337103780888645.html/Document/336726028042309.html/Document/336395351863365.html/Document/336019384291397.html/Document/334605603291205.html/Document/334264344903749.html/Document/333908786077765.html/Document/333537608929349.html/Document/332422937043013.html/Document/323979240091717.html/Document/323624591507525.html/Document/322518056206405.html/Document/322224629981253.html/Document/321870777405509.html/Document/321154810175557.html/Document/319738524639301.html/Document/319395521761349.html/Document/319038449188933.html/Document/318684198744133.html/Document/317575537291333.html/Document/316584392339525.html/Document/297463116619845.html/Document/296410729726021.html/Document/294281412902981.html/Document/289614801383493.html/Document/289336711553093.html/Document/288989717336133.html/Document/267736666357829.html

大数据测试测试环节与测试内容大盘点

本系列文章我们基于中通科技的大数据测试工作进行展开,分享的内容主要有大数据简介、数据应用测试、数据平台测试、数据仓库测试这四个方面。首先,我们了解一下什么是大数据。

 

大数据简介


大数据,是指一个公司创造或收集的“结构化”、“半结构化”或者“非结构化”的海量数据集合。它的意义不在于掌握的数据量是最大的,而在于能否有效、专业的对这些数据进行加工处理,并让这些海量的、多样化的数据产生最大的价值。


大数据主要有以下四个特征:


体量大存储单位从过去的GB到TB,直至PB、EB级别。


多样化数据类型复杂多样,包括结构化、半结构化数据还有视频、音频及图片这些非结构化数据。


价值高将原始数据采集、清洗、挖掘、数据分析之后,具有较高的价值。


时效性数据的采集、计算、展示需要满足不同场景的时效。比如说公司的业务报表,一般都要在第二天早上业务方和产品方上班之前就要把数据拷出来,对实效性是有一定的要求的。再比如说一些数据大屏,要满足秒级更新频率的数据。


接下里来我们一起看一下数据从哪里来到哪里去的整个数据链路。

大数据整体链路

首先是数据采集这一块。主要是我们把从业务系统、日志、埋点、数据文件中的一些数据采集过来。存储到大数据的系统,主要是以HDFS文件系统为主,其他的还有比如ES、Kafka、TIDB等。


数据采集过来之后,我们会对一些脏数据或者测试数据进行清洗和转换,主要是一些测试数据,包括把格式不一致的数据统一转换成统一的格式等。


数据清洗完成之后,我们会对数据进行建模,这部分是数据仓库的核心。把拥有共同属性和共同业务逻辑的表整合到一起,提供给不同的场景方、业务方使用。


数据建模之后,我们根据不同的业务需求进行指标的一些汇总、计算。数据计算完成后,我们会把数据推送到不同的业务方、不同的系统,供他们分析使用。

 

下面的文章我们会继续为大家介绍中通科技的大数据架构,以及基于这些架构内容如何开展测试。敬请继续关注。