傳統(tǒng)的數(shù)據(jù)存儲和管理以結構化數(shù)據(jù)為主,因此關系數(shù)據(jù)庫系統(tǒng)(RDBMS)可以一統(tǒng)天下滿足各類應用需求。但是試驗和考核實際所涉及的數(shù)據(jù)可能包含文本、日志、圖片、視頻、矢量地圖等來自不同數(shù)據(jù)采集源的、不同種類的數(shù)據(jù)。這些數(shù)據(jù)的格式通常都不是固定的,如果采用結構化的存儲模式將很難應對實際的需求。因此需要按照數(shù)據(jù)類型的不同,對數(shù)據(jù)的存儲和管理采用不同的技術路線。
采用新型數(shù)據(jù)庫集群,通過列存儲和行列混合存儲以及粗粒度索引等技術,結合MPP(MassiveParallelProcessing)架構高效的分布式計算模式,實現(xiàn)對大數(shù)據(jù)的存儲和管理,具有高性能和高擴展性特點;針對本項目中半結構化和非結構化數(shù)據(jù),采用基于Hadoop開源體系的底層,通過對Hadoop生態(tài)體系的技術擴展和封裝,實現(xiàn)對半結構化和非結構化數(shù)據(jù)的存儲和管理。一方面用MPP來管理計算高質量的結構化數(shù)據(jù),提供強大的SQL和OLTP型服務;另一方面,用Hadoop實現(xiàn)對半結構化和非結構化數(shù)據(jù)的處理,以支持內容檢索、深度挖掘與綜合分析等新型應用。
大數(shù)據(jù)應用系統(tǒng)集成
大數(shù)據(jù)查詢統(tǒng)計分析示意圖