摘要:針對森林生態(tài)站中大量圖像,、視頻、GIS數據等非結構化數據以及生態(tài)指標等結構化數據存儲效率低,、檢索性能差的問題,,提出了基于Hadoop和HBase的森林生態(tài)站大數據存儲框架?;谒岢龅目蚣?,給出了森林生態(tài)數據存儲業(yè)務流程,并對森林生態(tài)大數據平臺涉及的核心技術進行了優(yōu)化:①設計預分區(qū)算法保證數據在集群中均勻分布,。②根據生態(tài)數據特點科學設計了RowKey,,實現(xiàn)生態(tài)數據的快速檢索,。③針對原生HBase不支持多條件查詢問題,,設計基于索引數據和服務器性能評估的ElasticSearch索引分片放置策略,以此基于ElasticSearch的二級非主鍵索引技術優(yōu)化多條件檢索HBase生態(tài)數據庫,。④針對生態(tài)站海量小圖像存儲困難問題,,提出基于數據站點及時間關聯(lián)性的打包合并策略。⑤解析GIS數據使之進行高效存儲,。通過實驗對以上理論進行驗證,。結果表明,ElasticSearch索引分片放置策略比默認分片策略的查詢時間平均減少20 ms,,比基于改變ElasticSearch評分策略的查詢時間平均減少20 ms,。結構化數據規(guī)模為1×108條時,,系統(tǒng)的檢索時間為1.045 s,比原生HBase檢索速度提升3.99倍,,在非結構化數據為1×107條時,,采用數據站點及時間關聯(lián)性的打包小圖像策略是基于SequenceFile合并效率的1.15倍,是原生HBase的1.79倍;在1×104次并發(fā)用戶的情況下,,優(yōu)化后的每秒查詢數是原來的1.88倍,,每秒吞吐量是優(yōu)化前的1.74倍,系統(tǒng)響應時間比優(yōu)化前降低69.5%,。結果表明,,本文所提出的方案在集群負載均衡、海量結構化和非結構化數據檢索效率以及系統(tǒng)吞吐量等方面都有了明顯的性能提升,,為森林生態(tài)數據的存儲和管理提供了必要的理論基礎和技術實現(xiàn),。