摘要:針對(duì)農(nóng)業(yè)機(jī)械大數(shù)據(jù)平臺(tái)中,,已有數(shù)據(jù)清洗算法不適用于大規(guī)模、多源異構(gòu),、高維度和強(qiáng)時(shí)空相關(guān)實(shí)時(shí)數(shù)據(jù)的問(wèn)題,分析了復(fù)雜田間環(huán)境下農(nóng)機(jī)作業(yè)數(shù)據(jù)異常來(lái)源及特征,研究了異常數(shù)據(jù)檢測(cè)及修正技術(shù),,提出一種基于滑動(dòng)窗口機(jī)制的農(nóng)機(jī)作業(yè)數(shù)據(jù)在線清洗方法,。該方法基于方差約束原則識(shí)別異常數(shù)據(jù),基于最小變動(dòng)原則生成候選修正數(shù)據(jù),,基于數(shù)據(jù)時(shí)間相關(guān)性通過(guò)AR,、ARX模型迭代優(yōu)化得到最終修復(fù)值,依托Flink分布式計(jì)算平臺(tái),,從而適應(yīng)農(nóng)機(jī)數(shù)據(jù)吞吐量大,、并發(fā)度高的特點(diǎn)?;谀呈∞r(nóng)機(jī)作業(yè)數(shù)據(jù)對(duì)算法進(jìn)行了有效性驗(yàn)證,,結(jié)果表明,在數(shù)據(jù)規(guī)模達(dá)到1×105條,、數(shù)據(jù)異常率為5%的情況下,,算法異常識(shí)別率達(dá)到0.94,且與已有清洗算法相比均方根誤差更小,?;贐ox-Behnken方法設(shè)計(jì)試驗(yàn),通過(guò)響應(yīng)面分析得到回歸模型,,分析算法參數(shù)對(duì)均方根誤差和運(yùn)行時(shí)間的影響,。基于二進(jìn)制編碼的混合遺傳算法對(duì)參數(shù)進(jìn)行優(yōu)化,,優(yōu)化后的參數(shù)組合可使算法均方根誤差達(dá)到0.16,、運(yùn)行時(shí)間達(dá)到0.13s。該數(shù)據(jù)清洗方法能夠?yàn)檗r(nóng)機(jī)大數(shù)據(jù)平臺(tái)的實(shí)時(shí)處理提供高質(zhì)量數(shù)據(jù)支撐,。