中國環境監測總站;廣東旭誠科技有限公司汪太明獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網獲悉中國環境監測總站;廣東旭誠科技有限公司申請的專利一種基于XGBoost算法的PM2.5數據異常識別方法獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN114462511B 。
龍圖騰網通過國家知識產權局官網在2025-09-09發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202210053540.0,技術領域涉及:G06F18/2433;該發明授權一種基于XGBoost算法的PM2.5數據異常識別方法是由汪太明;侯玉婧;孟雙雙;王啟蒙;尤洋;劉超;郭亞靜設計研發完成,并于2022-01-18向國家知識產權局提交的專利申請。
本一種基于XGBoost算法的PM2.5數據異常識別方法在說明書摘要公布了:本發明公開了一種基于XGBoost算法的PM2.5數據異常識別方法,包括:步驟1:采集國控站六項污染物的小時數據,步驟2:數據預處理,步驟3:從原始數據中提取特征,步驟4:模型訓練與測試,步驟5:異常數據分析,步驟6:運維事件標識并去除,步驟7:氣象監測要素整合,步驟8:儀器設備參數異常判定。本發明利用機器學習實現異常數據的自動識別,將機器學習應用到國家空氣監測站審核平臺,實現數據異常識別自動化,同時自動化的審核機制可以做到實時對數據進行質量控制;一方面可以減少人工審核的局限性,精準識別異常數據,減少出錯率,另一方面可以減輕數據復核人員的工作負擔和壓力以及進一步減少人力成本。
本發明授權一種基于XGBoost算法的PM2.5數據異常識別方法在權利要求書中公布了:1.一種基于XGBoost算法的PM2.5數據異常識別方法,其特征在于,包括以下步驟: 步驟1:采集國控站六項污染物的小時數據,形成原始數據; 步驟2:數據預處理,對原始數據進行預處理,提高原始數據質量; 步驟3:從原始數據中提取特征,對原始數據進行觀察,構建四大類特征; 步驟4:模型訓練與測試,確定XGBoost算法作為訓練模型并測試; 步驟5:異常數據分析,對于模型識別后的異常數據,進一步進行分析,分析后的數據用于后續調整模型參數,改善模型性能; 所述步驟5具體包括以下步驟: 步驟5-1:將城市進行聚類,目標城市與周邊城市PM2.5數據逐月對比分析,通過相對偏差法和相鄰月相對偏差變幅法研判該城市整體數據質量異常變化情況,其中,相對偏差法的計算公式為: 相對偏差(%)=(目標城市月均值-除目標城市外其他城市月均值的均值)除目標城市外其他城市月均值的均值*100%, 相鄰月相對偏差變幅法的計算公式為: 相對偏差變幅(%)=本月偏差-上月偏差; 步驟5-2:將分析后得到的最優參數組合作為XGBoost參數重新訓練模型,并對測試集進行預測; 步驟5-3:評估測試集結果,在該參數上進行調優; 步驟6:運維事件標識并去除,數據分析時,將運維前、后的時間段對數據造成影響的,去除相應時段的監測數據; 步驟7:氣象監測要素整合,通過分析點位氣象參數,結合數據情況綜合判斷數據有效性; 所述步驟7具體包括以下步驟: 步驟7-1:確定需要進行分類的監測指標,按照環境空氣質量標準進行等級劃分,對原始數據進行訓練集和測試集的劃分,利用訓練集的數據構建決策樹; 步驟7-2:建好決策樹后利用測試集數據進行驗證,驗證決策樹構建的效果,并根據測試結果優化和調整模型; 步驟7-3:構建最終模型樹型結構,輸出分類結果中每個類別對應的監測指標取值范圍以及每個樹枝預測的準確率; 步驟7-4:對于分類準確率小于85%的樹枝重新進行樣本的選擇和決策樹的訓練,給予預測率較低的級別以較大的權重進入到訓練集中,重復以上步驟,直到分類準確率均在85%以上為止; 步驟7-5:輸出各樹型對應的監測參數范圍,利用反推過程對多個監測指標的檢測樣本進行質量控制,多個監測指標的檢測樣本的某個參數對應標準范圍之外判斷為異常值,反之為正常監測,直到遍歷完多有的待檢測樣本為止; 步驟8:儀器設備參數異常判定,對其他原因導致的站點數據發生變化,進行數據分析時再次判定關鍵參數的異常情況。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人中國環境監測總站;廣東旭誠科技有限公司,其通訊地址為:100020 北京市朝陽區安外大羊坊8號院乙;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。