合肥歐沃環保科技有限公司單化理獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網獲悉合肥歐沃環保科技有限公司申請的專利基于深度強化學習的水體清潔設備路徑優化方法獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN120181361B 。
龍圖騰網通過國家知識產權局官網在2025-09-09發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202510500451.X,技術領域涉及:G06Q10/047;該發明授權基于深度強化學習的水體清潔設備路徑優化方法是由單化理;馮新長;齊鑫;段云翔;胡志龍;魏勝設計研發完成,并于2025-04-21向國家知識產權局提交的專利申請。
本基于深度強化學習的水體清潔設備路徑優化方法在說明書摘要公布了:本發明公開了一種基于深度強化學習的水體清潔設備路徑優化方法,包括如下步驟:S1、利用傳感器采集水體環境數據,并進行預處理;S2、建立路徑優化的狀態空間和動作空間,并構建獎勵機制;S3、采用Transformer網絡對預處理數據進行特征提取;S4、利用改進的信賴域策略優化算法對策略網絡和價值網絡進行訓練,基于KL散度約束優化策略網絡的更新步長,并基于策略梯度方法優化路徑規劃策略;S5、利用訓練后的策略網絡和價值網絡進行路徑規劃;S6、計算水體清潔設備的能耗消耗,并調整水體清潔設備的運行模式或作業路徑。本發明結合Transformer和改進的信賴域策略優化算法優化水體清潔設備路徑規劃,具備環境適應性強、能耗低、清潔效率高和作業穩定性強的優點。
本發明授權基于深度強化學習的水體清潔設備路徑優化方法在權利要求書中公布了:1.一種基于深度強化學習的水體清潔設備路徑優化方法,其特征在于,包括如下步驟: S1、利用傳感器采集目標水域的水流速度、風力影響、漂浮物分布、障礙物位置和歷史作業路徑信息,并對所述數據進行預處理,生成預處理數據; S2、建立路徑優化的狀態空間和動作空間,并構建獎勵機制; 所述狀態空間包括水體清潔設備的當前位置、水流動態、漂浮物分布和障礙物信息,所述動作空間包括水體清潔設備的行進方向、速度和轉向角度,所述獎勵機制基于漂浮物清理效率、作業路徑長度、能耗消耗和避障情況進行構建; S3、構建基于Transformer結構的策略網絡和價值網絡,采用Transformer網絡對預處理數據進行特征提取,并采用多頭注意力機制建模歷史作業路徑信息與當前環境狀態之間的依賴關系,將提取的特征向量分別輸入策略網絡和價值網絡; S4、根據構建的獎勵機制,利用改進的信賴域策略優化算法對策略網絡和價值網絡進行訓練,基于KL散度約束優化策略網絡的更新步長,并基于策略梯度方法優化路徑規劃策略; S5、結合實時傳感器數據,利用訓練后的策略網絡和價值網絡進行路徑規劃,根據當前環境狀態預測最優動作,并調整水體清潔設備的路徑; S6、在路徑規劃過程中計算水體清潔設備的能耗消耗,并基于能耗消耗調整水體清潔設備的運行模式或作業路徑; 所述S3具體包括: S31、構建基于Transformer結構的策略網絡和價值網絡,設定輸入矩陣為 其中T表示時間步數,d表示輸入數據的維度,設定初始輸入矩陣X0為水體清潔設備的狀態向量; S32、采用位置編碼增強時間依賴關系,設定時間步索引t對應的編碼: 其中,PEt,2i表示時間步索引t位置編碼的第2i維分量,PEt,2i+1表示時間步索引t位置編碼的第2i+1維分量,t表示時間步索引,d表示輸入數據的特征維度; 將位置編碼矩陣PEt疊加至輸入矩陣: Xt=X0Wp+PEt; 其中,Xt表示位置編碼后的輸入矩陣,X0表示初始輸入矩陣,Wp表示投影矩陣,用于匹配初始輸入矩陣X0和位置編碼矩陣PEt的維度,PEt表示置編碼矩陣; S33、基于輸入矩陣計算查詢矩陣、鍵矩陣和值矩陣,引入全局衰減注意力項,并通過多頭注意力機制進行特征聚合,計算多頭輸出,生成全局特征表示: X't=Concathead1,…,headhW0; 其中,headi表示第i個頭的注意力權重,softmax表示歸一化,Ct,l表示污染物濃度,Q、K和V分別表示查詢矩陣、鍵矩陣和值矩陣,C表示矩陣轉置操作,λ表示全局注意力平衡因子,表示控制時間步衰減權重,Vj表示其他時間步的值矩陣,X't表示全局特征表示,Concat表示拼接操作,W0表示輸出變換矩陣,T表示最大時間步數; S34、將全局特征表示X't輸入改進的前饋神經網絡: X′'t=ReLUX'tW1+b1W2+b2+τ·LNX't; 其中,X′′t表示經過前饋神經網絡的全局特征表示,W1和W2表示前饋神經網絡的權重矩陣,ReLU表示非線性激活函數,b1和b2表示前饋神經網絡偏置項,τ表示殘差連接權重,LN表示層歸一化函數; S35、對Transformer網絡處理后的全局特征表示X′′t進行策略網絡和價值網絡的計算,所述策略網絡的輸出為策略概率分布,所述價值網絡的輸出為狀態值函數: πAt|St=softmaxWπX′′t+bπ+ωt·tanhX′′t; 其中,πAt|St表示策略網絡輸出的策略概率分布,At表示水體清潔設備執行的動作集,St表示水體清潔設備的狀態向量,Wπ和bπ表示策略網絡的訓練參數,ωt表示策略擾動因子,確保探索性,tanh表示雙曲正切函數,VSt表示價值網絡輸出的狀態值函數,WV和bV表示價值網絡的訓練參數,μt表示時間步折扣因子,ρ表示遠期獎勵衰減參數,Vk表示過去或未來時間步k的狀態值函數,T表示最大時間步數。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人合肥歐沃環保科技有限公司,其通訊地址為:230000 安徽省合肥市蜀山區經濟開發區湖光路自主創新產業基地三期(南區)A座7層西北區;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。