上海交通大學孫嘉徽獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網獲悉上海交通大學申請的專利無人機群智感知調度方法、系統、設備及介質獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN115729258B 。
龍圖騰網通過國家知識產權局官網在2025-08-22發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202211445408.0,技術領域涉及:G05D1/695;該發明授權無人機群智感知調度方法、系統、設備及介質是由孫嘉徽;金海明;范桂云設計研發完成,并于2022-11-18向國家知識產權局提交的專利申請。
本無人機群智感知調度方法、系統、設備及介質在說明書摘要公布了:本發明提供了一種無人機群智感知調度方法、系統、設備及介質,涉及群智感知和強化學習技術領域,包括:步驟S1:將無人機調度問題建模為帶約束合作馬爾科夫博弈,設計狀態、動作、獎勵和損失函數;步驟S2:設計一個多任務多智能體強化學習框架,使用通用策略處理相似的無人機感知任務,降低訓練策略的計算復雜度和樣本復雜度;步驟S3:提出原始?對偶多智能體強化學習訓練算法,在提升整體感知收益和減少每個任務的約束違反之間交替執行。本發明能夠有效地聯合制定移動、感知和充電決策,在充電預算的約束下,最大化無人機長期感知收益。
本發明授權無人機群智感知調度方法、系統、設備及介質在權利要求書中公布了:1.一種無人機群智感知調度方法,其特征在于,包括: 步驟S1:將無人機調度問題建模為帶約束合作馬爾科夫博弈,設計狀態、動作、獎勵和損失函數,求解一個最優的調度策略,在平臺充電預算的約束下,最大化無人機長期感知收益; 步驟S2:設計一個多任務多智能體強化學習框架表示最優策略的神經網絡結構,所述框架能夠處理大量相似的無人機感知任務,降低訓練策略的計算復雜度和樣本復雜度; 步驟S3:提出原始-對偶多智能體強化學習訓練算法,在提升整體感知收益和減少每個任務的約束違反之間交替執行; 步驟S4:將訓練好的策略部署到無人機上;無人機將全局信息和局部觀測輸入到策略中,策略輸出無人機下一時刻的移動方向和距離,以及移動過程中是否收集感知數據、是否進行充電;無人機執行策略輸出的結果,重復這個過程直到整個決策過程結束; 所述步驟S3包括: 步驟S3.1:使用拉格朗日乘子法將原約束優化問題轉化為如下的max-min問題: 其中,θ是策略Π的參數,是原始變量;是非負的對偶變量; 為解決max-min問題,設計一種迭代算法,該算法在θ上的梯度上升步驟和λ上的梯度下降步驟之間交替; 步驟S3.2:更新對偶變量; 在每次循環h中,對偶變量通過投影梯度下降更新為: 其中ηk是步長,Γ[·]是將每個對偶變量投影到[0,λmax]范圍內的投影算子; 步驟S3.3:更新策略參數; 在每次循環h中,給定更新的對偶變量λh,通過隨機梯度上升將Πh的參數從θh更新到θh+1: 其中,ρ是參數更新步長,是目標函數關于策略的梯度: 其中,Dk表示采樣的集合,bk表示Dk中的采樣之一,并且: 其中,和分別表示代理j∈N的獎勵和成本相關的優勢函數: 步驟S3.4:更新評論員網絡參數; 在每次循環h中,通過最小化收集到的經驗的TD誤差,將智能體的獎勵評論員網絡的參數從更新到如下式所示: 其中,是智能體i的獎勵狀態值函數; 類似地,通過最小化智能體成本評論員網絡的參數從ξh更新為ξh+1: 其中,是智能體i的損失狀態值函數。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人上海交通大學,其通訊地址為:200240 上海市閔行區東川路800號;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。