中國人民解放軍空軍工程大學許華獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網獲悉中國人民解放軍空軍工程大學申請的專利一種非專家數據輔助的元強化學習跳頻干擾資源分配方法獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN119865208B 。
龍圖騰網通過國家知識產權局官網在2025-09-26發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202510026442.1,技術領域涉及:H04B1/715;該發明授權一種非專家數據輔助的元強化學習跳頻干擾資源分配方法是由許華;饒寧;齊子森;蔣磊;王聃;彭翔;馬智遠;郭峻佚設計研發完成,并于2025-01-08向國家知識產權局提交的專利申請。
本一種非專家數據輔助的元強化學習跳頻干擾資源分配方法在說明書摘要公布了:本公開實施例是關于一種非專家數據輔助的元強化學習跳頻干擾資源分配方法,包括:根據通信對抗場景構建跳頻干擾資源分配問題;將跳頻干擾資源分配問題建模為馬爾可夫決策過程;隨機初始化元策略得到初始策略網絡;基于MAML算法對初始策略網絡進行元訓練,其中,元訓練包括:在特定任務適應階段,基于非專家數據,利用強化學習損失函數和行為克隆損失函數對初始策略網絡進行優化訓練,得到特定任務策略,并計算各干擾任務的強化學習損失;在元優化階段,最小化所有干擾任務的強化學習損失,并得到優化后的分配策略;根據新的干擾任務對優化后的分配策略進行微調。本公開結合強化學習和行為克隆從非專家數據中提取有用信息,實現高效的策略探索。
本發明授權一種非專家數據輔助的元強化學習跳頻干擾資源分配方法在權利要求書中公布了:1.一種非專家數據輔助的元強化學習跳頻干擾資源分配方法,其特征在于,包括: 根據通信對抗場景構建跳頻干擾資源分配問題; 將所述跳頻干擾資源分配問題建模為馬爾可夫決策過程; 隨機初始化元策略得到初始策略網絡; 基于MAML算法對所述初始策略網絡進行元訓練,所述元訓練包括特定任務適應階段和元優化階段; 其中,在所述特定任務適應階段,基于非專家數據,利用強化學習損失函數和行為克隆損失函數對所述初始策略網絡進行優化訓練,得到特定任務策略,并基于所述特定任務策略計算各干擾任務的強化學習損失; 在所述元優化階段,最小化所有干擾任務的強化學習損失,并得到優化后的分配策略; 根據新的干擾任務對元訓練優化后的分配策略進行微調; 其中,在所述特定任務適應階段,基于非專家數據,利用強化學習損失函數和行為克隆損失函數對所述初始策略網絡進行優化訓練,得到特定任務策略,并基于所述特定任務策略計算各干擾任務的強化學習損失,包括以下步驟: 隨機采樣多個干擾任務,并對每個所述干擾任務循環執行以下步驟: 利用所述初始策略網絡與每個所述干擾任務進行交互,得到第一訓練數據; 利用所述非專家數據和所述第一訓練數據,計算特定任務策略的參數; 根據所述特定任務策略,利用TRPO算法計算各干擾任務的強化學習損失; 其中,所述利用所述非專家數據和所述第一訓練數據,計算特定任務策略的參數,包括: 確定所述行為克隆損失函數,公式如下: (2) 其中,表示行為克隆損失函數,表示非專家數據,表示初始策略網絡的參數,表示初始策略網絡; 其中,在所述元優化階段,通過公式(4)最小化所有干擾任務的強化學習損失: (4) 其中,表示特定任務策略的參數,表示初始策略網絡的參數,表示哈達瑪積,表示自適應學習率向量,表示初始策略網絡的梯度,表示驗證數據。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人中國人民解放軍空軍工程大學,其通訊地址為:710038 陜西省西安市灞橋區長樂東路甲字一號;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。