武漢大學;湖北珞珈實驗室黃頔獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網獲悉武漢大學;湖北珞珈實驗室申請的專利一種TD3軟強化學習航天器姿態控制方法及計算機可讀介質獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN116788524B 。
龍圖騰網通過國家知識產權局官網在2025-09-12發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202310710449.6,技術領域涉及:B64G1/24;該發明授權一種TD3軟強化學習航天器姿態控制方法及計算機可讀介質是由黃頔;朱澤昆;左玉弟;王志富;曾國強;高玉東;李志軍設計研發完成,并于2023-06-14向國家知識產權局提交的專利申請。
本一種TD3軟強化學習航天器姿態控制方法及計算機可讀介質在說明書摘要公布了:本發明提出了一種TD3軟強化學習航天器姿態控制方法及計算機可讀介質。本發明構建改進的TD3?SAC算法網絡,通過改進的TD3?SAC算法網絡生成當前時刻航天器的控制動作,將當前時刻航天器姿態的狀態數據、當前時刻航天器的控制動作通過龍格庫塔數值分析方法計算,得到下一時刻航天器姿態的狀態數據;通過改進的獎勵函數模型計算得到當前時刻的獎勵值;目標網絡根據當前時刻航天器姿態的狀態數據、當前時刻航天器的控制動作、下一時刻航天器姿態的狀態數據以及當前時刻的獎勵值,分別更新策略網絡、改進的價值網絡。本發明通過共享緩沖區進行學習,在節省了計算資源的同時,也能夠實現更高效的學習和更快的收斂速度,從而提升航天器姿態控制性能。
本發明授權一種TD3軟強化學習航天器姿態控制方法及計算機可讀介質在權利要求書中公布了:1.一種TD3軟強化學習航天器姿態控制方法,其特征在于,包括以下步驟: 步驟1:構建改進的TD3-SAC算法網絡,獲取當前時刻航天器姿態的狀態數據,將當前時刻航天器姿態的狀態數據輸入至改進的TD3-SAC算法網絡,通過改進的TD3-SAC算法網絡生成當前時刻航天器的控制動作,將當前時刻航天器姿態的狀態數據、當前時刻航天器的控制動作通過龍格庫塔數值分析方法計算,得到下一時刻航天器姿態的狀態數據; 步驟2:獲取當前時刻航天器姿態的狀態數據、當前時刻航天器的控制動作,通過改進的獎勵函數模型計算得到當前時刻的獎勵值; 步驟3:目標網絡根據當前時刻航天器姿態的狀態數據、當前時刻航天器的控制動作、下一時刻航天器姿態的狀態數據以及當前時刻的獎勵值,分別更新策略網絡、改進的價值網絡; 步驟1所述改進的TD3-SAC算法網絡包括:策略網絡、動作生成模塊、改進的價值網絡、目標網絡; 所述策略網絡,根據所述當前時刻航天器姿態的狀態數據,生成當前時刻航天器的策略控制動作,所述當前時刻航天器的策略控制動作,定義如下: at,1 t∈[1,K] 其中,at,1表示當前時刻航天器的策略控制動作,K表示時刻的數量; 所述當前時刻航天器姿態的狀態數據包括: 當前時刻航天器姿態的誤差數據、當前時刻航天器姿態的誤差數據的導數、當前時刻航天器的角速度; 所述動作生成模塊,由TD3算法網絡構成,根據所述當前時刻航天器姿態的狀態數據,生成當前時刻航天器的TD3控制動作,定義如下: at,2 t∈[1,K] 其中,at,2表示當前時刻航天器的TD3控制動作,K表示時刻的數量; 所述改進的價值網絡,將當前時刻航天器姿態的狀態數據、當前時刻航天器的策略控制動作通過計算,得到前時刻航天器的策略控制動作的價值,具體計算過程如下: 其中,表示SAC的價值網絡,st表示當前時刻狀態數據,at,1表示當前時刻航天器的策略控制動作; 所述改進的價值網絡,將當前時刻航天器姿態的狀態數據、當前時刻航天器的TD3控制動作通過計算,得到前時刻航天器的TD3控制動作的價值,具體計算過程如下: 其中,表示SAC的價值網絡,st表示當前時刻狀態數據,at,2表示當前時刻航天器的TD3控制動作; 所述價值網絡根據ε-貪婪策略,有ε的概率選擇當前時刻航天器的策略控制動作的價值、當前時刻航天器的TD3控制動作的價值中價值較高對應的控制動作,作為當前時刻航天器的控制動作,有1-ε的概率隨機選擇當前時刻航天器的策略控制動作或者當前時刻航天器的TD3控制動作作為當前時刻航天器的控制動作; 所述目標網絡用于更新策略網絡、改進的價值網絡; 步驟2所述獲取當前時刻航天器姿態的狀態數據是根據上一時刻的航天器姿態的狀態數據根據龍格庫塔法計算獲?。?步驟2所述通過改進的獎勵函數模型計算得到當前時刻的獎勵值,具體如下: 其中,Ka表示動作系數,a表示控制動作,||·||2表示2范數計算,qe,new表示當前時刻的誤差四元數向量,θa表示角度閾值,qe表示上一時刻的誤差四元數,IF表示若滿足條件,ELIF若滿足另外條件,ELSE除前述條件之外。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人武漢大學;湖北珞珈實驗室,其通訊地址為:430072 湖北省武漢市武昌區八一路299號;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。