東南大學王遠大獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網獲悉東南大學申請的專利一種基于時空平滑度分析的水下機器人強化學習控制方法獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN116880189B 。
龍圖騰網通過國家知識產權局官網在2025-08-22發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202310871124.6,技術領域涉及:G05B13/04;該發明授權一種基于時空平滑度分析的水下機器人強化學習控制方法是由王遠大;楊嘉誠;孫佳;孫長銀設計研發完成,并于2023-07-17向國家知識產權局提交的專利申請。
本一種基于時空平滑度分析的水下機器人強化學習控制方法在說明書摘要公布了:本發明提供了一種基于時空平滑度分析的水下機器人強化學習控制方法,通過結合時間平滑度和空間平滑度分析,效削弱電機信號中的震蕩現象,通過在強化學習基于神經網絡的控制器中引入積分補償器,補償由于值函數擬合誤差帶來的穩態誤差,從而保證控制的穩定性和精確度。另外,本發明在控制過程中對水下機器人的動力學模型進行動態擬合,并通過動力學模型獲得用于強化學習訓練的經驗數據,通過擴充訓練數據的方法提高強化學習算法的學習效率。
本發明授權一種基于時空平滑度分析的水下機器人強化學習控制方法在權利要求書中公布了:1.一種基于時空平滑度分析的水下機器人強化學習控制方法,其特征在于:包括如下步驟: 步驟S1,構建水下機器人的仿真環境,其中機器人的六自由度運動模型表示為: ; 其中=[x,y,z,,,]T,x,y,z表示水下機器人的位置坐標,,,表示水下機器人的轉向角,為其對應的一階導數,v表示水下機器人在機器人體坐標系下的速度和轉向率,為其對應的一階導數,J是慣性坐標系到機器人體坐標系的坐標轉換矩陣,并且是的函數;M為水下機器人的慣性矩陣;Cv矩陣描述了水下機器人運動中的向心力和科里奧利力的影響,并且是v的函數;Dv矩陣是阻尼矩陣,表示了水對水下機器人的阻尼特性,同樣是v的函數;g表示水下機器人的恢復力矩陣,并且是的函數;表示水下機器人推進器的推進力; 步驟S2,構建獎勵函數,并初始化水下機器人強化學習算法的評價器和控制器,以及用于擬合動力學的模型網絡; 步驟S3,在仿真環境中執行多輪位置控制實驗,每次實驗保存相關實驗數據用于后續的評價器和控制器訓練,利用實驗數據對動力模型網絡進行訓練,利用動力模型網絡擴充數據集; 步驟S4,利用步驟S3中的數據對水下機器人的評價器和控制器進行訓練,通過策略梯度算法對網絡中的參數進行更新; 步驟S4具體步驟如下; 步驟S4-1,從仿真訓練的數據庫中隨機抽取部分數據; 步驟S4-2,利用采樣數據更新水下機器人的主評價器網絡參數,根據策略梯度法對主評價器網絡Qs,a|w1的參數w1進行更新,其中a為推進力控制量,s為當前的系統狀態量; 步驟S4-3,更新水下機器人的目標評價器網絡參數,根據如下公式對目標評價器網絡Qs,a|w2的參數w2進行更新: ; 其中表示參數的更新速率; 步驟S4-4,利用采樣數據更新水下機器人的控制器網絡參數,加入針對非平滑的電機驅動信號的優化策略,在控制器網絡更新過程中引入電機使用率控制參數PU,以及電機驅動信號空間平滑度參數PS和時間平滑度參數PT,其中PU用于防止電機使用率超過限制,PS和PT用于平滑電機驅動信號,用如下公式計算: PS=DSs|,|; PT=DTs|,s’|; 其中DS,DT表示均方根誤差函數,表示施加噪音后的系統狀態量,表示網絡中的權值參數,根據該電機驅動力優化策略以及策略梯度算法對控制器網絡s|的參數進行更新; 步驟S5,對步驟S4所得的控制器進行性能測試,判斷其是否達到任務指標; 步驟S6,在真實環境中使用控制器對水下機器人進行位置控制。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人東南大學,其通訊地址為:210096 江蘇省南京市玄武區四牌樓2號;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。