中國人民解放軍海軍航空大學崔亞奇獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網獲悉中國人民解放軍海軍航空大學申請的專利一種基于目標跟蹤強化學習框架的目標跟蹤強化學習方法獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN115291204B 。
龍圖騰網通過國家知識產權局官網在2025-09-09發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202211059783.1,技術領域涉及:G01S13/66;該發明授權一種基于目標跟蹤強化學習框架的目標跟蹤強化學習方法是由崔亞奇;何友設計研發完成,并于2022-08-31向國家知識產權局提交的專利申請。
本一種基于目標跟蹤強化學習框架的目標跟蹤強化學習方法在說明書摘要公布了:本發明實施例提供了一種目標跟蹤強化學習框架,方法包括:目標跟蹤強化學習框架中跟蹤器、智能體、可執行動作空間、動作、狀態、獎勵以及環境的定義與設置;智能體與環境的交互方式,智能體控制策略的優化方式和智能體的運用方式;智能體優化后,智能體與環境交互,環境輸出的跟蹤器運動狀態信息,作為目標跟蹤強化學習方法的輸出,各個時刻輸出的跟蹤器運動狀態信息為強化學習方法所跟蹤得到的目標航跡。本發明實施例提供了一種基于強化學習的目標跟蹤框架,給出的智能體可基于模擬環境或者實際環境進行自我學習,具有適用范圍廣、適配場景多、人力物力消耗少等優點。
本發明授權一種基于目標跟蹤強化學習框架的目標跟蹤強化學習方法在權利要求書中公布了:1.一種基于目標跟蹤強化學習框架的目標跟蹤強化學習方法,其特征在于,包括以下步驟: 步驟1:目標跟蹤強化學習框架中的跟蹤器定義為具有所跟蹤目標運動特性,受智能體控制和目標運動特性約束,在探測環境中運動的單元; 步驟2:目標跟蹤強化學習框架中的智能體定義為跟蹤器運動決策者,依據控制策略,控制跟蹤器運動,其輸入為環境提供的狀態和獎勵,輸出為跟蹤器應執行的動作,反饋給環境; 步驟3:目標跟蹤強化學習框架中的可執行動作空間由跟蹤器運動可控制參數變化空間構建,具體的動作從可執行動作空間中進行選取; 步驟4:目標跟蹤強化學習框架中的狀態為跟蹤器當前時刻運動狀態信息和探測設備獲取的下一時刻量測信息,它們在統一慣性坐標系進行表示,其中探測設備輸出的量測信息由多個量測點構成,每個量測點至少包含觀測時間和空間位置信息,跟蹤器運動狀態信息至少包含時間、空間位置、運動速度和運動方向信息; 步驟5:目標跟蹤強化學習框架中的獎勵由同一時刻跟蹤器運動狀態信息與探測設備量測信息間距離的遠近度量,兩者越遠,獎勵越小,兩者越近,獎勵越大; 步驟6:目標跟蹤強化學習框架中的環境由探測設備、探測環境和跟蹤器共同構建,其輸入為動作,輸出為狀態和獎勵; 步驟7:目標跟蹤強化學習框架中智能體與環境連續交互,一個完整的交互過程從環境初始狀態開始,到環境終止狀態結束,包括多步交互,在每步交互中,智能體接收環境輸出的狀態和獎勵,依據控制策略,輸出當前動作決策,環境接收智能體輸出的當前動作,輸出狀態和獎勵; 步驟8:目標跟蹤強化學習框架中智能體的優化方式為以最大化累積獎勵為目標,采用策略學習方法,通過智能體與環境交互,對智能體控制策略,進行不斷優化學習,以得到滿足要求的目標跟蹤智能體; 步驟9:目標跟蹤強化學習框架中智能體的運用方式為利用優化得到的目標跟蹤智能體,進行智能體與環境的交互,每步交互,環境輸出的跟蹤器運動狀態信息,作為目標跟蹤強化學習方法的輸出,各個時刻輸出的跟蹤器運動狀態信息為強化學習方法所跟蹤得到的目標航跡。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人中國人民解放軍海軍航空大學,其通訊地址為:264001 山東省煙臺市芝罘區二馬路188號;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。