浙江大學(xué)劉妹琴獲國家專利權(quán)
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監(jiān)控用IP管家,真方便!
龍圖騰網(wǎng)獲悉浙江大學(xué)申請的專利一種基于深度強化學(xué)習(xí)的目標跟蹤狀態(tài)估計器獲國家發(fā)明授權(quán)專利權(quán),本發(fā)明授權(quán)專利權(quán)由國家知識產(chǎn)權(quán)局授予,授權(quán)公告號為:CN116543016B 。
龍圖騰網(wǎng)通過國家知識產(chǎn)權(quán)局官網(wǎng)在2025-09-05發(fā)布的發(fā)明授權(quán)授權(quán)公告中獲悉:該發(fā)明授權(quán)的專利申請?zhí)?專利號為:202310490802.4,技術(shù)領(lǐng)域涉及:G06T7/246;該發(fā)明授權(quán)一種基于深度強化學(xué)習(xí)的目標跟蹤狀態(tài)估計器是由劉妹琴;周成義;張森林;董山玲;鄭榮濠設(shè)計研發(fā)完成,并于2023-05-04向國家知識產(chǎn)權(quán)局提交的專利申請。
本一種基于深度強化學(xué)習(xí)的目標跟蹤狀態(tài)估計器在說明書摘要公布了:本發(fā)明公開了一種基于深度強化學(xué)習(xí)的目標跟蹤狀態(tài)估計器。本發(fā)明屬于信號處理領(lǐng)域的狀態(tài)估計器設(shè)計領(lǐng)域。包括以下步驟:首先將目標跟蹤的狀態(tài)估計問題建模為部分可觀測馬爾科夫決策過程,其中觀測設(shè)計為傳感器節(jié)點的量測,動作設(shè)計為目標狀態(tài)的估計值,并基于模態(tài)軌跡估計準則設(shè)計了智能體的獎勵。隨后推導(dǎo)了用于解決POMDP問題的循環(huán)確定策略梯度,最終基于RDPG構(gòu)建了基于深度強化學(xué)習(xí)的目標跟蹤狀態(tài)估計器。該發(fā)明提出的基于深度強化學(xué)習(xí)的目標跟蹤狀態(tài)估計器能有效提高非線性目標跟蹤系統(tǒng)的狀態(tài)估計精度,能克服現(xiàn)有非線性濾波技術(shù)的缺陷,在非線性非高斯目標跟蹤系統(tǒng)中亦能獲得良好的狀態(tài)估計性能。
本發(fā)明授權(quán)一種基于深度強化學(xué)習(xí)的目標跟蹤狀態(tài)估計器在權(quán)利要求書中公布了:1.一種基于深度強化學(xué)習(xí)的目標跟蹤狀態(tài)估計器,其特征在于,包括以下步驟: S1:將目標跟蹤的狀態(tài)估計問題建模為部分可觀測馬爾科夫決策過程,觀測設(shè)計為傳感器節(jié)點的量測,動作構(gòu)建為目標狀態(tài)的估計值,并基于模態(tài)軌跡估計準則設(shè)計智能體的獎勵; S2:通過歷史軌跡的價值函數(shù)、歷史軌跡動作對的動作價值函數(shù)與期望獎勵推導(dǎo)用于解決部分可觀測馬爾科夫決策過程的確定策略梯度; S3:基于確定策略梯度構(gòu)建基于深度強化學(xué)習(xí)的目標跟蹤狀態(tài)估計器;并進行訓(xùn)練得到最優(yōu)網(wǎng)絡(luò)參數(shù); 所述S3中估計器訓(xùn)練具體過程如下: S3.1探索環(huán)境 t時刻,智能體基于歷史軌跡ht={o1:t,a1:t-1}執(zhí)行動作at;在動作at作用于環(huán)境后,獲得環(huán)境反饋的獎勵rt,同時,環(huán)境轉(zhuǎn)移至下一狀態(tài)st+1,智能體觀測到下一狀態(tài)ot+1;與環(huán)境交互的數(shù)據(jù)o1,a1,r1,…,oT,aT,rT存放至記憶池 S3.2訓(xùn)練網(wǎng)絡(luò)參數(shù) 在學(xué)習(xí)階段,首先從記憶池中隨機采樣N回合的數(shù)據(jù): 并利用隨機采樣的回合數(shù)據(jù)構(gòu)造歷史軌跡: 其次對于每一回合的采樣使用循環(huán)目標神經(jīng)網(wǎng)絡(luò)Qφ′計算目標值: 其中θ′為循環(huán)目標actor網(wǎng)絡(luò)的參數(shù),φ′為循環(huán)目標critic網(wǎng)絡(luò)的參數(shù);使用隨時間的反向傳播算法計算critic價值網(wǎng)絡(luò)的更新量: 其中為訓(xùn)練過程中采樣的軌跡數(shù)量,為軌跡的長度;同樣使用BPTT計算actor網(wǎng)絡(luò)的參數(shù)更新量: 因此,循環(huán)actor和critic網(wǎng)絡(luò)的參數(shù)按下式更新: θ←θ+λθΔθ φ←φ-λφΔφ, 其中λθ和λφ分別為循環(huán)actor網(wǎng)絡(luò)和循環(huán)critic網(wǎng)絡(luò)的學(xué)習(xí)率; 最后使用polyak平均更新循環(huán)目標actor網(wǎng)絡(luò)和循環(huán)目標critic網(wǎng)絡(luò)的參數(shù)θ′和φ′: θ′←τθ+1-τθ′ φ′←τφ+1-τφ′ 其中τ為polyak更新系數(shù); S3.3狀態(tài)估計 在訓(xùn)練達到預(yù)先設(shè)定的最大訓(xùn)練回合次數(shù)M后,訓(xùn)練過程結(jié)束,得到最優(yōu)網(wǎng)絡(luò)參數(shù)θ*和φ*;因此基于深度強化學(xué)習(xí)的目標跟蹤狀態(tài)估計器近似為: 基于該狀態(tài)估計器進行目標狀態(tài)的跟蹤; S4:基于訓(xùn)練好的目標跟蹤狀態(tài)估計器,實現(xiàn)對目標跟蹤系統(tǒng)的狀態(tài)估計。
如需購買、轉(zhuǎn)讓、實施、許可或投資類似專利技術(shù),可聯(lián)系本專利的申請人或?qū)@麢?quán)人浙江大學(xué),其通訊地址為:310058 浙江省杭州市西湖區(qū)余杭塘路866號;或者聯(lián)系龍圖騰網(wǎng)官方客服,聯(lián)系龍圖騰網(wǎng)可撥打電話0551-65771310或微信搜索“龍圖騰網(wǎng)”。
1、本報告根據(jù)公開、合法渠道獲得相關(guān)數(shù)據(jù)和信息,力求客觀、公正,但并不保證數(shù)據(jù)的最終完整性和準確性。
2、報告中的分析和結(jié)論僅反映本公司于發(fā)布本報告當日的職業(yè)理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據(jù)或者憑證。
- 信越半導(dǎo)體株式會社石崎順也獲國家專利權(quán)
- 現(xiàn)代自動車株式會社李民在獲國家專利權(quán)
- 格立莫農(nóng)業(yè)技術(shù)(天津)有限公司劉彬獲國家專利權(quán)
- 北京鼎材科技有限公司孫恩濤獲國家專利權(quán)
- 深圳硅基傳感科技有限公司趙瑜獲國家專利權(quán)
- 應(yīng)用材料公司孫顒獲國家專利權(quán)
- 陽江核電有限公司任鋒獲國家專利權(quán)
- 廣東弘景光電科技股份有限公司劉振庭獲國家專利權(quán)
- 廣西玉華物聯(lián)科技有限公司黎俊杰獲國家專利權(quán)
- 深圳市歡太科技有限公司郭子亮獲國家專利權(quán)