西北工業(yè)大學(xué)路鷹獲國家專利權(quán)
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監(jiān)控用IP管家,真方便!
龍圖騰網(wǎng)獲悉西北工業(yè)大學(xué)申請的專利一種協(xié)同制導(dǎo)律模型的預(yù)訓(xùn)練方法、訓(xùn)練方法和系統(tǒng)獲國家發(fā)明授權(quán)專利權(quán),本發(fā)明授權(quán)專利權(quán)由國家知識產(chǎn)權(quán)局授予,授權(quán)公告號為:CN116992952B 。
龍圖騰網(wǎng)通過國家知識產(chǎn)權(quán)局官網(wǎng)在2025-08-26發(fā)布的發(fā)明授權(quán)授權(quán)公告中獲悉:該發(fā)明授權(quán)的專利申請?zhí)?專利號為:202310852767.6,技術(shù)領(lǐng)域涉及:G06N3/092;該發(fā)明授權(quán)一種協(xié)同制導(dǎo)律模型的預(yù)訓(xùn)練方法、訓(xùn)練方法和系統(tǒng)是由路鷹;趙大海;胡一帆;韓特;付斌;邱璐瑩設(shè)計研發(fā)完成,并于2023-07-12向國家知識產(chǎn)權(quán)局提交的專利申請。
本一種協(xié)同制導(dǎo)律模型的預(yù)訓(xùn)練方法、訓(xùn)練方法和系統(tǒng)在說明書摘要公布了:本申請涉及控制的技術(shù)領(lǐng)域,尤其是涉及一種協(xié)同制導(dǎo)律模型的預(yù)訓(xùn)練方法、訓(xùn)練方法和系統(tǒng),預(yù)訓(xùn)練方法包括:獲取從彈的預(yù)訓(xùn)練樣本和預(yù)訓(xùn)練模型,進而基于預(yù)訓(xùn)練樣本對預(yù)訓(xùn)練模型進行離線的強化學(xué)習(xí)訓(xùn)練以得到預(yù)訓(xùn)練協(xié)同制導(dǎo)律模型,并將該預(yù)訓(xùn)練協(xié)同制導(dǎo)律模型中的預(yù)訓(xùn)練評價網(wǎng)絡(luò)的網(wǎng)絡(luò)參數(shù)和預(yù)訓(xùn)練評價目標網(wǎng)絡(luò)的網(wǎng)絡(luò)參數(shù)作為協(xié)同制導(dǎo)律模型訓(xùn)練過程中的待訓(xùn)練評價網(wǎng)絡(luò)的初始網(wǎng)絡(luò)參數(shù)和待訓(xùn)練評價目標的初始網(wǎng)絡(luò)參數(shù),能夠簡化實際訓(xùn)練的過程,提高訓(xùn)練效率,快速高效的得到協(xié)同制導(dǎo)律模型。
本發(fā)明授權(quán)一種協(xié)同制導(dǎo)律模型的預(yù)訓(xùn)練方法、訓(xùn)練方法和系統(tǒng)在權(quán)利要求書中公布了:1.一種協(xié)同制導(dǎo)律模型的預(yù)訓(xùn)練方法,其特征在于,包括: 獲取從彈的預(yù)訓(xùn)練樣本,其中,每一預(yù)訓(xùn)練樣本包括:第一時刻環(huán)境狀態(tài)、第一時刻對應(yīng)的第一獎勵值、第二時刻對應(yīng)的第二獎勵值和第三時刻環(huán)境狀態(tài); 獲取預(yù)訓(xùn)練模型,所述預(yù)訓(xùn)練模型包括:預(yù)訓(xùn)練網(wǎng)絡(luò)和預(yù)訓(xùn)練目標網(wǎng)絡(luò),所述預(yù)訓(xùn)練網(wǎng)絡(luò)包括:預(yù)訓(xùn)練行動網(wǎng)絡(luò)和預(yù)訓(xùn)練評價網(wǎng)絡(luò),所述預(yù)訓(xùn)練目標網(wǎng)絡(luò)包括:預(yù)訓(xùn)練行動目標網(wǎng)絡(luò)和預(yù)訓(xùn)練評價目標網(wǎng)絡(luò); 根據(jù)所述預(yù)訓(xùn)練樣本,對所述預(yù)訓(xùn)練模型進行強化學(xué)習(xí)訓(xùn)練,直到達到停止條件,得到預(yù)訓(xùn)練協(xié)同制導(dǎo)律模型, 所述預(yù)訓(xùn)練協(xié)同制導(dǎo)律模型中的預(yù)訓(xùn)練評價網(wǎng)絡(luò)的網(wǎng)絡(luò)參數(shù)和預(yù)訓(xùn)練評價目標網(wǎng)絡(luò)的網(wǎng)絡(luò)參數(shù)作為協(xié)同制導(dǎo)律模型訓(xùn)練過程中的待訓(xùn)練評價網(wǎng)絡(luò)的初始網(wǎng)絡(luò)參數(shù)和待訓(xùn)練評價目標的初始網(wǎng)絡(luò)參數(shù); 所述獲取從彈的預(yù)訓(xùn)練樣本,包括: 獲取第一時刻環(huán)境狀態(tài),根據(jù)所述第一時刻環(huán)境狀態(tài)利用協(xié)同制導(dǎo)律得到第一時刻對應(yīng)的動作值; 根據(jù)所述第一時刻對應(yīng)的動作值,通過訓(xùn)練環(huán)境進行仿真,得到第二時刻環(huán)境狀態(tài)和第一時刻對應(yīng)的獎勵值; 根據(jù)所述第二時刻環(huán)境狀態(tài)和協(xié)同制導(dǎo)律,得到第二時刻對應(yīng)的第二動作值;根據(jù)所述第二時刻對應(yīng)的動作值通過訓(xùn)練環(huán)境進行仿真,得到第三時刻環(huán)境狀態(tài)和第二時刻對應(yīng)的第二獎勵值; 所述根據(jù)所述第一時刻對應(yīng)的動作值,通過訓(xùn)練環(huán)境進行仿真,得到第二時刻環(huán)境狀態(tài)和第一時刻對應(yīng)的獎勵值,包括: 根據(jù)所述第一時刻對應(yīng)的動作值通過訓(xùn)練環(huán)境進行仿真,得到第二時刻環(huán)境狀態(tài); 根據(jù)所述第二時刻環(huán)境狀態(tài)確定第二時刻下導(dǎo)彈對應(yīng)的前置角、導(dǎo)彈與目標的相對距離和導(dǎo)彈和目標的相對速度,導(dǎo)彈包括主彈和從彈; 當(dāng)導(dǎo)彈命中時,根據(jù)主彈命中時刻和從彈命中時刻確定所述第一時刻對應(yīng)的第一獎勵值; 當(dāng)導(dǎo)彈未命中時,根據(jù)導(dǎo)彈對應(yīng)的前置角、導(dǎo)彈與目標的相對距離和導(dǎo)彈和目標的相對速度,確定主彈對應(yīng)的預(yù)測命中時刻和從彈對應(yīng)的預(yù)測命中時刻;并根據(jù)主彈對應(yīng)的預(yù)測命中時刻和從彈對應(yīng)的預(yù)測命中時刻,確定所述第一時刻對應(yīng)的第一獎勵值。
如需購買、轉(zhuǎn)讓、實施、許可或投資類似專利技術(shù),可聯(lián)系本專利的申請人或?qū)@麢?quán)人西北工業(yè)大學(xué),其通訊地址為:710003 陜西省西安市友誼西路127號;或者聯(lián)系龍圖騰網(wǎng)官方客服,聯(lián)系龍圖騰網(wǎng)可撥打電話0551-65771310或微信搜索“龍圖騰網(wǎng)”。
1、本報告根據(jù)公開、合法渠道獲得相關(guān)數(shù)據(jù)和信息,力求客觀、公正,但并不保證數(shù)據(jù)的最終完整性和準確性。
2、報告中的分析和結(jié)論僅反映本公司于發(fā)布本報告當(dāng)日的職業(yè)理解,僅供參考使用,不能作為本公司承擔(dān)任何法律責(zé)任的依據(jù)或者憑證。


熱門推薦
- 華為技術(shù)有限公司韓靜獲國家專利權(quán)
- 日本電氣株式會社二木尚獲國家專利權(quán)
- 上海海和藥物研究開發(fā)有限公司李磊獲國家專利權(quán)
- 中興通訊股份有限公司吳釗獲國家專利權(quán)
- 武漢華星光電技術(shù)有限公司盧延濤獲國家專利權(quán)
- 廣州彩熠燈光有限公司劉建華獲國家專利權(quán)
- 第四范式(北京)技術(shù)有限公司姚權(quán)銘獲國家專利權(quán)
- 北京京東尚科信息技術(shù)有限公司楊牡丹獲國家專利權(quán)
- 卡爾蔡司光學(xué)國際有限公司C·格拉塞納普獲國家專利權(quán)
- 杭州唯強醫(yī)療科技有限公司王永勝獲國家專利權(quán)