北京郵電大學(xué)胡錚獲國(guó)家專利權(quán)
買(mǎi)專利賣專利找龍圖騰,真高效! 查專利查商標(biāo)用IPTOP,全免費(fèi)!專利年費(fèi)監(jiān)控用IP管家,真方便!
龍圖騰網(wǎng)獲悉北京郵電大學(xué)申請(qǐng)的專利基于多智體強(qiáng)化學(xué)習(xí)的心智理論模型實(shí)現(xiàn)方法及裝置獲國(guó)家發(fā)明授權(quán)專利權(quán),本發(fā)明授權(quán)專利權(quán)由國(guó)家知識(shí)產(chǎn)權(quán)局授予,授權(quán)公告號(hào)為:CN115081617B 。
龍圖騰網(wǎng)通過(guò)國(guó)家知識(shí)產(chǎn)權(quán)局官網(wǎng)在2025-09-05發(fā)布的發(fā)明授權(quán)授權(quán)公告中獲悉:該發(fā)明授權(quán)的專利申請(qǐng)?zhí)?專利號(hào)為:202210635877.2,技術(shù)領(lǐng)域涉及:G06N3/092;該發(fā)明授權(quán)基于多智體強(qiáng)化學(xué)習(xí)的心智理論模型實(shí)現(xiàn)方法及裝置是由胡錚;譚奇明;張春紅;莊本輝設(shè)計(jì)研發(fā)完成,并于2022-06-06向國(guó)家知識(shí)產(chǎn)權(quán)局提交的專利申請(qǐng)。
本基于多智體強(qiáng)化學(xué)習(xí)的心智理論模型實(shí)現(xiàn)方法及裝置在說(shuō)明書(shū)摘要公布了:本申請(qǐng)?zhí)峁┮环N基于多智體強(qiáng)化學(xué)習(xí)的心智理論模型實(shí)現(xiàn)方法及裝置,該方法包括:基于心智理論模型建立原始聯(lián)合心智模型網(wǎng)絡(luò)以預(yù)測(cè)多個(gè)己方智能體的友方智能體的意圖特征信息;建立多智體強(qiáng)化學(xué)習(xí)的任務(wù)場(chǎng)景結(jié)合意圖特征信息,分級(jí)建模場(chǎng)景任務(wù)的主目標(biāo)及其子目標(biāo);通過(guò)主目標(biāo)的收斂后的主目標(biāo)實(shí)現(xiàn)算法和子目標(biāo)的規(guī)則化子目標(biāo)實(shí)現(xiàn)算法收集待使用數(shù)據(jù),以對(duì)原始聯(lián)合心智模型網(wǎng)絡(luò)進(jìn)行訓(xùn)練,通過(guò)目標(biāo)聯(lián)合心智模型網(wǎng)絡(luò)預(yù)測(cè)當(dāng)前己方智能體的意圖信息并將其添加至多智體算法的輸入信息,實(shí)現(xiàn)己方智能體的協(xié)同。本申請(qǐng)實(shí)施例提供的基于多智體強(qiáng)化學(xué)習(xí)的心智理論模型實(shí)現(xiàn)方法結(jié)合多智體強(qiáng)化學(xué)習(xí)、心智理論模型和任務(wù)場(chǎng)景,提升了多智能體的協(xié)同效果。
本發(fā)明授權(quán)基于多智體強(qiáng)化學(xué)習(xí)的心智理論模型實(shí)現(xiàn)方法及裝置在權(quán)利要求書(shū)中公布了:1.一種基于多智體強(qiáng)化學(xué)習(xí)的心智理論模型實(shí)現(xiàn)方法,其特征在于,包括: 基于心智理論模型建立原始聯(lián)合心智模型網(wǎng)絡(luò),通過(guò)所述原始聯(lián)合心智模型網(wǎng)絡(luò)預(yù)測(cè)多個(gè)己方智能體的友方智能體的意圖特征信息; 建立多智體強(qiáng)化學(xué)習(xí)的任務(wù)場(chǎng)景并結(jié)合所述意圖特征信息,分級(jí)建模所述任務(wù)場(chǎng)景的主目標(biāo)及其子目標(biāo); 對(duì)所述主目標(biāo)進(jìn)行訓(xùn)練,得到收斂后的主目標(biāo)實(shí)現(xiàn)算法,并基于平臺(tái)底層規(guī)則得到所述子目標(biāo)的規(guī)則化子目標(biāo)實(shí)現(xiàn)算法; 通過(guò)所述收斂后的主目標(biāo)實(shí)現(xiàn)算法和所述規(guī)則化子目標(biāo)實(shí)現(xiàn)算法收集待使用數(shù)據(jù)對(duì)所述原始聯(lián)合心智模型網(wǎng)絡(luò)進(jìn)行訓(xùn)練,得到目標(biāo)聯(lián)合心智模型網(wǎng)絡(luò); 通過(guò)所述目標(biāo)聯(lián)合心智模型網(wǎng)絡(luò)預(yù)測(cè)當(dāng)前己方智能體的意圖信息,并在多智體算法的訓(xùn)練過(guò)程中將所述意圖信息添加至所述多智體算法的輸入信息中,實(shí)現(xiàn)己方智能體的協(xié)同; 其中,智能體為無(wú)人機(jī),涉及的任務(wù)場(chǎng)景為基于多無(wú)人機(jī)空戰(zhàn)模擬平臺(tái)Xsim的多目標(biāo)覆蓋任務(wù)場(chǎng)景; 所述基于心智理論模型建立原始聯(lián)合心智模型網(wǎng)絡(luò),包括: 確定所述多個(gè)己方智能體的全局觀測(cè)信息,其中,所述全局觀測(cè)信息包括己方智能體信息和己方可觀測(cè)到的敵方智能體信息; 通過(guò)所述多個(gè)己方智能體的己方智能體信息和己方可觀測(cè)到的敵方智能體信息,對(duì)所述心智理論模型進(jìn)行訓(xùn)練,得到所述原始聯(lián)合心智模型網(wǎng)絡(luò); 所述心智理論模型用于預(yù)測(cè)每一個(gè)己方智能體的意圖,具體公式為: 其中,表示己方第i智能體的預(yù)測(cè)意圖,為網(wǎng)絡(luò)輸出特征再進(jìn)行一層softmax層計(jì)算后的意圖概率分布intenti1,…,intentiN,每一個(gè)元素都代表當(dāng)前己方智能體i選擇第j個(gè)意圖的概率,整體和為1;si表示第i個(gè)智能體的基本信息,se表示觀測(cè)到的敵方智能體整體信息,MLPθ表示以θ為參數(shù)的MLP網(wǎng)絡(luò); 所述通過(guò)所述原始聯(lián)合心智模型網(wǎng)絡(luò)預(yù)測(cè)多個(gè)己方智能體的友方智能體的意圖特征信息,包括: 通過(guò)所述原始聯(lián)合心智模型網(wǎng)絡(luò)對(duì)各個(gè)所述友方智能體的意圖概率分布進(jìn)行預(yù)測(cè),得到各個(gè)所述友方智能體的表層意圖信息; 通過(guò)所述原始聯(lián)合心智模型網(wǎng)絡(luò)對(duì)各個(gè)所述友方智能體的自身概率分布進(jìn)行預(yù)測(cè),得到各個(gè)所述友方智能體的深處意圖信息; 將各個(gè)所述友方智能體的表層意圖信息和深處意圖信息,確定為各個(gè)所述友方智能體的意圖特征信息; 所述建立多智體強(qiáng)化學(xué)習(xí)的任務(wù)場(chǎng)景并結(jié)合所述意圖特征信息,分級(jí)建模所述任務(wù)場(chǎng)景的主目標(biāo)及其子目標(biāo),包括: 確定多智體強(qiáng)化學(xué)習(xí)的任務(wù)場(chǎng)景,其中,所述任務(wù)場(chǎng)景的布局包括場(chǎng)景大小、作戰(zhàn)多方初始位置信息、任務(wù)目標(biāo)和最終任務(wù)評(píng)價(jià)指標(biāo); 將所述場(chǎng)景大小、所述作戰(zhàn)多方初始位置信息、所述任務(wù)目標(biāo)和所述最終任務(wù)評(píng)價(jià)指標(biāo)與所述意圖特征信息進(jìn)行結(jié)合,分級(jí)建模所述任務(wù)場(chǎng)景的主目標(biāo)及其子目標(biāo); 所述分級(jí)建模所述任務(wù)場(chǎng)景的主目標(biāo)及其子目標(biāo),包括: 將己方智能體選擇不同的敵方智能體作為覆蓋目標(biāo)的過(guò)程建模為己方智能體主目標(biāo); 將己方智能體追擊當(dāng)前目標(biāo)敵方智能體建模為主目標(biāo)的子目標(biāo); 所述對(duì)所述主目標(biāo)進(jìn)行訓(xùn)練,得到收斂后的主目標(biāo)實(shí)現(xiàn)算法,并基于平臺(tái)底層規(guī)則得到所述子目標(biāo)的規(guī)則化子目標(biāo)實(shí)現(xiàn)算法,包括: 通過(guò)多智能體強(qiáng)化學(xué)習(xí)算法并以己方智能體信息和己方可觀測(cè)到的敵方智能體信息為輸入,以己方智能體選擇的覆蓋目標(biāo)為輸出,對(duì)所述主目標(biāo)進(jìn)行訓(xùn)練,得到所述收斂后的主目標(biāo)實(shí)現(xiàn)算法; 對(duì)己方智能體選定的目標(biāo)進(jìn)行追擊并基于所述平臺(tái)底層規(guī)則,得到所述規(guī)則化子目標(biāo)實(shí)現(xiàn)算法。
如需購(gòu)買(mǎi)、轉(zhuǎn)讓、實(shí)施、許可或投資類似專利技術(shù),可聯(lián)系本專利的申請(qǐng)人或?qū)@麢?quán)人北京郵電大學(xué),其通訊地址為:100876 北京市海淀區(qū)西土城路10號(hào);或者聯(lián)系龍圖騰網(wǎng)官方客服,聯(lián)系龍圖騰網(wǎng)可撥打電話0551-65771310或微信搜索“龍圖騰網(wǎng)”。
1、本報(bào)告根據(jù)公開(kāi)、合法渠道獲得相關(guān)數(shù)據(jù)和信息,力求客觀、公正,但并不保證數(shù)據(jù)的最終完整性和準(zhǔn)確性。
2、報(bào)告中的分析和結(jié)論僅反映本公司于發(fā)布本報(bào)告當(dāng)日的職業(yè)理解,僅供參考使用,不能作為本公司承擔(dān)任何法律責(zé)任的依據(jù)或者憑證。
- 青島海爾股份有限公司苗建林獲國(guó)家專利權(quán)
- 中核新科(天津)精密機(jī)械制造有限公司齊鐵城獲國(guó)家專利權(quán)
- 波士頓科學(xué)國(guó)際有限公司馬丁·G·福蘭獲國(guó)家專利權(quán)
- 華子昂獲國(guó)家專利權(quán)
- 東莞市朋志生物科技有限公司崔鵬獲國(guó)家專利權(quán)
- 北京奇虎科技有限公司董健獲國(guó)家專利權(quán)
- 廣東美芝制冷設(shè)備有限公司林少坤獲國(guó)家專利權(quán)
- 國(guó)立大學(xué)法人廣島大學(xué)田原榮俊獲國(guó)家專利權(quán)
- 日月光半導(dǎo)體制造股份有限公司何政霖獲國(guó)家專利權(quán)
- 三星電子株式會(huì)社羅希特·庫(kù)馬爾獲國(guó)家專利權(quán)


熱門(mén)推薦
- 舒可士(深圳)科技有限公司孟凡迪獲國(guó)家專利權(quán)
- 谷歌有限責(zé)任公司阿基·奧斯卡里·庫(kù)塞拉獲國(guó)家專利權(quán)
- 岡本株式會(huì)社大西修獲國(guó)家專利權(quán)
- 生命明療法股份有限公司約翰·巴克斯特爾·比金斯獲國(guó)家專利權(quán)
- 青島海爾股份有限公司朱小兵獲國(guó)家專利權(quán)
- 三星電機(jī)株式會(huì)社金虎潤(rùn)獲國(guó)家專利權(quán)
- 惠普發(fā)展公司,有限責(zé)任合伙企業(yè)V·卡斯珀基克獲國(guó)家專利權(quán)
- 浙江富瑞汽車配件有限公司何建洲獲國(guó)家專利權(quán)
- 上海鈞正網(wǎng)絡(luò)科技有限公司楊磊獲國(guó)家專利權(quán)
- 廣東美芝精密制造有限公司小津政雄獲國(guó)家專利權(quán)