中國(guó)人民解放軍火箭軍工程大學(xué)劉延飛獲國(guó)家專(zhuān)利權(quán)
買(mǎi)專(zhuān)利賣(mài)專(zhuān)利找龍圖騰,真高效! 查專(zhuān)利查商標(biāo)用IPTOP,全免費(fèi)!專(zhuān)利年費(fèi)監(jiān)控用IP管家,真方便!
龍圖騰網(wǎng)獲悉中國(guó)人民解放軍火箭軍工程大學(xué)申請(qǐng)的專(zhuān)利基于進(jìn)化課程學(xué)習(xí)的多智能體強(qiáng)化學(xué)習(xí)方法和系統(tǒng)獲國(guó)家發(fā)明授權(quán)專(zhuān)利權(quán),本發(fā)明授權(quán)專(zhuān)利權(quán)由國(guó)家知識(shí)產(chǎn)權(quán)局授予,授權(quán)公告號(hào)為:CN120031100B 。
龍圖騰網(wǎng)通過(guò)國(guó)家知識(shí)產(chǎn)權(quán)局官網(wǎng)在2025-09-02發(fā)布的發(fā)明授權(quán)授權(quán)公告中獲悉:該發(fā)明授權(quán)的專(zhuān)利申請(qǐng)?zhí)?專(zhuān)利號(hào)為:202510495200.7,技術(shù)領(lǐng)域涉及:G06N3/092;該發(fā)明授權(quán)基于進(jìn)化課程學(xué)習(xí)的多智能體強(qiáng)化學(xué)習(xí)方法和系統(tǒng)是由劉延飛;李超;王忠;李琪;王杰鈴;王蓓設(shè)計(jì)研發(fā)完成,并于2025-04-21向國(guó)家知識(shí)產(chǎn)權(quán)局提交的專(zhuān)利申請(qǐng)。
本基于進(jìn)化課程學(xué)習(xí)的多智能體強(qiáng)化學(xué)習(xí)方法和系統(tǒng)在說(shuō)明書(shū)摘要公布了:本發(fā)明公開(kāi)了一種基于進(jìn)化課程學(xué)習(xí)的多智能體強(qiáng)化學(xué)習(xí)方法和系統(tǒng),涉及多智能體決策技術(shù)領(lǐng)域。該方法包括以下步驟:在每個(gè)課程學(xué)習(xí)階段,首先對(duì)智能體進(jìn)行多種群的并行訓(xùn)練,以生成每種角色的多智能體初始種群;隨后,對(duì)初始種群執(zhí)行進(jìn)化種群選擇過(guò)程,以篩選出最優(yōu)種群用于下一課程學(xué)習(xí)的訓(xùn)練,重復(fù)該步驟直到達(dá)到設(shè)定的智能體數(shù)量,結(jié)束該訓(xùn)練過(guò)程。該方法有效解決了傳統(tǒng)課程學(xué)習(xí)中知識(shí)遷移適應(yīng)性差的問(wèn)題,提高了傳統(tǒng)課程學(xué)習(xí)的性能。此外,在最優(yōu)種群選擇過(guò)程中,通過(guò)對(duì)種群進(jìn)化過(guò)程的合理簡(jiǎn)化,實(shí)現(xiàn)了算法訓(xùn)練效率與性能的平衡。
本發(fā)明授權(quán)基于進(jìn)化課程學(xué)習(xí)的多智能體強(qiáng)化學(xué)習(xí)方法和系統(tǒng)在權(quán)利要求書(shū)中公布了:1.一種基于進(jìn)化課程學(xué)習(xí)的多智能體強(qiáng)化學(xué)習(xí)方法,其特征在于,所述方法應(yīng)用于基于進(jìn)化課程學(xué)習(xí)的多智能體強(qiáng)化學(xué)習(xí)系統(tǒng),所述系統(tǒng)包括多種角色的智能體且智能體個(gè)數(shù)不恒定,所述智能體有兩種角色,分別為巡邏無(wú)人機(jī)和送餐機(jī)器人,所述方法包括: 對(duì)第個(gè)學(xué)習(xí)階段系統(tǒng)中的智能體進(jìn)行多次訓(xùn)練,生成每種角色的多個(gè)第個(gè)學(xué)習(xí)階段的初始種群,其中,每種角色的第個(gè)學(xué)習(xí)階段的初始種群包括的智能體數(shù)量為其第個(gè)學(xué)習(xí)階段設(shè)定的智能體數(shù); 從每種角色的第個(gè)學(xué)習(xí)階段訓(xùn)練的初始種群中選擇適應(yīng)度最好的前個(gè)種群執(zhí)行進(jìn)化操作,得到每種角色的多個(gè)第個(gè)學(xué)習(xí)階段的最優(yōu)種群,其中,每種角色的所述第個(gè)學(xué)習(xí)階段的最優(yōu)種群用于第+1個(gè)學(xué)習(xí)階段的訓(xùn)練學(xué)習(xí); 確定所述第個(gè)學(xué)習(xí)階段系統(tǒng)的智能體數(shù)量是否小于設(shè)定的最大智能體數(shù); 若所述第個(gè)學(xué)習(xí)階段系統(tǒng)的智能體數(shù)量不小于所述最大智能體數(shù),則結(jié)束訓(xùn)練,得到訓(xùn)練好的智能體,其中,訓(xùn)練好的巡邏無(wú)人機(jī)用于巡邏,訓(xùn)練好的送餐機(jī)器人用于送餐; 其中,所述從每種角色的第個(gè)學(xué)習(xí)階段訓(xùn)練的初始種群中選擇適應(yīng)度最好的前個(gè)種群執(zhí)行進(jìn)化操作,得到每種角色的多個(gè)第個(gè)學(xué)習(xí)階段的最優(yōu)種群,包括: 基于選擇概率從每種角色的第個(gè)學(xué)習(xí)階段訓(xùn)練的初始種群中選擇適應(yīng)度最好的前個(gè)種群進(jìn)行競(jìng)爭(zhēng),得到每種角色的第個(gè)學(xué)習(xí)階段的競(jìng)爭(zhēng)后的種群,其中,種群的適應(yīng)度是根據(jù)種群中所有智能體的性能和穩(wěn)定性確定的; 從所述第個(gè)學(xué)習(xí)階段的競(jìng)爭(zhēng)后的種群中選擇前個(gè)適應(yīng)度最好的種群進(jìn)行交叉融合操作,得到每種角色的第個(gè)學(xué)習(xí)階段的交叉融合后的種群; 對(duì)所述第個(gè)學(xué)習(xí)階段的交叉融合后的種群進(jìn)行變異操作,得到所述第個(gè)學(xué)習(xí)階段的最優(yōu)種群; 其中,所述從所述第個(gè)學(xué)習(xí)階段的競(jìng)爭(zhēng)后的種群中選擇前個(gè)適應(yīng)度最好的種群進(jìn)行交叉融合操作,得到每種角色的第個(gè)學(xué)習(xí)階段的交叉融合后的種群,包括; 從所述第個(gè)學(xué)習(xí)階段的競(jìng)爭(zhēng)后的種群中選擇前個(gè)適應(yīng)度最好的種群進(jìn)行組內(nèi)交叉,并執(zhí)行模型重載和經(jīng)驗(yàn)重用操作,得到第個(gè)學(xué)習(xí)階段組內(nèi)交叉后的種群; 對(duì)所述第個(gè)學(xué)習(xí)階段組內(nèi)交叉后的種群進(jìn)行組間交叉,并執(zhí)行模型重載和經(jīng)驗(yàn)重用操作,得到所述第個(gè)學(xué)習(xí)階段的交叉融合后的種群; 其中,所述模型重載操作包括:復(fù)制前個(gè)適應(yīng)度最好的第個(gè)學(xué)習(xí)階段的競(jìng)爭(zhēng)后的種群中智能體的模型參數(shù); 其中,所述經(jīng)驗(yàn)重用操作包括:從所述前個(gè)適應(yīng)度最好的第個(gè)學(xué)習(xí)階段的競(jìng)爭(zhēng)后的種群中抽取前-1個(gè)學(xué)習(xí)階段的經(jīng)驗(yàn)回放數(shù)據(jù)并保存; 其中,每個(gè)智能體內(nèi)均設(shè)置有策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò),所述策略網(wǎng)絡(luò)包括第一編碼網(wǎng)絡(luò)和策略子網(wǎng)絡(luò),所述價(jià)值網(wǎng)絡(luò)均包括第二編碼網(wǎng)絡(luò)和價(jià)值子網(wǎng)絡(luò),所述第一編碼網(wǎng)絡(luò)和所述第二編碼網(wǎng)絡(luò)的結(jié)構(gòu)相同; 所述第二編碼網(wǎng)絡(luò)包括:多個(gè)第一多層感知機(jī)、第一注意力層、第二注意力層和第二多層感知機(jī); 第個(gè)智能體內(nèi)的第一多層感知機(jī)用于對(duì)所述第個(gè)智能體自身的觀測(cè)向量和動(dòng)作向量進(jìn)行維度變換,得到第一預(yù)設(shè)維度的動(dòng)作向量和第一預(yù)設(shè)維度的觀測(cè)子向量,其中,所述觀測(cè)子向量為所述第個(gè)智能體自身的觀測(cè)向量的行向量或者列向量; 所述第個(gè)智能體內(nèi)的第一注意力層用于對(duì)所述第個(gè)智能體觀測(cè)其他智能體得到的第一預(yù)設(shè)維度的觀測(cè)子向量進(jìn)行編碼嵌入,得到第一編碼向量; 所述第個(gè)智能體內(nèi)的第二注意力層用于對(duì)所述第個(gè)智能體觀測(cè)障礙物得到的第一預(yù)設(shè)維度的觀測(cè)子向量進(jìn)行編碼嵌入,得到第二編碼向量; 所述第個(gè)智能體內(nèi)的第二多層感知機(jī)用于對(duì)所述第個(gè)智能體觀測(cè)自身得到的第一預(yù)設(shè)維度的觀測(cè)子向量、所述第一編碼向量、所述第二編碼向量及所述第一預(yù)設(shè)維度的動(dòng)作向量進(jìn)行嵌入連接,得到第二預(yù)設(shè)維度的嵌入向量。
如需購(gòu)買(mǎi)、轉(zhuǎn)讓、實(shí)施、許可或投資類(lèi)似專(zhuān)利技術(shù),可聯(lián)系本專(zhuān)利的申請(qǐng)人或?qū)@麢?quán)人中國(guó)人民解放軍火箭軍工程大學(xué),其通訊地址為:710025 陜西省西安市灞橋區(qū)同心路2號(hào);或者聯(lián)系龍圖騰網(wǎng)官方客服,聯(lián)系龍圖騰網(wǎng)可撥打電話0551-65771310或微信搜索“龍圖騰網(wǎng)”。
1、本報(bào)告根據(jù)公開(kāi)、合法渠道獲得相關(guān)數(shù)據(jù)和信息,力求客觀、公正,但并不保證數(shù)據(jù)的最終完整性和準(zhǔn)確性。
2、報(bào)告中的分析和結(jié)論僅反映本公司于發(fā)布本報(bào)告當(dāng)日的職業(yè)理解,僅供參考使用,不能作為本公司承擔(dān)任何法律責(zé)任的依據(jù)或者憑證。
- 中興通訊股份有限公司石靖獲國(guó)家專(zhuān)利權(quán)
- 市光法雷奧(佛山)汽車(chē)照明系統(tǒng)有限公司倪澤斌獲國(guó)家專(zhuān)利權(quán)
- 上海中屹電器設(shè)備有限公司鄒義獲國(guó)家專(zhuān)利權(quán)
- IDAC控股公司米歇爾·佩拉斯獲國(guó)家專(zhuān)利權(quán)
- 格科微電子(上海)有限公司楊偉成獲國(guó)家專(zhuān)利權(quán)
- 深圳市康普電子科技有限公司葉珍珍獲國(guó)家專(zhuān)利權(quán)
- 三星電子株式會(huì)社金省佑獲國(guó)家專(zhuān)利權(quán)
- 波音公司張博宇獲國(guó)家專(zhuān)利權(quán)
- 江蘇亞星波紋管有限公司朱根龍獲國(guó)家專(zhuān)利權(quán)
- 京東方科技集團(tuán)股份有限公司魏玉龍獲國(guó)家專(zhuān)利權(quán)


熱門(mén)推薦
- 華為技術(shù)有限公司基多·蒙托里西獲國(guó)家專(zhuān)利權(quán)
- 天野酶制品株式會(huì)社藤岡裕起獲國(guó)家專(zhuān)利權(quán)
- 平安科技(深圳)有限公司蔣英明獲國(guó)家專(zhuān)利權(quán)
- 騰訊科技(深圳)有限公司何珂獲國(guó)家專(zhuān)利權(quán)
- 中興通訊股份有限公司崔曉光獲國(guó)家專(zhuān)利權(quán)
- 富士施樂(lè)株式會(huì)社浜津誠(chéng)獲國(guó)家專(zhuān)利權(quán)
- 浙江大學(xué)城市學(xué)院劉麗獲國(guó)家專(zhuān)利權(quán)
- 松下知識(shí)產(chǎn)權(quán)經(jīng)營(yíng)株式會(huì)社河本弘和獲國(guó)家專(zhuān)利權(quán)
- 旺宏電子股份有限公司賴(lài)二琨獲國(guó)家專(zhuān)利權(quán)
- LG伊諾特有限公司全聲宰獲國(guó)家專(zhuān)利權(quán)