中國電子科技集團公司第十五研究所李國偉獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網獲悉中國電子科技集團公司第十五研究所申請的專利一種基于隊友表征與激勵通信的多智能體協同決策方法獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN120337980B 。
龍圖騰網通過國家知識產權局官網在2025-09-02發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202510812835.5,技術領域涉及:G06N3/006;該發明授權一種基于隊友表征與激勵通信的多智能體協同決策方法是由李國偉;周宇;易坤;李宇哲;楊軒;王路達設計研發完成,并于2025-06-18向國家知識產權局提交的專利申請。
本一種基于隊友表征與激勵通信的多智能體協同決策方法在說明書摘要公布了:本發明公開了一種基于隊友表征與激勵通信的多智能體協同決策方法,涉及多智能體強化學習領域,包括對每個智能體執行:基于當前觀測值和前一時刻動作,通過多層感知機和門控循環單元處理生成歷史軌跡表征;通過本地動作值函數分支生成本地動作值函數;通過隊友表征模塊和消息生成模塊生成發送給隊友智能體的消息;對所有隊友智能體發送的消息進行求和,作為激勵項添加到本地動作值函數中;通過混合神經網絡融合所有智能體修正后的本地動作值函數,獲得團隊總體值函數并生成協同決策動作。其通過隊友行為預測和動態注意力通信機制,提升了多智能體協同效率與決策精度,實現低冗余稀疏通信,并確保系統訓練穩定性及大規模擴展能力。
本發明授權一種基于隊友表征與激勵通信的多智能體協同決策方法在權利要求書中公布了:1.一種基于隊友表征與激勵通信的多智能體協同決策方法,其特征在于,包括對多智能體系統中的每個智能體i執行以下步驟: S1、基于當前觀測值和前一時刻動作,通過多層感知機和門控循環單元處理,生成歷史軌跡表征; S2、將歷史軌跡表征輸入至本地動作值函數分支,通過多層感知機生成本地動作值函數;且將歷史軌跡表征輸入至隊友表征模塊和消息生成模塊處理,生成發送給隊友智能體的消息; 隊友表征模塊處理包括:根據歷史軌跡表征和隊友編號,通過編碼器計算多維高斯分布;其中,多維高斯分布的維度與智能體動作空間維度相同,表示隊友智能體在各個維度上的動作選擇概率;表示動作均值向量,表示動作方差向量;基于所述多維高斯分布,采樣獲得隊友表征向量;隊友表征模塊中,采用最大化互信息策略進行優化,包括: 定義互信息目標,;引入變分自動編碼器計算變分分布,以KL散度作為損失函數:其中,包括編碼器參數和變分參數; S3、對所有隊友智能體發送的消息進行求和,并將求和結果作為激勵項添加到本地動作值函數中,獲得修正后的本地動作值函數:其中,表示智能體j向智能體i發送的消息; S4、通過混合神經網絡融合所有智能體修正后的本地動作值函數,獲得團隊總體值函數并生成協同決策動作。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人中國電子科技集團公司第十五研究所,其通訊地址為:100083 北京市海淀區北四環中路211號;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。