西北工業(yè)大學都巖巍獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監(jiān)控用IP管家,真方便!
龍圖騰網獲悉西北工業(yè)大學申請的專利一種交互場景下的多智能體協(xié)同交互決策與控制方法獲國家發(fā)明授權專利權,本發(fā)明授權專利權由國家知識產權局授予,授權公告號為:CN120386386B 。
龍圖騰網通過國家知識產權局官網在2025-08-29發(fā)布的發(fā)明授權授權公告中獲悉:該發(fā)明授權的專利申請?zhí)?專利號為:202510880327.0,技術領域涉及:G05D1/656;該發(fā)明授權一種交互場景下的多智能體協(xié)同交互決策與控制方法是由都巖巍;張慶昊;許斌;張睿;盧俊國;朱震;譚富威;楊瑞設計研發(fā)完成,并于2025-06-27向國家知識產權局提交的專利申請。
本一種交互場景下的多智能體協(xié)同交互決策與控制方法在說明書摘要公布了:本發(fā)明提出一種交互場景下的多智能體協(xié)同交互決策與控制方法,首先各智能體獲取對抗場景的時序狀態(tài)信息;在各智能體的決策系統(tǒng)中,獲取的對抗場景時序狀態(tài)信息輸入LSTM網絡進行預測和特征提取,得到隱藏狀態(tài),將隱藏狀態(tài)輸入到SAC強化學習模型中,并通過設計的獎勵函數(shù)對LSTM網絡以及SAC強化學習模型進行訓練,最終得到各智能體的機動決策動作向量;各智能體以機動決策動作向量作為控制目標值,依據(jù)離散增量式PID控制器對智能體進行控制。該方法基于多智能體SAC強化學習算法,結合了LSTM時序處理和雙經驗回放機制,并通過設計合理的獎勵函數(shù)機制,在具有復雜動態(tài)物體的環(huán)境中,能夠快速預測動態(tài)物體的運動軌跡,對自身連續(xù)動作量進行準確決策。
本發(fā)明授權一種交互場景下的多智能體協(xié)同交互決策與控制方法在權利要求書中公布了:1.一種交互場景下的多智能體協(xié)同交互決策與控制方法,其特征在于:包括以下步驟: 步驟1:各智能體獲取對抗場景的時序狀態(tài)信息; 步驟2:在各智能體的決策系統(tǒng)中,獲取的對抗場景時序狀態(tài)信息輸入LSTM網絡進行預測和特征提取,得到隱藏狀態(tài)向量,用于作為后續(xù)強化學習的輸入; 步驟3:在各智能體的決策系統(tǒng)中,將步驟2得到的隱藏狀態(tài)向量輸入到SAC強化學習模型中,并通過設計的獎勵函數(shù)對LSTM網絡以及SAC強化學習模型進行訓練,最終得到各智能體的機動決策動作向量; 所述設計的獎勵函數(shù)包括角度優(yōu)勢獎勵,高度優(yōu)勢獎勵,速度優(yōu)勢獎勵和勝負獎勵,而且還添加了軌跡預測獎勵,最終獎勵函數(shù)為添加隨機權重的各獎勵函數(shù)之和; 各獎勵函數(shù)具體為: 角度優(yōu)勢獎勵: 為視線角; 高度優(yōu)勢獎勵: 其中,為設定的理想高度;為智能體自身高度,為高度安全區(qū)間; 速度優(yōu)勢獎勵: 其中,為智能體自身速度,為有效速度區(qū)間; 勝負獎勵: 若擊敗對方,則勝負獎勵取正值,若被對方擊敗,則勝負獎勵取負值; 軌跡預測獎勵: 其中,是LSTM網絡預測的對方智能體n在下一時間步的位置,是對方智能體n在下一時間步的實際位置; 最終得到的總獎勵函數(shù)為: 其中,表示各部分權重; 步驟4:各智能體通過步驟3得到機動決策動作向量后,以機動決策動作向量作為控制目標值,依據(jù)離散增量式PID控制器對智能體進行控制。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯(lián)系本專利的申請人或專利權人西北工業(yè)大學,其通訊地址為:710072 陜西省西安市碑林區(qū)友誼西路127號;或者聯(lián)系龍圖騰網官方客服,聯(lián)系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據(jù)公開、合法渠道獲得相關數(shù)據(jù)和信息,力求客觀、公正,但并不保證數(shù)據(jù)的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發(fā)布本報告當日的職業(yè)理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據(jù)或者憑證。