當前位置 : 首頁 > 專利喜報 > 同濟大學劉成菊獲國家專利權

同濟大學劉成菊獲國家專利權

買專利賣專利找龍圖騰，真高效！查專利查商標用IPTOP,全免費！專利年費監控用IP管家,真方便！

龍圖騰網獲悉同濟大學申請的專利一種基于雙智能體競爭強化學習的機器人路徑探索方法獲國家發明授權專利權，本發明授權專利權由國家知識產權局授予，授權公告號為：CN114372520B 。

龍圖騰網通過國家知識產權局官網在2025-09-23發布的發明授權授權公告中獲悉：該發明授權的專利申請號/專利號為：202111637946.5，技術領域涉及：G06F18/214；該發明授權一種基于雙智能體競爭強化學習的機器人路徑探索方法是由劉成菊;陳啟軍;張浩設計研發完成，并于2021-12-29向國家知識產權局提交的專利申請。

本一種基于雙智能體競爭強化學習的機器人路徑探索方法在說明書摘要公布了：本發明涉及一種基于雙智能體競爭強化學習的機器人路徑探索方法，包括以下步驟：S1、構建馬爾科夫決策模型，初始化智能體和經驗池；S2、記錄智能體Agent1當前狀態st，探索k步記錄當前軌跡序列至經驗池Buffer1；S3、將智能體Agent2置于狀態st處，智能體Agent2探索k步，記錄當前軌跡序列至經驗池Buffer2；S4、以探索軌跡之間的相似度作為智能體Agent1的額外獎勵，相反數作為智能體Agent2的額外獎勵；S5、當經驗池中數據數數目滿足要求，更新智能體Agent1與Agent2的策略；S6、重復執行步驟S2?S5，直到智能體Agent1到達目標狀態或超出設定時間tlimit；S7、重復執行步驟S1?S6直到完成設定訓練劇集數。與現有技術相比，本發明使智能體能夠更有效的探索，加快訓練速度，提升樣本的利用效率，同時能夠有效消除隨機噪聲，更具有魯棒性。

本發明授權一種基于雙智能體競爭強化學習的機器人路徑探索方法在權利要求書中公布了：1.一種基于雙智能體競爭強化學習的機器人路徑探索方法，其特征在于，該方法包括以下步驟： S1、構建馬爾科夫決策模型，初始化智能體Agent1與智能體Agent2，并初始化經驗池Buffer1與Buffer2； S2、記錄智能體Agent1當前狀態st，智能體Agent1依照現有策略探索k步，記錄當前軌跡序列至經驗池Buffer1； S3、將智能體Agent2置于狀態st處，智能體Agent2依照其策略探索k步，記錄當前軌跡序列至經驗池Buffer2； S4、使用交叉熵函數評估兩個智能體的探索軌跡之間的相似度作為智能體Agent1的額外獎勵，相似度的相反數作為智能體Agent2的額外獎勵，并更新經驗池Buffer1與Buffer2中對應軌的獎勵信息； S5、當經驗池中數據數數目滿足要求，更新智能體Agent1與Agent2的策略； S6、重復執行步驟S2-S5，直到智能體Agent1到達目標狀態或超出設定時間tlimit； S7、重復執行步驟S1-S6直到完成設定訓練劇集數；所述的步驟S1中，構建馬爾可夫決策模型，以智能體在當前位置可觀測的區域圖像作為當前狀態，在給定當前狀態st下，智能體按照策略πa|s選擇當前動作at與環境交互，并達到下一狀態st+1，獲得獎勵rt，智能體的目標是得到最優策略π★使得累計獎勵最大，所述的獎勵rt具體設置為：當智能體到達目標位置，給予+100的獎勵，其余位置均給予-1的獎勵；所述的步驟S1中，智能體采用DDQN強化學習方法，初始化網絡Q，智能體的策略πa|s按照DDQN強化學習方法給定，具體選擇∈-greedy策略，則有：其中，m為智能體的動作數目，即動作集合A＝{a1,a2,a3,a4,a5,a6,a7}的動作總數，a1,a2,a3,a4,a5,a6,a7分別表示智能體向前、向后、向左、向右移動一格、左轉、右轉及停在原地，∈為常數；所述的步驟S2中，設定步長k，智能體Agent1探索k步得到軌跡序列{s1 t,a1 t,s1 t+1,r1 t},{s1 t+1,a1 t+1,s1 t+2,r1 t+1}…{s1 t+k,a1 t+k,s1 t+k,r1 t+k}并存儲到經驗池Buffer1，智能體Agent1每一步的探索策略使用貪婪算法獲得當前動作；所述的步驟S3中，將智能體Agent2的位置至于Agent1的當前段探索初始位置探索k步得到軌跡序列{s2 t,a2 t,s2 t+1,r2 t},{s2 t+1,a2 t+1,s2 t+2,r2 t+1}…{s2 t+k,a2 t+k,s2 t+k,r2 t+k}并存儲到經驗池Buffer2，智能體Agent2每一步的探索策略使用貪婪算法獲得當前動作；所述的步驟S4中，從經驗池Buffer1和Buffer2中分別取出探索軌跡將其分別標準化后得到軌跡T1和T2，獲取兩軌跡間交叉熵絕對值clipabs-∑T1logT2,0,1作為兩個軌跡T1和T2的相似度并更新軌跡獎勵λ為衰減系數。

如需購買、轉讓、實施、許可或投資類似專利技術，可聯系本專利的申請人或專利權人同濟大學，其通訊地址為：200092 上海市楊浦區四平路1239號；或者聯系龍圖騰網官方客服，聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。

以上內容由AI智能生成

免責聲明
1、本報告根據公開、合法渠道獲得相關數據和信息，力求客觀、公正，但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解，僅供參考使用，不能作為本公司承擔任何法律責任的依據或者憑證。

龍圖騰網&IPTOP

設置信息完成注冊

手機號綁定多個賬號

同濟大學劉成菊獲國家專利權

熱門推薦

專利交易買賣與高校科技成果轉化平臺

專利交易

快速入口

知產工具

關于我們

咨詢服務