<thead id="3jag6"><rt id="3jag6"><noscript id="3jag6"></noscript></rt></thead>
  • <s id="3jag6"><track id="3jag6"><menuitem id="3jag6"></menuitem></track></s>
        <sub id="3jag6"><p id="3jag6"></p></sub>

          <style id="3jag6"></style>
          国产精品久久久久久久网,人人妻人人澡人人爽国产,亚洲中文字幕无码爆乳APP,免费大片黄国产在线观看,无码抽搐高潮喷水流白浆,国产久免费热视频在线观看,国产亚洲精品成人aa片新蒲金,久久久97丨国产人妻熟女
          Document
          拖動滑塊完成拼圖
          個人中心

          預訂訂單
          服務訂單
          發布專利 發布成果 人才入駐 發布商標 發布需求

          在線咨詢

          聯系我們

          龍圖騰公眾號
          首頁 專利交易 IP管家助手 科技果 科技人才 科技服務 國際服務 商標交易 會員權益 需求市場 關于龍圖騰
           /  免費注冊
          到頂部 到底部
          清空 搜索
          當前位置 : 首頁 > 專利喜報 > 同濟大學劉成菊獲國家專利權

          同濟大學劉成菊獲國家專利權

          買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!

          龍圖騰網獲悉同濟大學申請的專利一種基于雙智能體競爭強化學習的機器人路徑探索方法獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN114372520B

          龍圖騰網通過國家知識產權局官網在2025-09-23發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202111637946.5,技術領域涉及:G06F18/214;該發明授權一種基于雙智能體競爭強化學習的機器人路徑探索方法是由劉成菊;陳啟軍;張浩設計研發完成,并于2021-12-29向國家知識產權局提交的專利申請。

          一種基于雙智能體競爭強化學習的機器人路徑探索方法在說明書摘要公布了:本發明涉及一種基于雙智能體競爭強化學習的機器人路徑探索方法,包括以下步驟:S1、構建馬爾科夫決策模型,初始化智能體和經驗池;S2、記錄智能體Agent1當前狀態st,探索k步記錄當前軌跡序列至經驗池Buffer1;S3、將智能體Agent2置于狀態st處,智能體Agent2探索k步,記錄當前軌跡序列至經驗池Buffer2;S4、以探索軌跡之間的相似度作為智能體Agent1的額外獎勵,相反數作為智能體Agent2的額外獎勵;S5、當經驗池中數據數數目滿足要求,更新智能體Agent1與Agent2的策略;S6、重復執行步驟S2?S5,直到智能體Agent1到達目標狀態或超出設定時間tlimit;S7、重復執行步驟S1?S6直到完成設定訓練劇集數。與現有技術相比,本發明使智能體能夠更有效的探索,加快訓練速度,提升樣本的利用效率,同時能夠有效消除隨機噪聲,更具有魯棒性。

          本發明授權一種基于雙智能體競爭強化學習的機器人路徑探索方法在權利要求書中公布了:1.一種基于雙智能體競爭強化學習的機器人路徑探索方法,其特征在于,該方法包括以下步驟: S1、構建馬爾科夫決策模型,初始化智能體Agent1與智能體Agent2,并初始化經驗池Buffer1與Buffer2; S2、記錄智能體Agent1當前狀態st,智能體Agent1依照現有策略探索k步,記錄當前軌跡序列至經驗池Buffer1; S3、將智能體Agent2置于狀態st處,智能體Agent2依照其策略探索k步,記錄當前軌跡序列至經驗池Buffer2; S4、使用交叉熵函數評估兩個智能體的探索軌跡之間的相似度作為智能體Agent1的額外獎勵,相似度的相反數作為智能體Agent2的額外獎勵,并更新經驗池Buffer1與Buffer2中對應軌的獎勵信息; S5、當經驗池中數據數數目滿足要求,更新智能體Agent1與Agent2的策略; S6、重復執行步驟S2-S5,直到智能體Agent1到達目標狀態或超出設定時間tlimit; S7、重復執行步驟S1-S6直到完成設定訓練劇集數;所述的步驟S1中,構建馬爾可夫決策模型,以智能體在當前位置可觀測的區域圖像作為當前狀態,在給定當前狀態st下,智能體按照策略πa|s選擇當前動作at與環境交互,并達到下一狀態st+1,獲得獎勵rt,智能體的目標是得到最優策略π★使得累計獎勵最大,所述的獎勵rt具體設置為: 當智能體到達目標位置,給予+100的獎勵,其余位置均給予-1的獎勵;所述的步驟S1中,智能體采用DDQN強化學習方法,初始化網絡Q,智能體的策略πa|s按照DDQN強化學習方法給定,具體選擇∈-greedy策略,則有: 其中,m為智能體的動作數目,即動作集合A={a1,a2,a3,a4,a5,a6,a7}的動作總數,a1,a2,a3,a4,a5,a6,a7分別表示智能體向前、向后、向左、向右移動一格、左轉、右轉及停在原地,∈為常數;所述的步驟S2中,設定步長k,智能體Agent1探索k步得到軌跡序列{s1 t,a1 t,s1 t+1,r1 t},{s1 t+1,a1 t+1,s1 t+2,r1 t+1}…{s1 t+k,a1 t+k,s1 t+k,r1 t+k}并存儲到經驗池Buffer1,智能體Agent1每一步的探索策略使用貪婪算法獲得當前動作;所述的步驟S3中,將智能體Agent2的位置至于Agent1的當前段探索初始位置探索k步得到軌跡序列{s2 t,a2 t,s2 t+1,r2 t},{s2 t+1,a2 t+1,s2 t+2,r2 t+1}…{s2 t+k,a2 t+k,s2 t+k,r2 t+k}并存儲到經驗池Buffer2,智能體Agent2每一步的探索策略使用貪婪算法獲得當前動作;所述的步驟S4中,從經驗池Buffer1和Buffer2中分別取出探索軌跡 將其分別標準化后得到軌跡T1和T2,獲取兩軌跡間交叉熵絕對值clipabs-∑T1logT2,0,1作為兩個軌跡T1和T2的相似度并更新軌跡獎勵λ為衰減系數。

          如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人同濟大學,其通訊地址為:200092 上海市楊浦區四平路1239號;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。

          以上內容由AI智能生成
          免責聲明
          1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
          2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。
          主站蜘蛛池模板: 国产亚洲一区二区三区成人| 香蕉免费一区二区三区| 国产精品一在线观看| 人妻有码中文字幕| 日韩国产丝袜人妻一二区| 久久精品国产亚洲不AV麻豆| 97se狠狠狠狼鲁亚洲综合网 | 深夜福利在线观看视频| 少妇人妻偷人精品视频1出轨| 亚洲色欲久久久久综合网| 欧美精品一区二区在线观看播放 | 国产亚洲精品久久久久久青梅| 色偷偷一区二区无码视频| 丁香五香天堂网| 久久疯狂做爰xxxⅹ高潮直播 | 国产偷国产偷亚洲清高孕妇| 午夜欧美艳情视频免费看| 亚洲日本va午夜蜜芽在线电影| 免费欧洲美女牲交视频| 免费毛片手机在线播放| 国产黄a三级三级三级av在线看| 国内精品久久久久久tv| 天天操夜夜操| 国产成a人片在线观看视频| 猫咪www免费人成网站| 久久精品精选| 国产在线拍揄自揄拍无码| 国产精品无码a∨麻豆| 无码av免费永久免费永久专区| 久久亚洲精品中文字幕无男同| 国产大学生自拍三级视频| 国产成人av在线免播放观看新| 忘忧草日本在线播放www| 韩国V欧美V亚洲V日本V| 天干天干啦夜天干天天爽| 国产成人亚洲影院在线观看| 国产嫖妓风韵犹存对白| 欧美肥老太牲交视频| 国产午夜福利视频合集| 国产普通话对白刺激| 看免费的无码区特aa毛片|