北京航空航天大學夏春和獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網獲悉北京航空航天大學申請的專利基于WMSRL模型的機器人避障方法獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN118625809B 。
龍圖騰網通過國家知識產權局官網在2025-09-09發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202410790268.3,技術領域涉及:G05D1/43;該發明授權基于WMSRL模型的機器人避障方法是由夏春和;黃維東;王天博;周偉東;李化成設計研發完成,并于2024-06-19向國家知識產權局提交的專利申請。
本基于WMSRL模型的機器人避障方法在說明書摘要公布了:本發明公開了一種基于WMSRL模型的機器人避障方法,WMSRL模型運行在機器人運動協調控制模塊中。所述WMSRL模型包括有兩部分內容,一部分是在機器人安全探索過程中采用安全強化學習手段,另一部分是應用改進的世界模型進行機器人位姿信息的策略學習。經本發明避障方法處理后的機器人動作軌跡會在世界模型中模擬執行,從而預測機器人每個時刻狀態對應的獎勵、代價、獎勵回報值和代價回報值。本發明采用無模型的安全強化學習方法與改進的世界模型相結合,這種結合旨在提高對位姿信息利用率,從而更快地促進可行域內的策略收斂,并通過在世界模型中使用在線規劃以實現訓練和探索過程中代價的最小化。
本發明授權基于WMSRL模型的機器人避障方法在權利要求書中公布了:1.一種基于WMSRL模型的機器人避障方法,是在機器人運動協調控制模塊中增加了WMSRL模型;其特征在于機器人避障包括有下列步驟: 步驟一,機器人運動軌跡展開和獎勵值估計、代價值估計; 在WMSRL模型中設置當前時刻下的狀態轉移概率函數和獎勵函數; 表示在采取動作后,從當前狀態轉移到下一狀態的轉移概率; 表示在當前狀態執行動作并轉移到下一狀態時獲得的獎勵; 表示狀態空間; 令狀態空間中任意一狀態記為,初始狀態記為; 表示動作空間; 令動作空間中任意一動作記為; 表示狀態轉移概率標志符; 表示獎勵集標志符; 表示代價集,且,其中是代價函數,是代價閾值,下角標表示代價閾值標識號,表示代價閾值的總個數; 令代價集中任意一代價記為; 是初始狀態分布,且; 是折扣因子,且; 是機器人運動的當前時刻; 是機器人運動的前一時刻; 是機器人運動的后一時刻; 使用表示狀態轉移概率矩陣;所述中任意一元素用狀態表征為,且; 表示穩態策略下的概率標志符; 是需要學習的網絡參數; 表示實數空間,上角標表示維數; 表示矩陣的狀態元素; 表示在穩態策略下的采取動作后,從當前狀態轉移到下一狀態的狀態轉移概率; 狀態轉移概率矩陣中任意一元素是通過執行穩態策略從當前狀態轉移到下一狀態的一步狀態轉移概率;當所有元素完成一步狀態轉移后,最后,將作為在穩態策略下從初始狀態開始的馬爾可夫鏈的穩態狀態分布,然而將作為在穩態策略下初始分布上的折扣狀態訪問分布; 表示在穩態策略下馬爾可夫鏈的穩態狀態; 表示當前時刻下的折扣因子; 表示在穩態策略下當前狀態的轉移概率; 是初始狀態分布,且; 表示在穩態策略下初始分布上的折扣狀態; 其中,無限時間折扣獎勵函數定義為: ; 表示獎勵函數; 表示期望值; 表示當前時刻下的折扣因子; 表示在狀態執行動作并轉移到下一狀態時獲得的獎勵; 是初始狀態分布,且; 表示穩態策略下的概率標志; 其中,無限時間折扣代價函數定義為: ; 下角標表示代價閾值標識號; 表示在狀態執行動作并轉移到下一狀態時獲得的折扣代價; 定義可行策略集合為: ; 是代價閾值; 其中,約束馬爾可夫模型CMDP的目標是在中搜索最優策略為: ; 表示穩態策略下的概率標志; 表示可行策略集合; 表示獎勵函數; 修正機器人運動避障過程的狀態轉移概率函數,將基于機器人世界模型的安全強化學習問題定義如下: ; ; ; 表示穩態策略下的概率標志; 表示所有穩態策略的集合,且; 表示安全強化學習模型中獎勵函數; 表示安全強化學習模型中代價函數; 表示指定的一個避障安全約束閾值; 表示在狀態執行動作并轉移到下一狀態時獲得的獎勵; 表示初始狀態; 是初始狀態分布,且; 是一個由參數化的世界模型; 表示指定的一個代價函數; 安全規劃算法OSRP的設計為:在僅依賴視覺的安全任務中將模型規劃與安全約束相結合;SR-MPC算法采用了約束交叉熵方法CCEM進行規劃,并使用強化學習模型對、、和分別進行預測;此外,還采用了獎勵估值和代價估值以及獎勵驅動的策略網絡π_θ來指導規劃過程; 表示預測狀態序列; 表示預測動力學狀態; 表示預測獎勵值; 表示預測代價值; 首先,初始化在步長長度為的時間范圍內每個動作的獨立參數,即動作參數,其中;接下來,使用世界模型獨立地采樣條軌跡,并估計它們在規劃視野之外的無限時間折扣獎勵值和無限時間折扣代價值,這個估計是通過引入基于自舉的returns來實現的: ; ; 表示當前狀態; 表示當前狀態的獎勵值returns; 上角標是returns的值; 表示下一狀態的獎勵值returns; 表示規劃步長; 表示當前狀態的預測獎勵值; 是折扣因子,且; 表示下一狀態的估計獎勵回報值; 表示到第步狀態的估計獎勵回報值; 使用代價模型的預測,在給定狀態的情況下,來評估步之內的總代價: ; 表示規劃步長; 表示當前時刻下的折扣因子; 表示序列模型; 表示當前狀態的預測代價值; 表示觀測編碼器; 表示正態分布; 表示單位矩陣; 是動作均值; 上角標表示迭代總次數,迭代次數; 表示前一次迭代的動作均值; 表示前一次迭代的動作方差; 使用所有軌跡的代價值作為的近似估計,其中是回合長度;同時,把作為評估軌跡安全性的標準; 步驟二,安全軌跡的獎勵值和代價值之間的權衡; 獎勵值和代價值之間的權衡通過以下方式實現:在計算了所有軌跡的代價值之后,將安全軌跡的數量表示為;如果低于期望的安全軌跡數量,則表明在當前狀態下找到安全軌跡很困難;因此,優先考慮安全性變得至關重要,而的值成為排序標準,記為,而整個采樣的機器人動作軌跡集合則成為候選動作集;相反,如果,則說明滿足安全約束的軌跡相對較容易找到;因此,獎勵值被用作排序標準,而安全動作軌跡內的動作被選擇為候選動作;從候選動作集中,選擇出排序標準對應的最大值,并以最大值對應的動作序列作為精英動作,依據在第次迭代中獲得第一參數和第二參數: ; ; 表示預定義的精英動作數量; 表示任意一個預定義的精英動作; 在達到預定的迭代次數后,機器人運動規劃過程結束;在每個決策機器人運動的當前時刻規劃出的動作軌跡的第一個動作的均值將被作為動作在真實環境中被執行; 步驟三,基于拉格朗日方法的機器人運動軌跡安全在線規劃; 當機器人避障過程中需要的危險檢測視野超過規劃視野時,在復雜的僅依靠視覺的任務中,規劃過程可能無法確保零代價違規;為了解決這個問題,利用代價批判者來估計規劃過程后期的預期代價;為了充分利用代價批判者的潛力,將PID拉格朗日方法集成到世界模型規劃框架中,從而得到OSRP-Lag算法,將步驟二中滿足時的排序標準調整為,其中是拉格朗日乘子;這意味著當機器人運動規劃過程中存在許多安全軌跡時,LAG-MPC算法將根據機器人歷史的約束違規情況動態調整拉格朗日乘子,在安全探索時持續保持謹慎; 步驟四,構建機器人運動軌跡的世界模型的組成部分; 改進的世界模型用于對來自步驟三中的機器人與環境交互的歷史數據進行訓練;這些數據包括觀測、動作、獎勵、代價和回合繼續標志符,時間長度為,表示為; 表示當前狀態; 表示當前動作; 表示下一狀態; 表示下一獎勵; 表示下一代價; 表示下一時刻回合繼續標志符; 改進的世界模型包括有序列模型記為、觀測編碼器記為、動力學模型記為、獎勵解碼器記為、代價解碼器記為、回合繼續標志符解碼器記為和觀測解碼器記為; 表示觀測編碼器預測的后驗分布; 表示動力學模型預測的先驗分布; 表示序列模型預測的隱藏狀態; 表示前一個動作; 表示在環境中實際接受到的觀測狀態; 表示當前獎勵; 表示當前代價; 表示當前回合繼續標志符; 采用門控循環單元(GRU);對于視覺輸入,使用卷積神經網絡(CNN)作為觀測編碼器和觀測解碼器,而對于低維輸入,則使用多層感知器(MLP);獎勵、代價、回合繼續標志符解碼器和動力學模型使用MLP實現;這個世界模型可以理解為一個序列變分自編碼器VAE,其中觀測編碼器的輸出充當近似后驗,它首先將觀測編碼為后驗分布,即的輸出,給定初始狀態和,以及前一個動作、循環狀態和,在世界模型訓練過程中使用序列模型預測下一個循環狀態;然而,在策略訓練或在線規劃期間,由于無法訪問真實的未來觀測,序列模型以自身的上一個輸出作為輸入而不是;動力學利用預測先驗分布,即的輸出;通過將和連接為模型訓練狀態,利用它來預測獎勵、代價和回合繼續標志符; 步驟五,計算世界模型的損失函數; 改進的世界模型的所有模塊都是聯合優化的;損失函數由兩個部分組成:KL散度損失和解碼器損失;給定一個批次大小為的序列,模型可以通過最小化以下損失來進行端到端優化: ; 損失函數由觀測、獎勵、代價和回合繼續標志符解碼器生成的分布與其對應標簽之間的對數似然構成: ; 表示觀測解碼器的損失函數; 表示觀測解碼器的損失函數的權重系數; 表示獎勵解碼器的損失函數; 表示獎勵解碼器的損失函數的權重系數; 表示代價解碼器的損失函數; 表示代價解碼器的損失函數的權重系數; 表示回合繼續標志符解碼器的損失函數; 表示回合繼續標志符解碼器的損失函數的權重系數; 處理視覺輸入時,各個權重系數、、和都設置為1.0;然而,在低維向量輸入的情況下,由于預測代價始終依賴于對觀測值的準確重構,被設置為5.0;損失函數通過測量動力學預測器和觀測編碼器之間的KL散度來計算;主要目標是訓練序列模型和動力學預測器,使用在時間之前可用的信息以生成一個先驗分布,該分布與使用編碼器獲得的后驗分布盡可能接近,這通過最小化的第二項來實現;同時,觀測編碼器被訓練以從觀測中提取相關信息,增強動力學預測器的預測能力,這通過最小化中的第一項來實現;損失函數計算方式如下: ; 表示被分布的兩個元素之間的KL散度; sg表示停止梯度操作符; 為第一常數系數; 為第二常數系數; 步驟六,基于演員-評論家模型的策略學習; 基于演員-評論家模型的策略學習過程中,將標記為演員,標記為獎勵批判者,將標記為代價批判者;使用改進的世界模型對模型訓練狀態進行預測,得到潛在狀態; 將批判者需要回歸的目標值離散化,然后訓練批判者網絡來預測每個離散值的twohotsoftmax概率,使用以下損失函數訓練獎勵和代價批判者網絡: ; ; ; 表示預定義的離散值的標號,使用255個離散值,,表示長度為255的離散值的數組,; twohot編碼將onehot編碼的概念擴展到連續值;因此,可以通過以下公式預測和恢復目標值: ; 其中symexp.symexp函數是symlog的反函數; 演員模型的目標函數是最大化預期獎勵和動作的熵;使用隨機反向傳播估計第一項的梯度,而第二項的梯度是通過解析計算得到的; ; 為固定的系數; 演員策略使用增廣拉格朗日方法進行更新,主要目標是在最大化預期獎勵的同時最小化預期代價,其損失函數如下: ; ; ; 表示狀態下獎勵值的returns; 表示狀態下代價值的returns; 表示當前梯度更新輪次; 表示當前梯度更新輪次的拉格朗日乘子; 表示當前梯度更新輪次的拉格朗日懲罰因子。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人北京航空航天大學,其通訊地址為:100191 北京市海淀區學院路37號;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。