中國人民解放軍國防科技大學張龍飛獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網獲悉中國人民解放軍國防科技大學申請的專利基于數據增強的逐像素Q值估計離線強化學習方法和裝置獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN115272790B 。
龍圖騰網通過國家知識產權局官網在2025-09-09發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202210833694.1,技術領域涉及:G06V10/774;該發明授權基于數據增強的逐像素Q值估計離線強化學習方法和裝置是由張龍飛;馮旸赫;張馭龍;劉忠;黃金才;程光權;陳麗;梁星星;吳克宇;陽方杰設計研發完成,并于2022-07-15向國家知識產權局提交的專利申請。
本基于數據增強的逐像素Q值估計離線強化學習方法和裝置在說明書摘要公布了:本申請涉及一種基于數據增強的逐像素Q值估計離線強化學習方法和裝置。所述方法包括:通過從離線數據集中采樣小批量的原始輸入觀測,通過常見的圖像變換算法對小批量的原始輸入觀測進行數據增強,并對輸入觀測的Q值進行正則化處理,最終訓練得到用于決策的Q值網絡。本發明通過使用標準增量方法擴大訓練數據集,通過正則化輸入觀測的Q值避免高估離線數據集數據分布附近的數據,并顯著提升了算法泛化性;將數據增強與基于像素觀測的離線RL算法結合起來的方法,不需要對底層RL算法進行額外修改,使得該方法易于實現,并可擴展應用到其他基于Q值估計的離線RL算法,可擴展性強,實用性佳。
本發明授權基于數據增強的逐像素Q值估計離線強化學習方法和裝置在權利要求書中公布了:1.一種基于數據增強的逐像素Q值估計離線強化學習方法,其特征在于,所述方法包括: 根據預先獲取的智能體視覺控制的離線數據集,從所述離線數據集中采樣小批量的原始輸入觀測; 通過常見的圖像變換算法對所述小批量的原始輸入觀測進行數據增強;每一小批量的數據由batch個數據組s,a,r,s′組成,其中batch為小批量數據的數量,s代表當前時刻圖像堆棧,s′代表下一時刻的圖像堆棧,a表示當前時刻智能體采取的動作,r表示智能體在當前時刻s采取動作a后得到的環境獎勵反饋;每個所述圖像堆棧中包含若干個連續幀堆疊的原始觀測圖像;圖像堆棧s和s′分別進行K次和M次數據增強后,分別得到第一擴充樣本和第二擴充樣本;所述第一擴充樣本中包括K個輸入觀測,所述第二擴充樣本中包括M個輸入觀測;每一圖像堆棧內的圖像變換算法的參數設置一致,各圖像堆棧的圖像變換算法參數隨機設置; 通過預設的Q值估計網絡得到所述第一擴充樣本中K個輸入觀測的Q值,將K個輸入觀測的平均Q值作為對應原始輸入觀測的預測Q值;所述Q值估計網絡為任意使用Q值估計的離線強化學習網絡; 通過預設的Q值目標網絡得到所述第二擴充樣本中M個輸入觀測的Q值,根據M個輸入觀測的Q值,基于TD-error計算對應原始輸入觀測的目標Q值;所述Q值目標網絡與所述Q值估計網絡使用相同網絡架構; 根據所述預測Q值和所述目標Q值,通過最小化MSE均方誤差損失函數對所述Q值估計網絡的參數進行更新; 根據更新后的所述Q值估計網絡的參數對所述Q值目標網絡的參數進行軟更新,直到達到預設時間步停止更新; 以完成更新的Q值估計網絡為最終學習到的Q值估計強化學習網絡。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人中國人民解放軍國防科技大學,其通訊地址為:410073 湖南省長沙市開福區德雅路109號;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。