江蘇大學朱子軒獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網獲悉江蘇大學申請的專利一種結合深度強化學習和RSS策略的商用車隊列路徑規劃方法、控制器、存儲裝置獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN115079697B 。
龍圖騰網通過國家知識產權局官網在2025-09-09發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202210748792.5,技術領域涉及:G05D1/43;該發明授權一種結合深度強化學習和RSS策略的商用車隊列路徑規劃方法、控制器、存儲裝置是由朱子軒;蔡英鳳;陳龍;孫曉強;何友國;袁朝春;方嘯;陸文杰設計研發完成,并于2022-06-29向國家知識產權局提交的專利申請。
本一種結合深度強化學習和RSS策略的商用車隊列路徑規劃方法、控制器、存儲裝置在說明書摘要公布了:本發明公開了一種結合深度強化學習和RSS策略的商用車隊列路徑規劃方法、控制器、存儲裝置,引入A3C框架,利用多線程方法,讓車隊中的車輛同時在多個線程里面分別和環境進行交互學習,每個線程都把學習的成果匯總起來,整理保存在Global_net。并且,定期從Global_net把車隊中不同車輛的學習成果拿回來,指導自己和環境后面的學習交互。同時,使用Lattice算法,取ST圖進行速度規劃,能夠有效地提高車隊行駛的穩定性和舒適性,保證商用車行駛軌跡的平順性。最后,本發明結合一種安全約束RSS策略,基于數學公式的自動駕駛汽車安全策略為隱性規則提供了一個框架,從而實現了與道路上其他參與者的有機融合,可以有效地解決隊列行駛遇到其他車輛匯入時的安全問題。
本發明授權一種結合深度強化學習和RSS策略的商用車隊列路徑規劃方法、控制器、存儲裝置在權利要求書中公布了:1.一種結合深度強化學習和RSS策略的商用車隊列路徑規劃方法,其特征在于,包括如下步驟: S1、設計時序鳥瞰圖作為策略網絡的狀態量; S2、進行Frenet坐標變換,從特征鳥瞰圖中獲得當前時刻智能體的狀態量并將動作空間設計為軌跡的縱向末狀態:其中,s為Frenet坐標系下的縱向位移,為Frenet坐標系下縱向位移s關于時間t的一階導數,為Frenet坐標系下縱向位移s關于時間t的二階導數, S3、將所獲得的狀態量和動作空間作為策略網絡輸入,利用策略梯度算法改進Lattice規劃算法,同時結合RSS策略設計獎勵函數,訓練出智能體的末狀態縱向狀態; 所述策略網絡πθz,a包括卷積特征提取網絡CNN和全連接網絡FCN;其中z為策略網絡的輸入狀態量,包括時序鳥瞰圖矩陣和自車的歷史軌跡;a為策略網絡的輸出,即規劃軌跡的末狀態θ為網絡的權重和偏置參數,卷積特征提取網絡CNN的輸入為上述的時空鳥瞰圖矩陣,輸出為最終提取的環境特征信息,全連接網絡FCN的輸入為卷積特征提取網絡CNN輸出的環境特征信息和自動駕駛汽車的歷史軌跡信息,輸出為軌跡的末狀態 策略網絡的卷積神經網絡包括三層卷積層,兩層池化層和三層全連接層,輸入層將3個256*256*3的矩陣合并為256*256*9的矩陣;所述的卷積層Conv1由3*3*9*32,步長stride=2的卷積核組成,其輸入是輸入層的輸出,為256*256*9的矩陣,其輸出為128*128*32的特征;所述的池化層Pool1由2*2,步長stride=2的池化核組成,其輸入是卷積層Conv1的輸出,為128*128*32的特征,其輸出為64*64*32的特征;所述的卷積層Conv2由3*3*32*64,步長stride=2的卷積核組成,其輸入是池化層Pool1的輸出,為64*64*32的特征,其輸出為32*32*128的特征;所述的池化層Pool2由2*2,步長stride=2的池化核組成,其輸入是卷積層Conv2的輸出,為32*32*128的特征,其輸出為16*16*128的特征;所述的卷積層Conv3由3*3*128*128,步長stride=2的卷積核組成,其輸入是池化層Pool2的輸出,為16*16*128的特征,其輸出為8*8*128的特征;所述的全連接層FC的尺寸為8*8*128*512,其輸入是卷積層Conv3的輸出,為8*8*128的特征,其輸出為1*1*512的特征,所述的全連接層FC-μ和全連接層FC-σ為并聯結構,輸入均是卷積神經網絡提取的特征,為1*1*512的特征,全連接層FC-μ的輸出為1*1*512的特征,全連接層FC-σ的輸出為1*1*512的特征,全連接層FC-μ和全連接層FC-σ提取的特征共同構成狀態特征z; 所述策略網絡的獎勵函數設計如下: reward=k1·rspeed+k2·racc+k3·rsafe 其中,k1~k3為每部分獎勵對應的比例系數,rspeed為速度獎勵,目標為將車速保持在目標車速,vtarget為期望目標車速,ttotal為該軌跡以時間為單位對應的軌跡點的個數,vt為規劃軌跡在時間t處的車速: 其中racc為縱向舒適度獎勵,目標為保持較小的縱向加加速度,為規劃軌跡在時間t處的縱向加速度: 其中rsafe為安全獎勵,目標為生成的軌跡符合安全標準; 縱向安全距離: vf為前車速度,vr為后車速度,ρ為駕駛員反應時間,amin,brake為最小剎車加速度,amax,brake為最大剎車加速度,amax,accel為最大加速度; 橫向安全距離: v1為自車速度,v2為橫向的別車速度,μ為兩車橫向速度為0時,橫向距離的最小值,為橫向最大加速度,為橫向最小剎車加速度,ρ為駕駛員反應時間; 當按照策略網絡生成的軌跡行駛時,與前后車或者加塞進車隊的其他車輛的橫縱向距離小于最小安全距離時,獎勵為-100,否則為0: d為與其他車輛之間的距離; S4、利用當前自車的縱向狀態和末狀態縱向狀態作為邊界條件,進行縱向軌跡多項式擬合,得到最優軌跡。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人江蘇大學,其通訊地址為:212013 江蘇省鎮江市京口區學府路301號;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。