同濟(jì)大學(xué)高炳釗獲國家專利權(quán)
買專利賣專利找龍圖騰,真高效! 查專利查商標(biāo)用IPTOP,全免費(fèi)!專利年費(fèi)監(jiān)控用IP管家,真方便!
龍圖騰網(wǎng)獲悉同濟(jì)大學(xué)申請的專利一種基于BLF-SRL的自動(dòng)駕駛控制方法獲國家發(fā)明授權(quán)專利權(quán),本發(fā)明授權(quán)專利權(quán)由國家知識(shí)產(chǎn)權(quán)局授予,授權(quán)公告號(hào)為:CN115016278B 。
龍圖騰網(wǎng)通過國家知識(shí)產(chǎn)權(quán)局官網(wǎng)在2025-08-22發(fā)布的發(fā)明授權(quán)授權(quán)公告中獲悉:該發(fā)明授權(quán)的專利申請?zhí)?專利號(hào)為:202210712700.8,技術(shù)領(lǐng)域涉及:G05B13/04;該發(fā)明授權(quán)一種基于BLF-SRL的自動(dòng)駕駛控制方法是由高炳釗;張羽翔;程一帆;褚洪慶;陳虹設(shè)計(jì)研發(fā)完成,并于2022-06-22向國家知識(shí)產(chǎn)權(quán)局提交的專利申請。
本一種基于BLF-SRL的自動(dòng)駕駛控制方法在說明書摘要公布了:本發(fā)明涉及一種基于BLF?SRL的自動(dòng)駕駛控制方法,該方法包括以下步驟:步驟1:構(gòu)建基于障礙李雅普諾夫函數(shù)的安全強(qiáng)化學(xué)習(xí)算法;步驟2:將自動(dòng)駕駛控制系統(tǒng)建模為嚴(yán)格反饋形式的非線性系統(tǒng);步驟3:采用步驟1中的基于障礙李雅普諾夫函數(shù)的安全強(qiáng)化學(xué)習(xí)算法實(shí)現(xiàn)自動(dòng)駕駛控制系統(tǒng)在學(xué)習(xí)更新過程中系統(tǒng)部分狀態(tài)約束的安全性以及每個(gè)反步子系統(tǒng)中的誤差信號(hào)有效性。與現(xiàn)有技術(shù)相比,本發(fā)明具有實(shí)現(xiàn)自動(dòng)駕駛控制系統(tǒng)在強(qiáng)化學(xué)習(xí)過程中的安全保證等優(yōu)點(diǎn)。
本發(fā)明授權(quán)一種基于BLF-SRL的自動(dòng)駕駛控制方法在權(quán)利要求書中公布了:1.一種基于BLF-SRL的自動(dòng)駕駛控制方法,其特征在于,該方法包括以下步驟: 步驟1:構(gòu)建基于障礙李雅普諾夫函數(shù)的安全強(qiáng)化學(xué)習(xí)算法; 步驟2:將自動(dòng)駕駛控制系統(tǒng)建模為嚴(yán)格反饋形式的非線性系統(tǒng); 步驟3:采用步驟1中的基于障礙李雅普諾夫函數(shù)的安全強(qiáng)化學(xué)習(xí)算法實(shí)現(xiàn)自動(dòng)駕駛控制系統(tǒng)在學(xué)習(xí)更新過程中系統(tǒng)部分狀態(tài)約束的安全性以及每個(gè)反步子系統(tǒng)中的誤差信號(hào)有效性; 所述的步驟1中,基于障礙李雅普諾夫函數(shù)的安全強(qiáng)化學(xué)習(xí)算法的過程具體包括以下步驟: 步驟101:將嚴(yán)格反饋形式的非線性系統(tǒng)重建為誤差系統(tǒng); 步驟102:采用反步優(yōu)化方法和BLF分別設(shè)計(jì)每個(gè)子系統(tǒng)的優(yōu)化控制律; 步驟103:根據(jù)貝爾曼最優(yōu)性原理分別定義每個(gè)子系統(tǒng)的貝爾曼最優(yōu)條件; 步驟104:利用李雅普諾夫分析分別設(shè)計(jì)每個(gè)子系統(tǒng)的誤差更新信號(hào),在學(xué)習(xí)過程中依次對于每個(gè)子系統(tǒng)中未知函數(shù)項(xiàng)的迭代更新優(yōu)化子系統(tǒng)的虛擬控制,以實(shí)現(xiàn)對于整體系統(tǒng)控制的優(yōu)化; 所述的子系統(tǒng)包括z1子系統(tǒng)、zii=2,...,n-1子系統(tǒng)和zn子系統(tǒng); 所述的步驟101中,嚴(yán)格反饋形式的非線性系統(tǒng)為: 其中,fjj=1,2,…,n和gjj=1,2,...,n分別為定義二階嚴(yán)格反饋形式的非線性系統(tǒng)時(shí)所需的模型,n為子系統(tǒng)的數(shù)量,為狀態(tài)變量,為狀態(tài)向量,為控制輸入,為系統(tǒng)輸出; 為了優(yōu)化系統(tǒng)控制達(dá)到系統(tǒng)期望輸出yd,引入待優(yōu)化的虛擬控制αii=1,...,n-1,定義誤差狀態(tài)z1=x1-yd和zi=xi-αi-1i=2,...,n,將待優(yōu)化的非線性系統(tǒng)重新建立為誤差系統(tǒng): 其中,zjj=1,2,...,n為第j個(gè)子系統(tǒng)的誤差狀態(tài),fjj=1,2,...,n和gjj=1,2,...,n分別為定義二階嚴(yán)格反饋形式的非線性系統(tǒng)時(shí)所需的模型,n為子系統(tǒng)的數(shù)量,yd為系統(tǒng)期望輸出; 誤差系統(tǒng)呈現(xiàn)級(jí)聯(lián)結(jié)構(gòu),通過優(yōu)化引入的每一個(gè)虛擬控制αii=1,...,n-1最終優(yōu)化系統(tǒng)的整體控制,所有的狀態(tài)變量z=[z1,...,zn]T分為待約束狀態(tài)變量和自由狀態(tài)變量其中,ns為保證連續(xù)性的分段點(diǎn),進(jìn)而將學(xué)習(xí)問題描述為: 在整個(gè)學(xué)習(xí)過程中,優(yōu)化系統(tǒng)控制跟蹤系統(tǒng)期望輸出yd的同時(shí)部分狀態(tài)變量zi,i=1,...,ns始終保持在設(shè)計(jì)的安全區(qū)域內(nèi),其中,為正常數(shù); 所述的步驟103中,根據(jù)貝爾曼最優(yōu)性原理分別定義每個(gè)子系統(tǒng)的貝爾曼最優(yōu)條件的過程具體為: 分別將Sub-Actor和Sub-Critic分解為BLFQLF項(xiàng)和采用獨(dú)立的神經(jīng)網(wǎng)絡(luò)逼近的未知函數(shù)項(xiàng),根據(jù)貝爾曼最優(yōu)性原理定義子系統(tǒng)的貝爾曼最優(yōu)性條件; 所述的步驟102~104中,對于z1子系統(tǒng),采用反步優(yōu)化方法和BLF設(shè)計(jì)z1子系統(tǒng)的優(yōu)化控制律,并定義z1子系統(tǒng)的貝爾曼最優(yōu)條件,進(jìn)而設(shè)計(jì)誤差更新信號(hào)的過程具體為: 在z1子系統(tǒng)中引入待優(yōu)化的虛擬控制,定義z1子系統(tǒng)的最優(yōu)性能指標(biāo)函數(shù)為: 其中,為z1子系統(tǒng)的最優(yōu)性能指標(biāo)函數(shù),為代價(jià)函數(shù),為最優(yōu)虛擬控制,κ1s和κ1c分別為權(quán)重系數(shù),相應(yīng)的HJB方程的表達(dá)式為: 其中,表示最優(yōu)性能指標(biāo)函數(shù)對z1求偏導(dǎo),f1和g1分別為建立待優(yōu)化的非線性系統(tǒng)所需的模型; 由于成立且有唯一解,通過求解得到最優(yōu)虛擬控制為: 將最優(yōu)虛擬控制分解設(shè)計(jì)為: 其中,為待學(xué)習(xí)的未知連續(xù)函數(shù),κ1為一個(gè)正常數(shù),由分解設(shè)計(jì)后的最優(yōu)虛擬控制可得最優(yōu)性能指標(biāo)函數(shù)的偏導(dǎo)數(shù)的表達(dá)式為: 在z1子系統(tǒng)中,最優(yōu)性能指標(biāo)函數(shù)的偏導(dǎo)數(shù)和最優(yōu)虛擬控制均為未知函數(shù),其中的不確定項(xiàng)分別采用獨(dú)立的神經(jīng)網(wǎng)絡(luò)逼近,根據(jù)分解設(shè)計(jì)后的最優(yōu)虛擬控制和最優(yōu)性能指標(biāo)函數(shù)的偏導(dǎo)數(shù)得到其估計(jì)值和隨后在Actor-Critic框架下,進(jìn)行策略評(píng)估和策略改進(jìn),為最優(yōu)虛擬控制的估計(jì)值,定義為Sub-Actora1,為最優(yōu)性能指標(biāo)函數(shù)的偏導(dǎo)數(shù)的估計(jì)值,定義為Sub-Criticc1; 由于HJB方程的非線性特性,無法直接得到解析形式的最優(yōu)解,為了迭代得到其數(shù)值解,首先采用兩個(gè)獨(dú)立的神經(jīng)網(wǎng)絡(luò)逼近最優(yōu)性能指標(biāo)函數(shù)的偏導(dǎo)數(shù)和最優(yōu)虛擬控制中的未知項(xiàng),打破最優(yōu)性能指標(biāo)函數(shù)的偏導(dǎo)數(shù)與最優(yōu)虛擬控制之間的相關(guān)性;進(jìn)而在Actor-Critic框架下通過策略評(píng)估和策略改進(jìn)迭代更新神經(jīng)網(wǎng)絡(luò),以更新估計(jì)值和最終兩者逐步滿足相關(guān)關(guān)系進(jìn)而得到系統(tǒng)的優(yōu)化控制; 最優(yōu)虛擬控制的估計(jì)值的表達(dá)式為: 其中,為Sub-ActorNN的期望輸出; 最優(yōu)性能指標(biāo)函數(shù)的偏導(dǎo)數(shù)的估計(jì)值的表達(dá)式為: 其中,是Sub-CriticNN的期望輸出; 將最優(yōu)虛擬控制的估計(jì)值的表達(dá)式和最優(yōu)性能指標(biāo)函數(shù)的偏導(dǎo)數(shù)的估計(jì)值的表達(dá)式代入HJB方程中,進(jìn)而得到HJB方程的估計(jì)值的表達(dá)式為: 獲取z1子系統(tǒng)中的貝爾曼最優(yōu)性條件,z1子系統(tǒng)中的貝爾曼最優(yōu)性條件的表達(dá)式為: 在Sub-Criticc1中,進(jìn)行當(dāng)前虛擬控制的策略評(píng)估,最終目標(biāo)為:通過迭代更新使得HJB方程的估計(jì)值達(dá)到最優(yōu)值,即在Sub-Actora1中,采用Sub-Criticc1策略評(píng)估進(jìn)行策略改進(jìn),最終通過迭代學(xué)習(xí)達(dá)到貝爾曼最優(yōu)性條件; 定義貝爾曼殘差的表達(dá)式為: Sub-CriticNN和Sub-ActorNN更新方程的表達(dá)式分別為: 其中,為Sub-CriticNN更新方程所需的誤差變量,為Sub-ActorNN更新方程所需的誤差變量,和分別為Sub-CriticNN和Sub-ActorNN的學(xué)習(xí)率; 最終,在z1子系統(tǒng)中,對最優(yōu)虛擬控制和最優(yōu)性能指標(biāo)函數(shù)的偏導(dǎo)數(shù)進(jìn)行估計(jì),進(jìn)一步通過Sub-CriticNN和Sub-ActorNN的更新方程對Sub-CriticNN和Sub-ActorNN進(jìn)行迭代學(xué)習(xí),以滿足貝爾曼最優(yōu)性條件; 所述方法還包括基于建立的自動(dòng)駕駛控制系統(tǒng)設(shè)計(jì)消融試驗(yàn),該消融試驗(yàn)中將保證學(xué)習(xí)更新過程中系統(tǒng)部分狀態(tài)約束的安全性記為消融A,將在每個(gè)反步子系統(tǒng)中根據(jù)貝爾曼最優(yōu)性條件推導(dǎo)得到誤差信號(hào)記為消融B,消融A特指將zi子系統(tǒng)中的αi,aux設(shè)置為0,消融B特指不使用更新誤差信號(hào),設(shè)置多種實(shí)驗(yàn)工況進(jìn)行消融實(shí)驗(yàn),各個(gè)實(shí)驗(yàn)工況的設(shè)置分別為: #D1:β=1,δ=0 #D2:β~N1,0.8,δ=0.4 #D3:β~N1,0.4,δ=0.4 #D4:β~N1.2,0.6,δ=0.4 其中,β為真實(shí)系統(tǒng)輪胎力與制器模型輪胎力的比例系數(shù),參數(shù)β的邊界為[1-δ,1+δ],δ為邊界參數(shù),為由Fiala公式定義的輪胎力。
如需購買、轉(zhuǎn)讓、實(shí)施、許可或投資類似專利技術(shù),可聯(lián)系本專利的申請人或?qū)@麢?quán)人同濟(jì)大學(xué),其通訊地址為:200092 上海市楊浦區(qū)四平路1239號(hào);或者聯(lián)系龍圖騰網(wǎng)官方客服,聯(lián)系龍圖騰網(wǎng)可撥打電話0551-65771310或微信搜索“龍圖騰網(wǎng)”。
1、本報(bào)告根據(jù)公開、合法渠道獲得相關(guān)數(shù)據(jù)和信息,力求客觀、公正,但并不保證數(shù)據(jù)的最終完整性和準(zhǔn)確性。
2、報(bào)告中的分析和結(jié)論僅反映本公司于發(fā)布本報(bào)告當(dāng)日的職業(yè)理解,僅供參考使用,不能作為本公司承擔(dān)任何法律責(zé)任的依據(jù)或者憑證。
- 凌衛(wèi)東獲國家專利權(quán)
- 中國平安人壽保險(xiǎn)股份有限公司陸福鏗獲國家專利權(quán)
- 杭州濱冠節(jié)能科技有限公司余渙清獲國家專利權(quán)
- 京東方科技集團(tuán)股份有限公司韓林宏獲國家專利權(quán)
- 南京英銳創(chuàng)電子科技有限公司管璐璐獲國家專利權(quán)
- 三星顯示有限公司金圣民獲國家專利權(quán)
- 深圳市中科藍(lán)訊科技股份有限公司陳文韜獲國家專利權(quán)
- 東京毅力科創(chuàng)株式會(huì)社中澤貴士獲國家專利權(quán)
- 寧德時(shí)代新能源科技股份有限公司沈睿獲國家專利權(quán)
- 華為技術(shù)有限公司孫志磊獲國家專利權(quán)


熱門推薦
- 臺(tái)州職業(yè)技術(shù)學(xué)院何建慧獲國家專利權(quán)
- 華為技術(shù)有限公司辛陽獲國家專利權(quán)
- 青島科技大學(xué)王衛(wèi)獲國家專利權(quán)
- 沈陽匯博熱能設(shè)備有限公司王玉獲國家專利權(quán)
- 四川中科朗星光電科技有限公司楊博獲國家專利權(quán)
- 交互數(shù)字VC控股法國公司J.里卡德獲國家專利權(quán)
- 三星顯示有限公司金正起獲國家專利權(quán)
- 辛北爾康普機(jī)器及成套設(shè)備有限責(zé)任公司K·加爾茨獲國家專利權(quán)
- 深圳怡化電腦股份有限公司崔明杰獲國家專利權(quán)
- 上海新微技術(shù)研發(fā)中心有限公司吳炫燁獲國家專利權(quán)