當(dāng)前位置 : 首頁 > 專利喜報(bào) > 東南大學(xué)彭劍坤獲國家專利權(quán)

東南大學(xué)彭劍坤獲國家專利權(quán)

買專利賣專利找龍圖騰，真高效！查專利查商標(biāo)用IPTOP,全免費(fèi)！專利年費(fèi)監(jiān)控用IP管家,真方便！

龍圖騰網(wǎng)獲悉東南大學(xué)申請的專利嵌入模仿學(xué)習(xí)的學(xué)習(xí)型燃料電池混動(dòng)汽車能量管理方法獲國家發(fā)明授權(quán)專利權(quán)，本發(fā)明授權(quán)專利權(quán)由國家知識(shí)產(chǎn)權(quán)局授予，授權(quán)公告號為：CN117993293B 。

龍圖騰網(wǎng)通過國家知識(shí)產(chǎn)權(quán)局官網(wǎng)在2025-09-12發(fā)布的發(fā)明授權(quán)授權(quán)公告中獲悉：該發(fā)明授權(quán)的專利申請?zhí)?專利號為：202410130880.8，技術(shù)領(lǐng)域涉及：G06F30/27；該發(fā)明授權(quán)嵌入模仿學(xué)習(xí)的學(xué)習(xí)型燃料電池混動(dòng)汽車能量管理方法是由彭劍坤;任廷輝;陳志軍;陳偉琪;吳長城;馬春野設(shè)計(jì)研發(fā)完成，并于2024-01-31向國家知識(shí)產(chǎn)權(quán)局提交的專利申請。

本嵌入模仿學(xué)習(xí)的學(xué)習(xí)型燃料電池混動(dòng)汽車能量管理方法在說明書摘要公布了：本發(fā)明公開了嵌入模仿學(xué)習(xí)的學(xué)習(xí)型燃料電池混動(dòng)汽車能量管理方法，包括：構(gòu)建仿真環(huán)境、構(gòu)建訓(xùn)練工況和測試工況；基于動(dòng)態(tài)規(guī)劃，提取訓(xùn)練工況的全局最優(yōu)軌跡；使用模仿學(xué)習(xí)算法對全局最優(yōu)軌跡進(jìn)行模仿，獲得可繼承的神經(jīng)網(wǎng)絡(luò)參數(shù)；將通過模仿學(xué)習(xí)算法取得的神經(jīng)網(wǎng)絡(luò)作為深度強(qiáng)化學(xué)習(xí)算法的初始化策略網(wǎng)絡(luò)，開始強(qiáng)化學(xué)習(xí)訓(xùn)練，直到深度強(qiáng)化學(xué)習(xí)算法收斂。本發(fā)明充分結(jié)合了基于優(yōu)化的方法與深度強(qiáng)化學(xué)習(xí)方法的優(yōu)點(diǎn)，彌補(bǔ)了傳統(tǒng)深度強(qiáng)化學(xué)習(xí)算法的不足，能夠提高訓(xùn)練效率和優(yōu)化效果。

本發(fā)明授權(quán)嵌入模仿學(xué)習(xí)的學(xué)習(xí)型燃料電池混動(dòng)汽車能量管理方法在權(quán)利要求書中公布了：1.嵌入模仿學(xué)習(xí)的學(xué)習(xí)型燃料電池混動(dòng)汽車能量管理方法，其特征在于，包括： 1構(gòu)建仿真環(huán)境，搭建FCHEV模型，包括FCHEV的動(dòng)力系統(tǒng)結(jié)構(gòu)、燃料電池氫耗模型和壽命模型，以及動(dòng)力電池電-熱-壽命耦合模型，其中動(dòng)力電池電-熱-壽命耦合模型包括二階RC電模型、雙態(tài)熱模型和能量吞吐量老化模型；構(gòu)建訓(xùn)練數(shù)據(jù)，包括訓(xùn)練工況和測試工況； 2建立基于FCHEV模型與FCHEV能量管理策略的強(qiáng)化學(xué)習(xí)環(huán)境，設(shè)定狀態(tài)空間、動(dòng)作空間和獎(jiǎng)勵(lì)函數(shù)；基于動(dòng)態(tài)規(guī)劃，提取訓(xùn)練工況的全局最優(yōu)軌跡； 3使用模仿學(xué)習(xí)算法，對全局最優(yōu)軌跡進(jìn)行模仿，獲得可繼承的神經(jīng)網(wǎng)絡(luò)參數(shù)； 4將對全局最優(yōu)軌跡充分模仿后的神經(jīng)網(wǎng)絡(luò)，作為深度強(qiáng)化學(xué)習(xí)算法的初始化策略網(wǎng)絡(luò)，開始強(qiáng)化學(xué)習(xí)訓(xùn)練直到獎(jiǎng)勵(lì)函數(shù)收斂；步驟4中，深度強(qiáng)化學(xué)習(xí)算法采用近端策略優(yōu)化PPO，具體包括： 4-1將經(jīng)過行為克隆算法充分模仿的Actor網(wǎng)絡(luò)作為PPO的初始化策略網(wǎng)絡(luò)，同時(shí)隨機(jī)初始化價(jià)值網(wǎng)絡(luò)； 4-2令每一次策略更新前的策略為πold，πold與環(huán)境進(jìn)行固定步數(shù)的交互，得到多個(gè)狀態(tài)-動(dòng)作對s,a； 4-3計(jì)算對于所有狀態(tài)-動(dòng)作對s,a，狀態(tài)s下特定動(dòng)作a與從策略πold·|s中隨機(jī)選擇的動(dòng)作相比所能獲得總獎(jiǎng)勵(lì)的相對改善 4-4對策略網(wǎng)絡(luò)的代理目標(biāo)函數(shù)進(jìn)行優(yōu)化，目標(biāo)函數(shù)L表示為：其中，πθ表示由當(dāng)前策略更新得到的被θ參數(shù)化的新策略網(wǎng)絡(luò)，πold表示上一次策略更新后得到的舊策略網(wǎng)絡(luò)，式26中使用剪裁閾值∈≥0來控制每次策略更新的大小，計(jì)算梯度并通過梯度下降法解決下列最優(yōu)化問題來不斷更新策略網(wǎng)絡(luò)的參數(shù)θ： 4-5對價(jià)值網(wǎng)絡(luò)的目標(biāo)函數(shù)進(jìn)行優(yōu)化，其優(yōu)化目標(biāo)為：其中，VΦ表示由φ參數(shù)化的PPO價(jià)值網(wǎng)絡(luò)，計(jì)算梯度同樣通過梯度下降法來更新價(jià)值網(wǎng)絡(luò)的參數(shù)φ： 4-6重復(fù)步驟4-2至4-5，直到達(dá)到預(yù)先設(shè)定的最大迭代次數(shù)，訓(xùn)練結(jié)束，然后保存并下載神經(jīng)網(wǎng)絡(luò)參數(shù)； 5將訓(xùn)練得到的參數(shù)化神經(jīng)網(wǎng)絡(luò)策略加載到FCHEV的整車控制器中，實(shí)現(xiàn)實(shí)時(shí)在線應(yīng)用；目標(biāo)域FCHEV執(zhí)行訓(xùn)練完成的能量管理策略。

如需購買、轉(zhuǎn)讓、實(shí)施、許可或投資類似專利技術(shù)，可聯(lián)系本專利的申請人或?qū)＠麢?quán)人東南大學(xué)，其通訊地址為：211189 江蘇省南京市江寧區(qū)東南大學(xué)路2號；或者聯(lián)系龍圖騰網(wǎng)官方客服，聯(lián)系龍圖騰網(wǎng)可撥打電話0551-65771310或微信搜索“龍圖騰網(wǎng)”。

以上內(nèi)容由AI智能生成

免責(zé)聲明
1、本報(bào)告根據(jù)公開、合法渠道獲得相關(guān)數(shù)據(jù)和信息，力求客觀、公正，但并不保證數(shù)據(jù)的最終完整性和準(zhǔn)確性。
2、報(bào)告中的分析和結(jié)論僅反映本公司于發(fā)布本報(bào)告當(dāng)日的職業(yè)理解，僅供參考使用，不能作為本公司承擔(dān)任何法律責(zé)任的依據(jù)或者憑證。

相關(guān)閱讀

龍圖騰網(wǎng)&IPTOP

設(shè)置信息完成注冊

手機(jī)號綁定多個(gè)賬號

東南大學(xué)彭劍坤獲國家專利權(quán)

熱門推薦

專利交易買賣與高校科技成果轉(zhuǎn)化平臺(tái)

專利交易

快速入口

知產(chǎn)工具

關(guān)于我們

咨詢服務(wù)