南京航空航天大學(xué)唐鑫獲國家專利權(quán)
買專利賣專利找龍圖騰,真高效! 查專利查商標(biāo)用IPTOP,全免費(fèi)!專利年費(fèi)監(jiān)控用IP管家,真方便!
龍圖騰網(wǎng)獲悉南京航空航天大學(xué)申請的專利一種基于PPO算法及考慮充電電費(fèi)的電池快速充電控制方法獲國家發(fā)明授權(quán)專利權(quán),本發(fā)明授權(quán)專利權(quán)由國家知識產(chǎn)權(quán)局授予,授權(quán)公告號為:CN115447431B 。
龍圖騰網(wǎng)通過國家知識產(chǎn)權(quán)局官網(wǎng)在2025-08-26發(fā)布的發(fā)明授權(quán)授權(quán)公告中獲悉:該發(fā)明授權(quán)的專利申請?zhí)?專利號為:202211100593.X,技術(shù)領(lǐng)域涉及:G06F30/27;該發(fā)明授權(quán)一種基于PPO算法及考慮充電電費(fèi)的電池快速充電控制方法是由唐鑫;歐陽權(quán);王志勝設(shè)計(jì)研發(fā)完成,并于2022-09-09向國家知識產(chǎn)權(quán)局提交的專利申請。
本一種基于PPO算法及考慮充電電費(fèi)的電池快速充電控制方法在說明書摘要公布了:本發(fā)明公開了一種基于PPO算法及考慮充電電費(fèi)的電池快速充電控制方法,構(gòu)建鋰離子電池電熱耦合模型和充電電費(fèi)優(yōu)化模型,確定其關(guān)鍵狀態(tài)變量,歸一化后歸入強(qiáng)化學(xué)習(xí)狀態(tài)空間,定義動作空間和獎勵函數(shù);基于近端策略優(yōu)化算法對構(gòu)建的充電策略網(wǎng)絡(luò)、策略評估網(wǎng)絡(luò)進(jìn)行訓(xùn)練;直至充電策略網(wǎng)絡(luò)和策略評估網(wǎng)絡(luò)收斂,導(dǎo)出充電策略網(wǎng)絡(luò)作為電池快速充電策略;采集實(shí)時數(shù)據(jù)輸入訓(xùn)練成熟的充電策略網(wǎng)絡(luò),決策出當(dāng)前時刻的最優(yōu)充電動作;每個充電周期結(jié)束后重新采集狀態(tài)量并決策充電電流,直至充電完成。本發(fā)明能實(shí)現(xiàn)具有安全與健康主動意識的、低充電成本的快速充電,將多約束、多目標(biāo)最優(yōu)化求解導(dǎo)致的復(fù)雜計(jì)算遷移到離線訓(xùn)練環(huán)節(jié),顯著降低了在線充電決策的計(jì)算復(fù)雜度。
本發(fā)明授權(quán)一種基于PPO算法及考慮充電電費(fèi)的電池快速充電控制方法在權(quán)利要求書中公布了:1.一種基于PPO算法及考慮充電電費(fèi)的電池快速充電控制方法,其特征在于,包括以下步驟: 1構(gòu)建鋰離子電池電熱耦合模型和充電電費(fèi)優(yōu)化模型,并根據(jù)構(gòu)建的兩個模型建立離線訓(xùn)練場景,確定其關(guān)鍵狀態(tài)變量; 2將步驟1中確定的關(guān)鍵狀態(tài)變量歸一化后歸入強(qiáng)化學(xué)習(xí)狀態(tài)空間,定義動作空間和獎勵函數(shù); 3基于近端策略優(yōu)化算法對構(gòu)建的充電策略網(wǎng)絡(luò)、策略評估網(wǎng)絡(luò)進(jìn)行訓(xùn)練;所述充電策略網(wǎng)絡(luò)根據(jù)獲取到的狀態(tài)變量產(chǎn)生充電動作,依據(jù)步驟1中鋰離子電池電熱耦合模型更新電池狀態(tài),并將充電動作、電池狀態(tài)、獎勵值記錄于經(jīng)驗(yàn)池,通過經(jīng)驗(yàn)池信息進(jìn)行充電策略網(wǎng)絡(luò)和策略評估網(wǎng)絡(luò)的同步更新; 4循環(huán)執(zhí)行步驟3,直至充電策略網(wǎng)絡(luò)和策略評估網(wǎng)絡(luò)收斂,導(dǎo)出充電策略網(wǎng)絡(luò)作為電池快速充電策略; 5實(shí)時采集電池當(dāng)前電量、端電壓、環(huán)境溫度、電池表面溫度、當(dāng)前時刻電價(jià),并進(jìn)行歸一化處理,輸入步驟4中訓(xùn)練成熟的充電策略網(wǎng)絡(luò),決策出當(dāng)前時刻的最優(yōu)充電動作; 6每個充電周期結(jié)束后重新采集狀態(tài)量并決策充電電流,直至充電完成; 步驟1所述鋰離子電池電熱耦合模型構(gòu)建過程如下: 電壓源VOC和電阻R0分別用于模擬電池的儲能和充放電能量損失,RC網(wǎng)絡(luò)R1,C1和R2,C2表征了電池的短期和長期瞬態(tài)響應(yīng);根據(jù)基爾霍夫電流和電壓定律,電池的動態(tài)特性描述為: 式中,SOCk、Cn、IBk、VBk分別表示電池的SOC狀態(tài)、標(biāo)稱容量、充電電流和電壓;電池開路電壓VOCk是SOCk的非線性函數(shù):VOCk=gSOCk;V1k和V2k分別表示電容C1和C2兩端的電壓;R0為恒定電阻;TC、TS表示電池核心溫度和表面溫度,根據(jù)能量守恒原理計(jì)算為: 式中,Tamb為電池的環(huán)境溫度;RC、Ru分別表示熱傳導(dǎo)電阻和對流電阻;CC、CS分別表示電池的內(nèi)部熱容和表面熱容;電池的溫度定義為TS和TC的平均值: 步驟1所述充電電費(fèi)優(yōu)化模型構(gòu)建過程如下: 最小化電池從任意初始電量SOC0到充至期望電量SOCd所花費(fèi)的時間,充電速度對應(yīng)的目標(biāo)函數(shù)為: minJ1=NT5 式中,T表示采樣周期,N是SOCN=SOCd所對應(yīng)的采樣步數(shù); 充電成本受電池的充電電流和當(dāng)前時刻的電價(jià)影響,充電成本優(yōu)化的目標(biāo)函數(shù)為: 式中,pk是在充電采樣周期k時電力的分時電價(jià);J2為電池充電過程中總的電費(fèi)支出; 充電安全約束為: 0≤IBk≤Imax7 式中,Imax是電池的最大允許充電電流;防止電池的SOC、電壓和溫度超過其允許的限值: 式中,SOCmax、Vmax和Tmax分別代表電池SOC、電壓和溫度的上限; 步驟3所述充電策略網(wǎng)絡(luò)和策略評估網(wǎng)絡(luò)實(shí)現(xiàn)過程如下: 充電策略網(wǎng)絡(luò)和策略評估網(wǎng)絡(luò)的隱藏層均為全連接層,充電策略網(wǎng)絡(luò)第一層為relu函數(shù),第二層包含電池充電策略分布的期望和方差兩部分,期望值部分的激活函數(shù)為tanh函數(shù),方差部分的激活函數(shù)為softplus函數(shù);策略評估網(wǎng)絡(luò)共包含兩層網(wǎng)絡(luò),第一層的激活函數(shù)為relu函數(shù);第二層的激活函數(shù)為tanh函數(shù);充電策略網(wǎng)絡(luò)為: 策略評估網(wǎng)絡(luò)為: 式中,wa1、wa2、wa3、wc1、wc2分別為神經(jīng)網(wǎng)絡(luò)中的權(quán)重系數(shù),ba1、ba2、ba3、bc1、bc2為神經(jīng)網(wǎng)絡(luò)中的偏置,充電策略網(wǎng)絡(luò)參數(shù)統(tǒng)稱為θ,策略評估網(wǎng)絡(luò)參數(shù)統(tǒng)稱為δ,θ和δ隨神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程不斷更新; 步驟3所述基于PPO算法的鋰電池快速充電策略環(huán)境與算法的交互訓(xùn)練過程如下: 訓(xùn)練階段采用動作-評價(jià)訓(xùn)練框架,該訓(xùn)練框架包含充電策略網(wǎng)絡(luò)和策略評估網(wǎng)絡(luò)兩部分;其中充電策略網(wǎng)絡(luò)接受鋰電池充電環(huán)境的狀態(tài)空間信息sk=[k,SOCk,VBk,Tak,pk]T,輸出充電電流動作ak;策略評估網(wǎng)絡(luò)接收經(jīng)驗(yàn)池中的經(jīng)驗(yàn)信息,評估得到當(dāng)前策略網(wǎng)絡(luò)θ所對應(yīng)的狀態(tài)價(jià)值函數(shù)Vθsk,用于評價(jià)當(dāng)前策略網(wǎng)絡(luò)充電策略的優(yōu)劣性; 充電策略網(wǎng)絡(luò)更新部分,首先定義了電池的充電目標(biāo): 式中,表示對區(qū)間[0,k]求均值,θ表示當(dāng)前回合動作網(wǎng)絡(luò)參數(shù),θold表示上一更新回合充電策略網(wǎng)絡(luò)參數(shù);πθ代表當(dāng)前回合電池充電策略,代表上一回合電池充電策略,為估計(jì)了電池充電電流ak在電池狀態(tài)sk下的優(yōu)勢函數(shù),由策略評估網(wǎng)絡(luò)估計(jì)的狀態(tài)價(jià)值函數(shù)計(jì)算所得; 在動作-評價(jià)網(wǎng)絡(luò)訓(xùn)練框架下,策略評估網(wǎng)絡(luò)輸出狀態(tài)價(jià)值函數(shù)Vθsk,并通過下式計(jì)算優(yōu)勢函數(shù): 式中,表示經(jīng)驗(yàn)池中隨機(jī)抽取的第n回合中第k充電階段的充電環(huán)境狀態(tài)s,rk表示第k個充電周期獲得的充電獎勵,γ為獎勵折扣因子;N為一個充電回合的總步數(shù); 采用PPO算法對電池充電目標(biāo)進(jìn)行了裁剪: 式中: 其中,LCLIPθ實(shí)現(xiàn)了一種與隨機(jī)梯度下降兼容的信賴域修正方法,并通過消除KL損失來簡化算法以及減小適應(yīng)性修正的需求;充電策略網(wǎng)絡(luò)通過實(shí)現(xiàn)該目標(biāo)來更新自身網(wǎng)絡(luò)參數(shù)θ;策略評估網(wǎng)絡(luò)部分,采用傳統(tǒng)時間差分誤差TD-error方式更新網(wǎng)絡(luò)參數(shù)δ。
如需購買、轉(zhuǎn)讓、實(shí)施、許可或投資類似專利技術(shù),可聯(lián)系本專利的申請人或?qū)@麢?quán)人南京航空航天大學(xué),其通訊地址為:210016 江蘇省南京市秦淮區(qū)御道街29號;或者聯(lián)系龍圖騰網(wǎng)官方客服,聯(lián)系龍圖騰網(wǎng)可撥打電話0551-65771310或微信搜索“龍圖騰網(wǎng)”。
1、本報(bào)告根據(jù)公開、合法渠道獲得相關(guān)數(shù)據(jù)和信息,力求客觀、公正,但并不保證數(shù)據(jù)的最終完整性和準(zhǔn)確性。
2、報(bào)告中的分析和結(jié)論僅反映本公司于發(fā)布本報(bào)告當(dāng)日的職業(yè)理解,僅供參考使用,不能作為本公司承擔(dān)任何法律責(zé)任的依據(jù)或者憑證。
- 華盛頓大學(xué)羅伯特·A·蘭根獲國家專利權(quán)
- 現(xiàn)代自動車株式會社李吉雨獲國家專利權(quán)
- 健鼎(無錫)電子有限公司朱健祥獲國家專利權(quán)
- 南昌歐菲精密光學(xué)制品有限公司鄒海榮獲國家專利權(quán)
- 應(yīng)用材料公司D·黃獲國家專利權(quán)
- 朱少波獲國家專利權(quán)
- 應(yīng)用材料公司M·嘉德瑞獲國家專利權(quán)
- 雅各布斯車輛系統(tǒng)公司J·A·施沃雷爾獲國家專利權(quán)
- 美光科技公司D·G·斯普林堡獲國家專利權(quán)
- 深圳市捷駿鼎盛環(huán)??萍加邢薰绢佭\(yùn)能獲國家專利權(quán)


熱門推薦
- 廈門建霖健康家居股份有限公司戴碧福獲國家專利權(quán)
- 深圳光峰科技股份有限公司陳晨獲國家專利權(quán)
- 三菱電機(jī)株式會社谷原康友獲國家專利權(quán)
- 秦文隆獲國家專利權(quán)
- 南昌歐菲精密光學(xué)制品有限公司張文燕獲國家專利權(quán)
- 澳大利亞機(jī)器人骨科學(xué)院有限公司瑞亞茲·珍·科杰爾·可汗獲國家專利權(quán)
- 廈門宏發(fā)電力電器有限公司鐘叔明獲國家專利權(quán)
- 禮新醫(yī)藥科技(上海)有限公司李潤生獲國家專利權(quán)
- 華為技術(shù)有限公司郭宇宸獲國家專利權(quán)
- LG電子株式會社金范埈獲國家專利權(quán)