之江實(shí)驗(yàn)室陳紅陽(yáng)獲國(guó)家專利權(quán)
買(mǎi)專利賣(mài)專利找龍圖騰,真高效! 查專利查商標(biāo)用IPTOP,全免費(fèi)!專利年費(fèi)監(jiān)控用IP管家,真方便!
龍圖騰網(wǎng)獲悉之江實(shí)驗(yàn)室申請(qǐng)的專利策略模型的訓(xùn)練方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)獲國(guó)家發(fā)明授權(quán)專利權(quán),本發(fā)明授權(quán)專利權(quán)由國(guó)家知識(shí)產(chǎn)權(quán)局授予,授權(quán)公告號(hào)為:CN120278215B 。
龍圖騰網(wǎng)通過(guò)國(guó)家知識(shí)產(chǎn)權(quán)局官網(wǎng)在2025-09-02發(fā)布的發(fā)明授權(quán)授權(quán)公告中獲悉:該發(fā)明授權(quán)的專利申請(qǐng)?zhí)?專利號(hào)為:202510782184.X,技術(shù)領(lǐng)域涉及:G06N3/08;該發(fā)明授權(quán)策略模型的訓(xùn)練方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)是由陳紅陽(yáng);王巖松設(shè)計(jì)研發(fā)完成,并于2025-06-12向國(guó)家知識(shí)產(chǎn)權(quán)局提交的專利申請(qǐng)。
本策略模型的訓(xùn)練方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)在說(shuō)明書(shū)摘要公布了:本申請(qǐng)?zhí)峁┮环N策略模型的訓(xùn)練方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)。其中,該方法包括:獲取第一環(huán)境狀態(tài),并將所述第一環(huán)境狀態(tài)輸入至待訓(xùn)練的策略模型,得到與所述第一環(huán)境狀態(tài)對(duì)應(yīng)的第一動(dòng)作;利用預(yù)先訓(xùn)練的大語(yǔ)言模型對(duì)所述第一環(huán)境狀態(tài)和所述第一動(dòng)作進(jìn)行處理,得到與所述第一動(dòng)作對(duì)應(yīng)的安全指示信號(hào);所述安全指示信號(hào)用于指示在所述第一環(huán)境狀態(tài)下執(zhí)行所述第一動(dòng)作是否安全;以及基于所述第一動(dòng)作與環(huán)境進(jìn)行交互,得到第二環(huán)境狀態(tài)以及獎(jiǎng)勵(lì);基于所述第一環(huán)境狀態(tài)、第一動(dòng)作、安全指示信號(hào)、第二環(huán)境狀態(tài)、以及獎(jiǎng)勵(lì)構(gòu)成交互數(shù)據(jù),并基于所述交互數(shù)據(jù)訓(xùn)練所述待訓(xùn)練的策略模型,得到目標(biāo)策略模型。
本發(fā)明授權(quán)策略模型的訓(xùn)練方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)在權(quán)利要求書(shū)中公布了:1.一種策略模型的訓(xùn)練方法,其特征在于,所述方法包括: 獲取第一環(huán)境狀態(tài),并將所述第一環(huán)境狀態(tài)輸入至待訓(xùn)練的策略模型,得到與所述第一環(huán)境狀態(tài)對(duì)應(yīng)的第一動(dòng)作;所述第一環(huán)境狀態(tài)包括:自動(dòng)駕駛載具行駛的當(dāng)前道路狀態(tài);所述第一動(dòng)作包括下一步的駕駛動(dòng)作; 利用預(yù)先訓(xùn)練的大語(yǔ)言模型對(duì)所述第一環(huán)境狀態(tài)和所述第一動(dòng)作進(jìn)行處理,得到與所述第一動(dòng)作對(duì)應(yīng)的安全指示信號(hào);所述安全指示信號(hào)用于指示在所述第一環(huán)境狀態(tài)下執(zhí)行所述第一動(dòng)作是否安全;以及 基于所述第一動(dòng)作與環(huán)境進(jìn)行交互,得到第二環(huán)境狀態(tài)以及獎(jiǎng)勵(lì); 基于所述第一環(huán)境狀態(tài)、第一動(dòng)作、安全指示信號(hào)、第二環(huán)境狀態(tài)、以及獎(jiǎng)勵(lì)構(gòu)成交互數(shù)據(jù),并基于所述交互數(shù)據(jù)訓(xùn)練所述待訓(xùn)練的策略模型,得到目標(biāo)策略模型; 所述基于所述交互數(shù)據(jù)訓(xùn)練所述待訓(xùn)練的策略模型,包括: 將當(dāng)前訓(xùn)練周期生成的交互數(shù)據(jù)作為目標(biāo)交互數(shù)據(jù),基于所述目標(biāo)交互數(shù)據(jù),對(duì)所述待訓(xùn)練的策略模型進(jìn)行當(dāng)前訓(xùn)練周期的訓(xùn)練;和或, 將當(dāng)前訓(xùn)練周期確定的交互數(shù)據(jù)存儲(chǔ)至經(jīng)驗(yàn)回放池; 對(duì)所述經(jīng)驗(yàn)回放池中存儲(chǔ)的交互數(shù)據(jù)進(jìn)行采樣,得到當(dāng)前訓(xùn)練周期對(duì)應(yīng)的目標(biāo)交互數(shù)據(jù);基于所述目標(biāo)交互數(shù)據(jù),對(duì)所述待訓(xùn)練的策略模型進(jìn)行當(dāng)前訓(xùn)練周期的訓(xùn)練; 所述基于所述目標(biāo)交互數(shù)據(jù),對(duì)所述待訓(xùn)練的策略模型進(jìn)行當(dāng)前訓(xùn)練周期的訓(xùn)練,包括: 確定當(dāng)前訓(xùn)練周期的待訓(xùn)練的策略模型、動(dòng)作價(jià)值網(wǎng)絡(luò)、以及目標(biāo)網(wǎng)絡(luò); 基于所述目標(biāo)交互數(shù)據(jù),通過(guò)最小化貝爾曼殘差更新當(dāng)前訓(xùn)練周期的動(dòng)作價(jià)值網(wǎng)絡(luò),通過(guò)最大化目標(biāo)函數(shù)更新當(dāng)前訓(xùn)練周期的策略模型,以及通過(guò)慢更新機(jī)制更新當(dāng)前訓(xùn)練周期的目標(biāo)網(wǎng)絡(luò); 所述方法還包括: 確定當(dāng)前訓(xùn)練周期的安全熵權(quán)重參數(shù);所述安全熵權(quán)重參數(shù)用于調(diào)整所述目標(biāo)交互數(shù)據(jù)中的安全性信息在更新所述動(dòng)作價(jià)值網(wǎng)絡(luò)時(shí)的權(quán)重;所述當(dāng)前訓(xùn)練周期的安全熵權(quán)重參數(shù)為預(yù)設(shè)參數(shù),或者,基于前一訓(xùn)練周期確定的目標(biāo)交互數(shù)據(jù)中的安全性信息確定; 通過(guò)最小化貝爾曼殘差更新當(dāng)前訓(xùn)練周期的動(dòng)作價(jià)值網(wǎng)絡(luò),包括: 基于所述安全熵權(quán)重參數(shù),通過(guò)最小化貝爾曼殘差更新當(dāng)前訓(xùn)練周期的動(dòng)作價(jià)值網(wǎng)絡(luò)。
如需購(gòu)買(mǎi)、轉(zhuǎn)讓、實(shí)施、許可或投資類似專利技術(shù),可聯(lián)系本專利的申請(qǐng)人或?qū)@麢?quán)人之江實(shí)驗(yàn)室,其通訊地址為:311121 浙江省杭州市余杭區(qū)中泰街道科創(chuàng)大道之江實(shí)驗(yàn)室;或者聯(lián)系龍圖騰網(wǎng)官方客服,聯(lián)系龍圖騰網(wǎng)可撥打電話0551-65771310或微信搜索“龍圖騰網(wǎng)”。
1、本報(bào)告根據(jù)公開(kāi)、合法渠道獲得相關(guān)數(shù)據(jù)和信息,力求客觀、公正,但并不保證數(shù)據(jù)的最終完整性和準(zhǔn)確性。
2、報(bào)告中的分析和結(jié)論僅反映本公司于發(fā)布本報(bào)告當(dāng)日的職業(yè)理解,僅供參考使用,不能作為本公司承擔(dān)任何法律責(zé)任的依據(jù)或者憑證。
- 北京奇虎科技有限公司郜業(yè)飛獲國(guó)家專利權(quán)
- 新思考電機(jī)有限公司孫偉獲國(guó)家專利權(quán)
- 弗勞恩霍夫應(yīng)用研究促進(jìn)協(xié)會(huì)阿德里安·姆塔薩獲國(guó)家專利權(quán)
- 西安艾潤(rùn)物聯(lián)網(wǎng)技術(shù)服務(wù)有限責(zé)任公司王林祥獲國(guó)家專利權(quán)
- Log10有限公司弗朗西斯庫(kù)斯·瑪麗亞·維霍文獲國(guó)家專利權(quán)
- 北京奇虎科技有限公司肖勝濤獲國(guó)家專利權(quán)
- 長(zhǎng)鑫存儲(chǔ)技術(shù)有限公司吳秉桓獲國(guó)家專利權(quán)
- 長(zhǎng)鑫存儲(chǔ)技術(shù)有限公司請(qǐng)求不公布姓名獲國(guó)家專利權(quán)
- 深圳幀觀德芯科技有限公司劉雨潤(rùn)獲國(guó)家專利權(quán)
- 高通股份有限公司A·馬諾拉科斯獲國(guó)家專利權(quán)


熱門(mén)推薦
- 武漢天馬微電子有限公司辛宇獲國(guó)家專利權(quán)
- 三星電子株式會(huì)社金煐勛獲國(guó)家專利權(quán)
- 費(fèi)希爾控制產(chǎn)品國(guó)際有限公司L·D·米勒獲國(guó)家專利權(quán)
- 華為技術(shù)有限公司范強(qiáng)獲國(guó)家專利權(quán)
- LG電子株式會(huì)社具文模獲國(guó)家專利權(quán)
- 杭州巨星科技股份有限公司李躍明獲國(guó)家專利權(quán)
- 福特全球技術(shù)公司克里斯多夫·斯蒂芬·奧康納獲國(guó)家專利權(quán)
- LG電子株式會(huì)社具文模獲國(guó)家專利權(quán)
- 福特全球技術(shù)公司阿迪希亞·普拉瓦倫·雷·蘭加獲國(guó)家專利權(quán)
- 特靈國(guó)際有限公司S·A·庫(kù)杰克獲國(guó)家專利權(quán)