南京航空航天大學(xué)吳巧云獲國(guó)家專(zhuān)利權(quán)
買(mǎi)專(zhuān)利賣(mài)專(zhuān)利找龍圖騰,真高效! 查專(zhuān)利查商標(biāo)用IPTOP,全免費(fèi)!專(zhuān)利年費(fèi)監(jiān)控用IP管家,真方便!
龍圖騰網(wǎng)獲悉南京航空航天大學(xué)申請(qǐng)的專(zhuān)利基于脈沖混合強(qiáng)化學(xué)習(xí)的移動(dòng)機(jī)器人避障運(yùn)動(dòng)規(guī)劃方法獲國(guó)家發(fā)明授權(quán)專(zhuān)利權(quán),本發(fā)明授權(quán)專(zhuān)利權(quán)由國(guó)家知識(shí)產(chǎn)權(quán)局授予,授權(quán)公告號(hào)為:CN120406474B 。
龍圖騰網(wǎng)通過(guò)國(guó)家知識(shí)產(chǎn)權(quán)局官網(wǎng)在2025-09-02發(fā)布的發(fā)明授權(quán)授權(quán)公告中獲悉:該發(fā)明授權(quán)的專(zhuān)利申請(qǐng)?zhí)?專(zhuān)利號(hào)為:202510926612.1,技術(shù)領(lǐng)域涉及:G05D1/43;該發(fā)明授權(quán)基于脈沖混合強(qiáng)化學(xué)習(xí)的移動(dòng)機(jī)器人避障運(yùn)動(dòng)規(guī)劃方法是由吳巧云;易程;汪俊;李祥雨;王為周設(shè)計(jì)研發(fā)完成,并于2025-07-07向國(guó)家知識(shí)產(chǎn)權(quán)局提交的專(zhuān)利申請(qǐng)。
本基于脈沖混合強(qiáng)化學(xué)習(xí)的移動(dòng)機(jī)器人避障運(yùn)動(dòng)規(guī)劃方法在說(shuō)明書(shū)摘要公布了:本發(fā)明涉及移動(dòng)機(jī)器人避障運(yùn)動(dòng)規(guī)劃技術(shù)領(lǐng)域,解決了移動(dòng)機(jī)器人在靈活避障運(yùn)動(dòng)規(guī)劃過(guò)程中面臨能耗過(guò)高,以及自主導(dǎo)航能力和避障性能存在不足的技術(shù)問(wèn)題,尤其涉及一種基于脈沖混合強(qiáng)化學(xué)習(xí)的移動(dòng)機(jī)器人避障運(yùn)動(dòng)規(guī)劃方法,通過(guò)將脈沖神經(jīng)網(wǎng)絡(luò)的低能耗特性與強(qiáng)化學(xué)習(xí)的靈活決策機(jī)制相結(jié)合,使移動(dòng)機(jī)器人能夠在復(fù)雜環(huán)境中自主生成最優(yōu)路徑,同時(shí)有效降低計(jì)算成本和能量浪費(fèi)。本發(fā)明能夠有效提升移動(dòng)機(jī)器人在動(dòng)態(tài)環(huán)境中的避障性能,使其在復(fù)雜多變的環(huán)境中實(shí)現(xiàn)安全、高效的自主導(dǎo)航,使移動(dòng)機(jī)器人在降低能耗的同時(shí),仍能保持優(yōu)異的性能表現(xiàn),從而推動(dòng)智能裝備在智能制造領(lǐng)域的廣泛應(yīng)用和實(shí)用化進(jìn)程。
本發(fā)明授權(quán)基于脈沖混合強(qiáng)化學(xué)習(xí)的移動(dòng)機(jī)器人避障運(yùn)動(dòng)規(guī)劃方法在權(quán)利要求書(shū)中公布了:1.一種基于脈沖混合強(qiáng)化學(xué)習(xí)的移動(dòng)機(jī)器人避障運(yùn)動(dòng)規(guī)劃方法,其特征在于,該方法包括以下步驟: S1、移動(dòng)機(jī)器人在任一次環(huán)境交互中,從傳感器獲取每一步場(chǎng)景中包括觀測(cè)值以及動(dòng)作空間的觀測(cè)信息; S2、建立以觀測(cè)信息作為輸入,強(qiáng)化移動(dòng)機(jī)器人在動(dòng)態(tài)環(huán)境中對(duì)環(huán)境信息的感知,并輸出移動(dòng)機(jī)器人在動(dòng)態(tài)環(huán)境中規(guī)避障礙物所需執(zhí)行動(dòng)作指令的混合脈沖強(qiáng)化學(xué)習(xí)模型;所述混合脈沖強(qiáng)化學(xué)習(xí)模型包括: 一個(gè)群體編碼的編碼模塊,用以將觀測(cè)信息映射為多通道神經(jīng)元的活動(dòng)激活值,并生成固定時(shí)間步長(zhǎng)的脈沖序列; 以脈沖序列作為輸入的脈沖神經(jīng)網(wǎng)絡(luò)模塊,用于模擬生物神經(jīng)元膜電位變化、突觸電流積累與脈沖觸發(fā)機(jī)制并輸出編碼活動(dòng); 以及,將脈沖神經(jīng)網(wǎng)絡(luò)模塊輸出的編碼活動(dòng)轉(zhuǎn)換為更直觀的動(dòng)作空間表達(dá)的解碼模塊; S3、建立在移動(dòng)機(jī)器人執(zhí)行動(dòng)作指令下用于引導(dǎo)移動(dòng)機(jī)器人路徑規(guī)劃訓(xùn)練的獎(jiǎng)勵(lì)機(jī)制,具體過(guò)程包括: 如果移動(dòng)機(jī)器人向目標(biāo)移動(dòng),則按距離減小的比例給予正向獎(jiǎng)勵(lì),具體更新規(guī)則如下: ; 其中,表示在時(shí)間步,移動(dòng)機(jī)器人到目標(biāo)的歐幾里得距離; 若發(fā)現(xiàn)移動(dòng)機(jī)器人越來(lái)越靠近障礙物時(shí),則給予漸進(jìn)的懲罰,具體公式如下: ; 其中,表示移動(dòng)機(jī)器人距離障礙物的最小距離; 若移動(dòng)機(jī)器人與障礙物的距離小于設(shè)定的障礙物半徑,即移動(dòng)機(jī)器人與障礙物發(fā)生了碰撞,則給予懲罰并結(jié)束,即: ; 其中,、分別為移動(dòng)機(jī)器人和障礙物的尺寸大小; 移動(dòng)機(jī)器人與目標(biāo)的距離小于目標(biāo)范圍,即移動(dòng)機(jī)器人成功到達(dá)目標(biāo)點(diǎn),則一次性給予大額獎(jiǎng)勵(lì)并終止任務(wù),即: ; 其中,表示目標(biāo)點(diǎn)的范圍; 引入時(shí)間懲罰,并基于正向獎(jiǎng)勵(lì)、懲罰、懲罰以及大額獎(jiǎng)勵(lì),獲得用于引導(dǎo)移動(dòng)機(jī)器人路徑規(guī)劃訓(xùn)練的總獎(jiǎng)勵(lì),表達(dá)式為: ; 其中,表示獎(jiǎng)勵(lì)機(jī)制下的總獎(jiǎng)勵(lì); S4、對(duì)混合脈沖強(qiáng)化學(xué)習(xí)模型的參數(shù)進(jìn)行優(yōu)化,獲得用于指導(dǎo)移動(dòng)機(jī)器人完成避障任務(wù)的最優(yōu)運(yùn)動(dòng)路徑,具體過(guò)程包括以下步驟: S41、基于最大熵強(qiáng)化學(xué)習(xí)算法建立用于對(duì)混合脈沖強(qiáng)化學(xué)習(xí)模型的參數(shù)進(jìn)行優(yōu)化的深度強(qiáng)化學(xué)習(xí)框架,所述深度強(qiáng)化學(xué)習(xí)框架包括生成一個(gè)概率分布用于決定移動(dòng)機(jī)器人動(dòng)作的策略網(wǎng)絡(luò),以及用來(lái)評(píng)估狀態(tài)-動(dòng)作對(duì)價(jià)值的價(jià)值網(wǎng)絡(luò); S42、以最小化策略損失和Q值損失來(lái)訓(xùn)練策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)作為深度強(qiáng)化學(xué)習(xí)框架的訓(xùn)練目標(biāo); S43、基于訓(xùn)練目標(biāo),以最大化策略的期望回報(bào),并最小化策略的熵作為優(yōu)化策略損失的目標(biāo),表達(dá)式為: ; 其中,表示從經(jīng)驗(yàn)回放池D中隨機(jī)抽取樣本;表示熵正則化系數(shù),用來(lái)平衡探索與利用;表示狀態(tài)和動(dòng)作的值,和是價(jià)值網(wǎng)絡(luò)對(duì)同一狀態(tài)-動(dòng)作對(duì)的兩個(gè)不同值估計(jì); S44、基于獎(jiǎng)勵(lì)機(jī)制計(jì)算混合脈沖強(qiáng)化學(xué)習(xí)模型對(duì)未來(lái)獎(jiǎng)勵(lì)的預(yù)測(cè),即: ; 其中,表示當(dāng)前狀態(tài)和動(dòng)作所獲得的獎(jiǎng)勵(lì);表示折扣因子,決定了未來(lái)獎(jiǎng)勵(lì)的影響;表示當(dāng)前策略下,動(dòng)作在狀態(tài)下的對(duì)數(shù)概率,用于鼓勵(lì)移動(dòng)機(jī)器人進(jìn)行更多探索; S45、根據(jù)對(duì)未來(lái)獎(jiǎng)勵(lì)的預(yù)測(cè),使用雙Q網(wǎng)絡(luò)最小化損失函數(shù)來(lái)訓(xùn)練價(jià)值網(wǎng)絡(luò),即: ; 其中,表示價(jià)值網(wǎng)絡(luò)損失; S46、隨機(jī)初始化整個(gè)深度強(qiáng)化學(xué)習(xí)框架的參數(shù),并使用Adam優(yōu)化器更新各模塊的權(quán)重。
如需購(gòu)買(mǎi)、轉(zhuǎn)讓、實(shí)施、許可或投資類(lèi)似專(zhuān)利技術(shù),可聯(lián)系本專(zhuān)利的申請(qǐng)人或?qū)@麢?quán)人南京航空航天大學(xué),其通訊地址為:210016 江蘇省南京市秦淮區(qū)御道街29號(hào);或者聯(lián)系龍圖騰網(wǎng)官方客服,聯(lián)系龍圖騰網(wǎng)可撥打電話0551-65771310或微信搜索“龍圖騰網(wǎng)”。
1、本報(bào)告根據(jù)公開(kāi)、合法渠道獲得相關(guān)數(shù)據(jù)和信息,力求客觀、公正,但并不保證數(shù)據(jù)的最終完整性和準(zhǔn)確性。
2、報(bào)告中的分析和結(jié)論僅反映本公司于發(fā)布本報(bào)告當(dāng)日的職業(yè)理解,僅供參考使用,不能作為本公司承擔(dān)任何法律責(zé)任的依據(jù)或者憑證。
- 法國(guó)圣戈班玻璃公司徐陽(yáng)獲國(guó)家專(zhuān)利權(quán)
- 衛(wèi)理公會(huì)醫(yī)院王榮福獲國(guó)家專(zhuān)利權(quán)
- 華為技術(shù)有限公司基多·蒙托里西獲國(guó)家專(zhuān)利權(quán)
- QORVO美國(guó)公司朱利奧·C·科斯塔獲國(guó)家專(zhuān)利權(quán)
- 北京小米移動(dòng)軟件有限公司婁椿杰獲國(guó)家專(zhuān)利權(quán)
- 合芯磁導(dǎo)科技(無(wú)錫)有限公司朱浩宇獲國(guó)家專(zhuān)利權(quán)
- 恩智浦有限公司弗朗西斯科斯·皮特魯斯·韋德索文獲國(guó)家專(zhuān)利權(quán)
- 吳勇軍獲國(guó)家專(zhuān)利權(quán)
- 上海市政工程設(shè)計(jì)研究總院(集團(tuán))有限公司岳貴平獲國(guó)家專(zhuān)利權(quán)
- 蘇州肺盾醫(yī)療科技有限公司博爾夏特·拉爾夫獲國(guó)家專(zhuān)利權(quán)
熱門(mén)推薦
- 株式會(huì)社NTT都科摩吉岡翔平獲國(guó)家專(zhuān)利權(quán)
- 蘇州阿特斯陽(yáng)光電力科技有限公司李碩獲國(guó)家專(zhuān)利權(quán)
- 住友電氣工業(yè)株式會(huì)社后藤健吾獲國(guó)家專(zhuān)利權(quán)
- 微軟技術(shù)許可有限責(zé)任公司J·M·加希爾獲國(guó)家專(zhuān)利權(quán)
- 蒂森克虜伯鋼鐵歐洲股份公司托比亞斯·萊韋獲國(guó)家專(zhuān)利權(quán)
- 發(fā)那科株式會(huì)社細(xì)田明廣獲國(guó)家專(zhuān)利權(quán)
- 西門(mén)子能源全球有限公司M.斯佩斯獲國(guó)家專(zhuān)利權(quán)
- 北京九強(qiáng)生物技術(shù)股份有限公司張永俠獲國(guó)家專(zhuān)利權(quán)
- 群創(chuàng)光電股份有限公司吳湲琳獲國(guó)家專(zhuān)利權(quán)
- 福斯德公司J·克希亞獲國(guó)家專(zhuān)利權(quán)
皖公網(wǎng)安備 34010402703815號(hào)