季華實驗室黃澤帆獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網獲悉季華實驗室申請的專利基于模擬環境驅動強化學習的光束指向穩定方法及系統獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN119623292B 。
龍圖騰網通過國家知識產權局官網在2025-09-26發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202411770011.8,技術領域涉及:G06F30/27;該發明授權基于模擬環境驅動強化學習的光束指向穩定方法及系統是由黃澤帆;李延偉;谷佳榮;王碩;謝虹波;費強;楊睿設計研發完成,并于2024-12-04向國家知識產權局提交的專利申請。
本基于模擬環境驅動強化學習的光束指向穩定方法及系統在說明書摘要公布了:本發明涉及光學與控制技術領域,公開了一種基于模擬環境驅動強化學習的光束指向穩定方法及系統,根據集成光路內上下級串聯關系劃分為若干子光路環節;記錄快速反射鏡組的鏡面偏擺角度及擺動前后的光束指向漂移數據,形成樣本數據集;基于所述樣本數據集構建基于卷積神經網絡的模擬環境模型;以模擬環境模型為虛擬交互環境,構建光束指向矯正智能體,使用強化學習框架進行訓練;將光束指向矯正智能體用到真實環境的實際光路中,通過真實環境的實際光路繼續進行強化學習訓練,訓練完畢后,使用光束指向矯正智能體對真實環境的光束指向調整裝置的快速反射鏡組進行控制;本發明能夠應對多類型干擾環境下的復雜串聯耦合光路系統的光束漂移問題。
本發明授權基于模擬環境驅動強化學習的光束指向穩定方法及系統在權利要求書中公布了:1.基于模擬環境驅動強化學習的光束指向穩定方法,其特征在于,所述基于模擬環境驅動強化學習的光束指向穩定方法包括以下步驟: S1、根據集成光路內上下級串聯關系劃分為若干子光路環節,其中每個子光路環節均包含一個獨立的光束指向調整裝置; S2、驅動光束指向調整裝置并調整快速反射鏡組的鏡面偏擺角度,記錄快速反射鏡組的鏡面偏擺角度及擺動前后的光束指向漂移數據,形成樣本數據集; S3、基于所述樣本數據集構建基于卷積神經網絡的模擬環境模型; S4、以模擬環境模型為虛擬交互環境,構建光束指向矯正智能體,結合回報計算器、狀態寄存器、動作累加器、張量拼接器,使用強化學習框架進行訓練; S5、將模擬環境模型預訓練強化學習所得的光束指向矯正智能體用到真實環境的實際光路中,通過真實環境的實際光路繼續進行強化學習訓練,訓練完畢后,使用光束指向矯正智能體對真實環境的光束指向調整裝置的快速反射鏡組進行控制; 步驟S4包括以下步驟: S41、定義隨機初始狀態隨機初始狀態為初始t時刻模擬光束指向調整裝置的光斑位置偏移值,記錄初始t時刻的光斑位置偏移程度動作累加器初始值Ptotal=[px1,py1,px2,py2]=[0,0,0,0]; S42、隨機初始狀態St輸出到光束指向矯正智能體、狀態寄存器,狀態寄存器保存本次狀態St,光束指向矯正智能體的控制策略網絡根據St做出決策輸出動作該動作為光束指向矯正智能體根據當前狀態給出的使光束指向偏差趨向最小的快速反射鏡偏擺角度; S43、動作累加器接收最新的動作At,計算累計的快速反射鏡偏擺角度,即: S44、張量拼接器從狀態寄存器接收歷史狀態St、當前時刻的動作At,拼接為張量并將張量v作為模擬環境模型的輸入; S45、模擬環境模型根據輸入張量v,輸出新的光斑位置偏移值作為新時刻t+1的狀態狀態寄存器接收最新的狀態St+1進行更新; S46、回報計算器依據下式計算獎勵rt: rt=Difft+Penaltyt 其中,來自t+1時刻的狀態St+1,px1、py1、px2、py2來自動作累加器Ptotal,α是一個大于0的正則化系數,Difft用于衡量光束指向調整裝置進行快速反射鏡偏擺后的光束指向偏離程度,Penaltyt用于約束快速反射鏡的累計動作擺幅; S47、光束指向矯正智能體接受回報計算器給與的獎勵rt,若光束指向矯正智能體收斂,則結束本輪訓練,否則根據新的狀態St+1,繼續進行迭代訓練,并迭代更新光束指向矯正智能體,一輪訓練最大持續K次迭代過程。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人季華實驗室,其通訊地址為:528200 廣東省佛山市南海區桂城街道環島南路28號;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。