南京信息工程大學張朔獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網獲悉南京信息工程大學申請的專利一種基于深度強化學習的外賣配送路徑規劃方法獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN115841286B 。
龍圖騰網通過國家知識產權局官網在2025-08-22發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202211042369.X,技術領域涉及:G06Q10/0835;該發明授權一種基于深度強化學習的外賣配送路徑規劃方法是由張朔設計研發完成,并于2022-08-29向國家知識產權局提交的專利申請。
本一種基于深度強化學習的外賣配送路徑規劃方法在說明書摘要公布了:本發明公開了路徑規劃技術領域的一種基于深度強化學習的外賣配送路徑規劃方法,所述規劃方法包括以下步驟:步驟一:讀取問題輸入的信息,定義優化目標,設定約束條件;步驟二:搭建編碼器?解碼器架構中的基礎神經網絡;步驟三:構建演員和評論家網絡;步驟四:設定網絡訓練過程參數;步驟五:構建數據集;步驟六:演員網絡和評論家網絡的前向傳遞;步驟七:網絡的訓練與更新;步驟八:終止判斷。本發明具有求解速度快、泛化能力強的優點,有著更好的適應能力和發展前景,能夠對更加復雜的問題進行模擬和求解,引入注意力?指針網絡結構加快了算法收斂的速度,已訓練好的網絡參數可以保存,不需要每次重新進行大量的運算。
本發明授權一種基于深度強化學習的外賣配送路徑規劃方法在權利要求書中公布了:1.一種基于深度強化學習的外賣配送路徑規劃方法,其特征在于,所述規劃方法包括以下步驟: 步驟一:讀取問題輸入的信息,定義優化目標,設定約束條件; 步驟二:搭建以注意力-指針網絡機制為基礎的編碼器-解碼器架構中的基礎神經網絡,并初始化它們的權值和偏置參數; 步驟三:在步驟二搭建的基礎神經網絡基礎上,結合演員-評論家算法,構建演員網絡和評論家網絡; 步驟四:設定網絡訓練過程參數; 步驟五:收集取送貨節點位置信息,并為數據添加先后次序約束,構建數據集,劃分為訓練樣本集、驗證樣本集以及測試數據集; 步驟六:輸入訓練樣本集中的數據,使用演員網絡給出騎手的預測行程序列,即騎手訪問各個取送貨節點的合法次序,并給出序列對應的行程距離,再利用評論家網絡對演員網絡的輸出結果做出評價,即給出實際行程距離; 步驟七:進行網絡的訓練與更新,計算演員網絡給出結果與評論家網絡給出結果的差值,進行平方處理后作為損失值,根據損失值進行反向傳播,并使用Adam優化器對神經網絡的參數進行更新; 步驟八:終止判斷,若已完成設定的訓練輪數,或損失值滿足終止條件,則終止迭代,保存最優網絡參數,并在該參數下使用演員網絡給出目標問題的規劃結果,否則轉至步驟六,重復訓練過程,并通過觀察損失的變化和當前網絡在驗證集上的表現評估網絡訓練情況; 所述步驟一中問題的輸入信息包括騎手平均速度、騎手最遠行駛距離、騎手最大攜帶量、訂單時間窗、單個節點最大需求量、節點總數目以及各節點位置; 所述優化目標為完成所有訂單配送任務時的行程總距離最??; 所述約束條件為每個訂單必須在時間窗內被完成且僅被完成一次、騎手的行駛距離不能超過最大行駛距離及騎手必須先取后送; 所述步驟二中搭建的基礎神經網絡的相關結構如下: 選定了編碼器-解碼器作為基礎架構,并引入了使用注意力機制的指針網絡,用于完成傳統方法中seq2seq的過程,其中指針網絡在數學上的描述如下所示: 式中,是編碼器encoder在時間序列次的隱藏層輸出,是解碼器decoder在時間序列次的隱藏狀態輸出,、、為固定維度的參數; 所述編碼器-解碼器結構中,編碼器由一維卷積層構成,解碼器由注意力-指針網絡構成,其中,注意力機制用于計算給定當前狀態的輸入節點上的注意力。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人南京信息工程大學,其通訊地址為:210044 江蘇省南京市浦口區寧六路219號;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。