南京理工大學黃嬋穎獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網獲悉南京理工大學申請的專利一種基于TD3算法的Coflow調度系統獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN116582502B 。
龍圖騰網通過國家知識產權局官網在2025-08-29發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202310536045.X,技術領域涉及:H04L47/6295;該發明授權一種基于TD3算法的Coflow調度系統是由黃嬋穎;王子超;李千目;顏克冬設計研發完成,并于2023-05-12向國家知識產權局提交的專利申請。
本一種基于TD3算法的Coflow調度系統在說明書摘要公布了:本發明公開了一種基于TD3算法的Coflow調度系統,該系統包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序模塊,其中:預處理模塊用于在分布式機器學習通信環境中提取Coflow信息,對信息進行預處理;馬爾可夫模型構建模塊用于建立基于Coflow深度強化學習的馬爾可夫模型,定義動作、環境狀態、獎勵函數;模型訓練模塊使用深度強化學習TD3算法對Coflow環境進行重復迭代訓練,得到最終的模型和策略函數;通信模塊使用得到的模型和策略函數,對分布式機器學習中的Coflow進行通信。本發明能夠自適應的調整多級反饋隊列的閾值,更好的適應不同分布式應用場景,從而擴大適用范圍、提高調度效率。
本發明授權一種基于TD3算法的Coflow調度系統在權利要求書中公布了:1.一種基于TD3算法的Coflow調度系統,其特征在于,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序模塊,所述計算機程序模塊包括順次設置的預處理模塊、馬爾可夫模型構建模塊、模型訓練模塊、通信模塊,其中: 所述預處理模塊,用于在分布式機器學習通信環境中提取Coflow信息,對信息進行預處理; 所述馬爾可夫模型構建模塊,用于建立基于Coflow深度強化學習的馬爾可夫模型,定義動作、環境狀態、獎勵函數; 所述模型訓練模塊,用于使用深度強化學習TD3算法對Coflow環境進行重復迭代訓練,得到最終的模型和策略函數; 所述通信模塊,用于使用模型訓練模塊得到的模型和策略函數,對分布式機器學習中的Coflow進行通信; 所述TD3算法,共包括六個神經網絡,各個神經網絡均有四層神經元,其分別為輸入層、隱藏01層和輸出層; (1)根據起始狀態State,根據神經網絡生成一個Action:{TH1,TH2,…,THn}; 首先將所定義的起始狀態作為Actor神經網絡的輸入,Actor神經網絡會生成一個一位向量,即為當前狀態所產生的動作Action,即一個多級反饋隊列的閾值,按照所生成的Action,對環境網絡中的多級反饋隊列進行相對應的閾值設置,并等到下一階段再次更新多級反饋隊列的閾值; 其中Actor網絡通過使策略梯度值上升進行更新,公式如下: ; 上式中,是Actor的損失函數,等式右邊代表對樣本梯度進行平均,其中表示Actor網絡的參數,表示Critic網絡的參數,表示狀態,表示動作,表示Critic網絡的輸出結果,是Actor網絡的輸出結果; Critic網絡通過以下公式進行更新: ; 上式中,表示第個Critic網絡的參數,表示目標值,表示第個Critic網絡的輸出結果; 對于Actor網絡的參數和Critic網絡的參數,根據以下兩個公式進行軟更新Actor目標網絡和Critic目標網絡的參數: ; ; 其中所代表的是更新步長; 使用經驗回放池記錄決策信息,將最大容量設置為10000; (2)使用Critic神經網絡,對當前{State,Action}使用獎勵函數進行打分操作; Critic神經網絡的功能是判斷當前狀態State下使用當前動作Action的效果;在TD3算法中,使用延遲更新的策略,即當Critic神經網絡更新多次后,Actor網絡才會進行一次更新操作,使Actor神經網絡的訓練更加穩定; (3)重復步驟(1)~步驟(2),當達到固定循環次數,或者Coflow的平均完成時間小于規定的時間時,結束循環過程。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人南京理工大學,其通訊地址為:210094 江蘇省南京市玄武區孝陵衛200號;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。