齊魯工業大學(山東省科學院);山東省計算中心(國家超級計算濟南中心)郭瑩獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網獲悉齊魯工業大學(山東省科學院);山東省計算中心(國家超級計算濟南中心)申請的專利基于DDQN和啟發式策略的計算-存儲流聯合調度優化方法及系統獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN120371483B 。
龍圖騰網通過國家知識產權局官網在2025-09-09發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202510863895.X,技術領域涉及:G06F9/48;該發明授權基于DDQN和啟發式策略的計算-存儲流聯合調度優化方法及系統是由郭瑩;鄭鎮坤;王迪;張秋萍;岳龍飛;劉袁和設計研發完成,并于2025-06-26向國家知識產權局提交的專利申請。
本基于DDQN和啟發式策略的計算-存儲流聯合調度優化方法及系統在說明書摘要公布了:本發明涉及基于DDQN和啟發式策略的計算?存儲流聯合調度優化方法及系統,屬于分布式計算與智能調度技術領域,包括:(1)計算流與存儲流定義;(2)工作流調度與執行:當工作流被觸發時,調度器根據任務之間的依賴關系與調度策略,逐個評估任務的可執行狀態,并將可執行的任務提交給任務執行器;任務執行器負責在工作節點上執行這些任務,確保按照預定的順序和優先級完成任務;(3)DAG結構、隊列信息和運行數收集;(4)基于歷史運行數據的任務運行時間與資源使用預測;(5)基于DDQN和啟發式策略調度優化;(6)調度信息獲取與保存。本發明顯著提升系統的任務執行效率與資源利用率。
本發明授權基于DDQN和啟發式策略的計算-存儲流聯合調度優化方法及系統在權利要求書中公布了:1.基于DDQN和啟發式策略的計算-存儲流聯合調度優化方法,其特征在于,包括: 1計算流與存儲流定義; 2工作流調度與執行:當工作流被觸發時,調度器根據任務之間的依賴關系與調度策略,逐個評估任務的可執行狀態,并將可執行的任務提交給任務執行器;任務執行器負責在工作節點上執行這些任務,確保按照預定的順序和優先級完成任務; 3DAG結構、隊列信息和運行數收集; 4基于歷史運行數據的任務運行時間與資源使用預測; 5基于DDQN和啟發式策略調度優化; 6調度信息獲取與保存; 步驟5中,基于DDQN和啟發式策略調度優化,包括: 5-1構建四維狀態張量S,如公式6所示: 其中,B表示批量大小,Nt表示任務總數,Nq表示隊列總數,D表示特征維度,D為Dtask+Dqueue; 任務特征Dtask為9+Nt,如公式7所示: 其中,w表示任務權重,qassigned表示已分配的隊列編號,表示是否為關鍵路徑任務,表示是否為計算流任務,表示是否為觸發器任務,表示是否為傳感器任務,表示預測的運行時間、CPU、內存,表示依賴任務獨熱編碼; 隊列特征:Dqueue,如公式8所示: 其中,cavail表示隊列可用CPU資源,ctotal表示隊列總CPU資源,mavail表示隊列可用內存,mtotal表示隊列總內存,savail表示隊列可用存儲,stotals表示隊列總存儲,ntasks表示隊列中已分配任務數,tend表示隊列當前任務結束時間戳; 5-2進行多輪Episode訓練,直到滿足終止條件;每個Episode包括以下步驟: 環境重置:將仿真環境恢復至初始狀態,清空之前的交互歷史數據; 任務完成判定:檢測當前Episode是否已完成所有預設任務目標,若任務已完成,則跳過后續步驟,直接進入下一Episode; 5-3在當前Episode中,按時間步執行以下操作: 可用動作檢測:根據環境當前狀態,獲得合法動作集合; 從合法動作集合中獲取合法動作,驗證動作合法性的關鍵函數Va,如公式9所示: 其中,a表示對任務ti的具體操作,ti表示當前待調度的任務,depsti表示依賴集合,td表示依賴任務,statustd表示任務狀態; 根據混合epsilon-greedy與啟發式規則a,如公式10所示,選擇最優的動作; 其中,∈表示探索率,θonline表示在線網絡參數,表示任務i的合法隊列集合; j表示合法隊列集合中的一個動作,Q表示強化學習中Q值函數,Heuristic表示啟發式策略函數; 啟發式規則優先將任務分配到當前負載高但需求匹配度低的隊列,避免資源過載,如公式11所示: 對每個隊列j,計算其負載評分LoadScorej,如公式12所示: 表示CPU重要性權重,表示內存重要性權重; CPU使用率如公式13所示: availablecpuj表示隊列j當前可用CPU核數,Ctotal表示隊列j的總CPU配額; 內存使用率如公式14所示: availablememoryj表示隊列j當前剩余可用內存,Mtotal表示隊列j的總內存配額; 通過多目標加權的方式,綜合評估調度動作的優劣,如公式15所示: R=wbalance*rbalance+wtaskbalance*rtaskbalance+wdependency*rdependency+wlocal*rlocal-λ·penalty15; 其中,wbalance表示資源負載均衡評分的權重;rbalance表示資源負載均衡得分;wtaskbalance表示任務數量均衡評分的權重;rtaskbalance表示任務數量均衡評分;wdependency表示依賴完成獎勵的權重;rdependency表示依賴完成獎勵;wlocal表示局部利用率獎勵的權重;rlocal表示局部利用率獎勵;λ表示全局差異懲罰的懲罰系數;penalty表示全局差異懲罰; 具體評分項如下: 負載均衡評分rbalance表示各隊列CPU內存利用率的均衡性,如公式16所示: 其中,uc表示各隊列的CPU利用率,um表示各隊列的內存利用率,σ·標準差,衡量資源利用率的波動性; 任務數量均衡評分rtaskbalance表示各隊列任務數的均衡性,如公式17所示: 其中,ntasks各表示隊列的任務數量,σntasks表示任務數量標準差,maxntasks表示所有隊列中最大任務數; 依賴完成獎勵rdependency表示未完成依賴任務數的懲罰,如公式18所示: 其中,td表示當前任務的依賴任務,表示指示函數,若依賴任務未完成則值為1,否則為0; 局部利用率獎勵rlocal表示當前隊列的CPU內存利用率,如公式19所示: 其中,表示當前隊列j的CPU利用率,表示當前隊列j的內存利用率; 全局差異懲罰為penalty表示各隊列最大與最小CPU利用率的差異,如公式20所示: penalty=maxuc-minuc20; 其中,maxuc表示所有隊列中最大CPU利用率,minuc表示所有隊列中最小CPU利用率; 5-4通過持續的交互過程不斷采集經驗數據保存在經驗回放緩沖區,在每一次任務調度過程中,記錄一個五元組形式的交互樣本,如公式21所示: state,action,reward,next_state,done21; 其中,state表示當前調度環境的狀態,action表示智能體在當前狀態下做出的調度決策,reward表示當前調度動作帶來的即時反饋,next_state表示動作執行后環境的下一狀態,done表示當前調度過程是否已結束,為布爾值; 通過不斷執行調度動作,逐步收集五元組,并將五元組存儲到經驗回放池中; 當樣本數量達到一定規模后,從中采樣構成一個訓練集,用于對Q值函數進行優化訓練。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人齊魯工業大學(山東省科學院);山東省計算中心(國家超級計算濟南中心),其通訊地址為:250353 山東省濟南市長清區大學路3501號;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。