齊魯工業大學(山東省科學院);山東省計算中心(國家超級計算濟南中心)王繼彬獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網獲悉齊魯工業大學(山東省科學院);山東省計算中心(國家超級計算濟南中心)申請的專利一種分布式數據并行訓練中的彈性資源調整方法獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN120448040B 。
龍圖騰網通過國家知識產權局官網在2025-09-26發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202510947207.8,技術領域涉及:G06F9/455;該發明授權一種分布式數據并行訓練中的彈性資源調整方法是由王繼彬;李迪;郭瑩;潘景山;吳曉明;楊美紅設計研發完成,并于2025-07-10向國家知識產權局提交的專利申請。
本一種分布式數據并行訓練中的彈性資源調整方法在說明書摘要公布了:本發明涉及一種分布式數據并行訓練中的彈性資源調整方法,包括:步驟一:利用性能監控模塊實時監測作業性能;步驟二:依據預設適應性函數評估及重分配懲罰機制進行綜合考量,對當前集群的資源狀況進行全面評估;當通過適應性函數判斷不進行重調度會嚴重影響集群性能時,迅速啟動重調度流程;步驟三:根據對適應性函數的持續監測與評估,判斷需要對哪些作業執行何種彈性操作;同時,依據彈性調整目標,運用智能節點篩選算法從可用節點池中挑選出最適合的節點;步驟四:執行彈性調度策略,實際進行資源的彈性調整操作;針對于不同作業的不同彈性操作,通過增量式通信拓撲重構機制和梯度緩存與插值補償機制,實現資源的動態調整與優化配置。
本發明授權一種分布式數據并行訓練中的彈性資源調整方法在權利要求書中公布了:1.一種分布式數據并行訓練中的彈性資源調整方法,其特征在于,包括: 步驟一:利用性能監控模塊實時監測作業性能,收集包括計算負載、通信帶寬、GPU利用率關鍵性能指標; 步驟二:依據預設適應性函數評估及重分配懲罰機制進行綜合考量,對當前集群的資源狀況進行全面評估;當通過適應性函數判斷不進行重調度會嚴重影響集群性能時,迅速啟動重調度流程,著手進行資源彈性調整操作; 步驟三:根據對適應性函數的持續監測與評估,判斷需要對哪些作業執行何種彈性操作;同時,依據彈性調整目標,運用智能節點篩選算法從可用節點池中挑選出最適合的節點; 步驟四:執行彈性調度策略,實際進行資源的彈性調整操作;針對于不同作業的不同彈性操作,通過增量式通信拓撲重構機制和梯度緩存與插值補償機制,實現資源的動態調整與優化配置; 利用增量式通信拓撲構建機制,為作業的計算節點構建新的通信拓撲;包括: 步驟S5051:資源隔離與預檢;對于所選擇擴展的GPU、內存及網絡帶寬資源進行隔離,同時進行節點健康檢查操作,剔除異常設備; 步驟S5052:拓撲結構探索;調用NCCL拓撲發現接口獲取硬件拓撲信息,包括集群內所有節點的物理連接關系、GPU架構及網絡接口信息; 步驟S5053:通信狀態感知;通過分布式探針實時采集節點i,j間通信性能數據,包括單次同步的數據傳輸量D,實時有效帶寬Bi,j,固定通信延遲Li,j及通信隊列實時深度Queuei,j; 步驟S5054:通信成本建模;根據獲取的硬件拓撲信息和通信性能數據,構建拓撲成本模型定義節點i,j間通信成本Ci,j為多維函數,由數據傳輸耗時項、固定延遲項和瞬時堵塞項組成,公式如下: 其中,α,β,γ為動態權重系數,滿足約束α+β+γ=1且α,β,γ≥0.1;設計邏輯如下: 具體而言,通過最小化通信成本函數Ci,j與分布式探針實時采集到的實際端到端延遲的均方誤差,獲取最佳權重值α,β,γ; 步驟S5055:最優插入決策;運用強化學習驅動的最優插入算法,以當前通信拓撲結構和節點信息作為狀態,新節點插入的位置選擇作為動作,基于通信成本的降低幅度作為獎勵函數,從候選位置中選擇對全局影響最小的插入點,即總成本增量最低;對于拓撲中的現有節點k,量化的成本增量ΔCk定義為插入新節點new后的新增鏈路成本與原鏈路斷開之前的通信成本的差值,公式如下: ΔCk=Ck,new+Cnew,k+1-Ck,k+19; 步驟S5056:連通性校驗;新通信拓撲建立完成后,進行模擬傳輸測試,確保拓撲中無環路或孤島節點; 如果不存在連通性問題,則直接進行通信拓撲切換;否則重新執行步驟S1055,再次構建最優通信拓撲; 采用梯度緩存與異步插值補償機制,通過保存歷史梯度數據并利用插值算法動態補償未完成的梯度計算;包括: 步驟S601:彈性縮容觸發; 步驟S602:退出節點篩選;接收縮減請求后,對當前集群的資源狀況進行全面評估;包括GPU的使用率、顯存占用、網絡帶寬利用率指標;在選擇退出節點時,選擇算力利用率低,且數據遷移成本低的作為退出節點;算力利用率低是指:GPU在統計周期內的平均使用率低于設定閾值;定義為:GPU使用率小于30%且顯存占用率小于40%;數據遷移成本低是指:將節點上的未完成數據批次或模型副本遷移至其他節點所需的通信成本、等待時間較短;具體是指:數據遷移量小于500MB且網絡傳輸延遲小于10ms,或者該節點上僅參與低優先級、可暫停任務的訓練; 步驟S603:一致性校驗;在確定退出節點后,檢查訓練作業是否處于梯度同步安全點,驗證待移除節點的計算進度與全局模型版本的一致性; 如果是的話,則執行步驟S604,節點直接退出;否則執行步驟S605,計算退出節點補償梯度; 步驟S604:節點直接退出; 步驟S605:補償梯度計算;當退出節點正處于當前mini-batch的梯度計算過程中,啟動梯度插值補償機制;通過融合退出節點的歷史緩存梯度與集群實時梯度,生成補償值以替代未完成的梯度計算; 步驟S606:異步聚合;在補償梯度生成后,通過非阻塞通信機制實現補償梯度的快速分發與參數更新同步; 步驟S607:訓練作業恢復; 補償梯度計算;包括: 步驟S6051:梯度緩存獲取;為每個計算節點建立一個梯度緩存隊列,始終保存最新且最有可能被調用的梯度數據;在退出節點的梯度緩存池中獲取最新緩存梯度gcached; 步驟S6052:實時梯度聚合;對剩余n個節點的當前mini-batch梯度{g1,g2,…,gn}進行收集,計算梯度均值 步驟S6053:權重動態修正;引入p作為平衡歷史梯度與實時梯度的權重;具體而言,通過將退出節點在當前mini-batch的原始進度值pprogres進行梯度相似度修正操作,調整權重分配: 其中,Δg=gcached-gavg,為梯度差異向量;修正項對退出節點的歷史梯度與剩余節點實時梯度的一致性進行量化:||.||表示向量的L2范數,衡量梯度變化幅度; 步驟S6054:補償梯度融合;通過將退出節點的歷史梯度信息與剩余節點的當前梯度信息進行加權融合,生成補償梯度;通過以下公式計算補償梯度gcomp: gcomp=p×gcached+1-p×gavg12。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人齊魯工業大學(山東省科學院);山東省計算中心(國家超級計算濟南中心),其通訊地址為:250353 山東省濟南市長清區大學路3501號;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。