廈門淵亭信息科技有限公司;湖南淵亭智能科技有限公司洪萬福獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網獲悉廈門淵亭信息科技有限公司;湖南淵亭智能科技有限公司申請的專利一種大規模模型的分布式訓練方法、裝置以及設備獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN120409554B 。
龍圖騰網通過國家知識產權局官網在2025-08-26發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202510897525.8,技術領域涉及:G06N3/0455;該發明授權一種大規模模型的分布式訓練方法、裝置以及設備是由洪萬福;俞婷婷;黃在斌設計研發完成,并于2025-07-01向國家知識產權局提交的專利申請。
本一種大規模模型的分布式訓練方法、裝置以及設備在說明書摘要公布了:本發明公開了一種大規模模型的分布式訓練方法、裝置以及設備,包括:根據待訓練大模型的規模以及訓練任務在當前設備上配置多個計算節點,并對每一計算節點的硬件資源和軟件資源進行配置,得到搭建后的分布式訓練環境;采用不同維度的并行策略對訓練數據集以及所述待訓練大模型進行劃分,得到對應的多個數據塊以及多組模型層;通過加載模型參數、多個數據塊以及多組模型層至所述分布式訓練環境中對應的計算節點上,啟動訓練流程;在訓練過程中,對每一計算節點的運行狀態進行監測,通過引入自適應調度機制動態調整對應計算節點的訓練任務,并在滿足預設的訓練終止條件時,保存訓練完成的目標大模型。能夠滿足高效、穩定、低成本的訓練需求。
本發明授權一種大規模模型的分布式訓練方法、裝置以及設備在權利要求書中公布了:1.一種大規模模型的分布式訓練方法,其特征在于,所述方法包括: 根據待訓練大模型的規模以及訓練任務在當前設備上配置多個計算節點,并對每一計算節點的硬件資源和軟件資源進行配置,得到搭建后的分布式訓練環境; 采用不同維度的并行策略對訓練數據集以及所述待訓練大模型進行劃分,得到對應的多個數據塊以及多組模型層,其中,所述并行策略包括數據并行、模型并行、流水線并行以及上下文并行; 其中,所述采用不同維度的并行策略對訓練數據集以及所述待訓練大模型進行劃分,包括: 采用數據并行的并行策略將所述訓練數據集按照計算節點的數量劃分為多個數據塊,并根據每一計算節點的計算能力和存儲容量動態調整數據塊大小; 通過模型并行的并行策略對所述待訓練大模型進行分層分割,得到多組模型層,并將每一組模型層分配至對應的計算節點; 采用流水線并行的并行策略將所述待訓練大模型劃分為多個連續階段,并分配至對應的計算節點上順序執行; 采用上下文并行的并行策略,根據輸入序列的上下文特征對輸入序列進行分段,將各片段分配至匹配的計算節點并動態調整注意力機制; 其中,所述采用上下文并行的并行策略,根據輸入序列的上下文特征對輸入序列進行分段,將各片段分配至匹配的計算節點并動態調整注意力機制,包括: 根據輸入序列的長度和注意力權重分布對輸入序列進行提取,得到上下文特征; 基于上下文特征,根據預設窗口大小對輸入序列進行分段,并根據每一片段的上下文復雜度以及當前對應的計算節點的負載狀態,將不同的上下文復雜度對應的片段分配至匹配的計算節點; 根據不同片段對應的上下文復雜度對注意力機制進行動態調整,在每一計算節點完成當前片段的處理后,將上下文復雜度的信息反饋至調度器,通過調度器根據上下文復雜度的信息優化下一微批次的任務劃分與資源調度; 通過加載模型參數、多個數據塊以及多組模型層至所述分布式訓練環境中對應的計算節點上,啟動訓練流程; 在訓練過程中,對每一計算節點的運行狀態進行監測,通過引入自適應調度機制動態調整對應計算節點的訓練任務,并在滿足預設的訓練終止條件時,保存訓練完成的目標大模型。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人廈門淵亭信息科技有限公司;湖南淵亭智能科技有限公司,其通訊地址為:361000 福建省廈門市軟件園二期望海路61號801單元N8-01;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。