同濟(jì)大學(xué)丁志軍獲國(guó)家專利權(quán)
買專利賣專利找龍圖騰,真高效! 查專利查商標(biāo)用IPTOP,全免費(fèi)!專利年費(fèi)監(jiān)控用IP管家,真方便!
龍圖騰網(wǎng)獲悉同濟(jì)大學(xué)申請(qǐng)的專利一種基于動(dòng)態(tài)檢查點(diǎn)策略的大模型分布式訓(xùn)練故障處理方法獲國(guó)家發(fā)明授權(quán)專利權(quán),本發(fā)明授權(quán)專利權(quán)由國(guó)家知識(shí)產(chǎn)權(quán)局授予,授權(quán)公告號(hào)為:CN120317318B 。
龍圖騰網(wǎng)通過國(guó)家知識(shí)產(chǎn)權(quán)局官網(wǎng)在2025-08-29發(fā)布的發(fā)明授權(quán)授權(quán)公告中獲悉:該發(fā)明授權(quán)的專利申請(qǐng)?zhí)?專利號(hào)為:202510820987.X,技術(shù)領(lǐng)域涉及:G06N3/092;該發(fā)明授權(quán)一種基于動(dòng)態(tài)檢查點(diǎn)策略的大模型分布式訓(xùn)練故障處理方法是由丁志軍;荊宇泉設(shè)計(jì)研發(fā)完成,并于2025-06-19向國(guó)家知識(shí)產(chǎn)權(quán)局提交的專利申請(qǐng)。
本一種基于動(dòng)態(tài)檢查點(diǎn)策略的大模型分布式訓(xùn)練故障處理方法在說明書摘要公布了:本發(fā)明屬于大模型分布式訓(xùn)練領(lǐng)域,特別涉及一種基于動(dòng)態(tài)檢查點(diǎn)策略的大模型分布式訓(xùn)練故障處理方法。包括:(1)集群拓?fù)浜铜h(huán)境動(dòng)態(tài)感知的檢查點(diǎn)分布式存取策略(2)變化趨勢(shì)感知的大模型迭代時(shí)間預(yù)測(cè)方法(3)模型訓(xùn)練迭代時(shí)間和趨勢(shì)感知的檢查點(diǎn)頻率決策方法。本發(fā)明解決了傳統(tǒng)檢查點(diǎn)恢復(fù)過程中的速度和損失問題,還通過動(dòng)態(tài)調(diào)整檢查點(diǎn)更新頻率,優(yōu)化了資源利用率,減少了訓(xùn)練過程中的冗余開銷。這些改進(jìn)使得大規(guī)模深度學(xué)習(xí)模型在面對(duì)復(fù)雜訓(xùn)練環(huán)境時(shí),能夠更加靈活和高效地應(yīng)對(duì)故障,確保訓(xùn)練的連續(xù)性和穩(wěn)定性,從而為大模型訓(xùn)練技術(shù)的發(fā)展提供了新的思路和方向。
本發(fā)明授權(quán)一種基于動(dòng)態(tài)檢查點(diǎn)策略的大模型分布式訓(xùn)練故障處理方法在權(quán)利要求書中公布了:1.一種基于動(dòng)態(tài)檢查點(diǎn)策略的大模型分布式訓(xùn)練故障處理方法,其特征在于,包括: (1)集群拓?fù)浜铜h(huán)境動(dòng)態(tài)感知的檢查點(diǎn)分布式存取策略:設(shè)計(jì)四層存取拓?fù)錂z查點(diǎn)分布式存取方法,動(dòng)態(tài)感知GPU集群的拓?fù)浣Y(jié)構(gòu)和資源狀態(tài),分析訓(xùn)練過程中檢查點(diǎn)的多副本存取位置,以決定最佳的存取策略; (2)變化趨勢(shì)感知的大模型迭代時(shí)間預(yù)測(cè)方法:實(shí)施大模型訓(xùn)練迭代時(shí)間序列預(yù)測(cè),通過歷史數(shù)據(jù)分析未來的迭代時(shí)間趨勢(shì);結(jié)合變化趨勢(shì)分析,提高檢查點(diǎn)更新頻率的時(shí)效性,以應(yīng)對(duì)訓(xùn)練環(huán)境的動(dòng)態(tài)變化; (3)模型訓(xùn)練迭代時(shí)間和趨勢(shì)感知的檢查點(diǎn)頻率決策方法:基于損失分析,動(dòng)態(tài)調(diào)整檢查點(diǎn)更新頻率,確保在故障損失小的前提下,減少檢查點(diǎn)操作的開銷;通過對(duì)可容忍損失的校準(zhǔn)和頻率的調(diào)整,優(yōu)化檢查點(diǎn)更新策略,以提高訓(xùn)練過程的效率和可靠性; 所述四層存取拓?fù)渚唧w為: 存儲(chǔ)媒介按與訓(xùn)練節(jié)點(diǎn)之間的傳輸速度依次為本地內(nèi)存、物理機(jī)內(nèi)存、集群其他機(jī)器內(nèi)存、外部存儲(chǔ)四個(gè)層次; 第一層次為本地內(nèi)存; 第二層次為與訓(xùn)練虛擬機(jī)位于同一物理機(jī)的其他虛擬機(jī)內(nèi)存;當(dāng)單個(gè)虛擬機(jī)發(fā)生故障或本地內(nèi)存的檢查點(diǎn)損壞時(shí),通過共享內(nèi)存、物理機(jī)內(nèi)部網(wǎng)絡(luò)方式將檢查點(diǎn)傳輸?shù)街貑⒌墓收咸摂M機(jī);在副本數(shù)方面,選擇內(nèi)存利用率最低的1臺(tái)同物理機(jī)虛擬機(jī)存儲(chǔ)一份檢查點(diǎn)副本; 第三層次為集群其他虛擬機(jī)內(nèi)存;該層次在前兩個(gè)層次副本丟失時(shí),利用數(shù)據(jù)中心內(nèi)部網(wǎng)絡(luò)將檢查點(diǎn)副本傳輸?shù)接?xùn)練節(jié)點(diǎn);通過建立強(qiáng)化學(xué)習(xí)模型對(duì)環(huán)境資源變化進(jìn)行感知,動(dòng)態(tài)調(diào)整集群中該層次的檢查點(diǎn)副本數(shù)量和存取位置,以在避免過度影響訓(xùn)練進(jìn)程的前提下保證該層次的有效性; 第四層次為外部存儲(chǔ); 所述變化趨勢(shì)感知的大模型迭代時(shí)間預(yù)測(cè)方法通過對(duì)未來迭代時(shí)間序列的預(yù)測(cè)和變化趨勢(shì)的分析,提高檢查點(diǎn)頻率更新方法的時(shí)效性,包括: (1)歷史數(shù)據(jù)分析:收集并分析歷史訓(xùn)練迭代時(shí)間序列數(shù)據(jù),識(shí)別出時(shí)間序列的變化模式; (2)趨勢(shì)預(yù)測(cè):使用GNN-LSTM網(wǎng)絡(luò)對(duì)未來的迭代時(shí)間進(jìn)行預(yù)測(cè),輸出未來的變化趨勢(shì); (3)分類與響應(yīng):將預(yù)測(cè)的變化趨勢(shì)分類,及時(shí)識(shí)別訓(xùn)練環(huán)境的不穩(wěn)定性,并為檢查點(diǎn)策略提供支持; 所述模型訓(xùn)練迭代時(shí)間和趨勢(shì)感知的檢查點(diǎn)頻率決策方法基于損失分析的檢查點(diǎn)更新頻率動(dòng)態(tài)分層決策方法,在故障損失小的前提下,減少檢查點(diǎn)操作的開銷,包括: (1)損失容忍度設(shè)定:確定可容忍的訓(xùn)練損失Lbase,并結(jié)合變化系數(shù),計(jì)算出未來的損失容忍度L1; (2)頻率調(diào)整策略:在確保損失不超過L1的基礎(chǔ)上,逐步提高檢查點(diǎn)獲取間隔Δ,找到滿足條件的最大間隔; (3)開銷優(yōu)化:結(jié)合存取策略的開銷,動(dòng)態(tài)調(diào)整檢查點(diǎn)更新頻率,以減少不必要的檢查點(diǎn)操作,確保訓(xùn)練過程的高效性。
如需購(gòu)買、轉(zhuǎn)讓、實(shí)施、許可或投資類似專利技術(shù),可聯(lián)系本專利的申請(qǐng)人或?qū)@麢?quán)人同濟(jì)大學(xué),其通訊地址為:200092 上海市楊浦區(qū)四平路1239號(hào);或者聯(lián)系龍圖騰網(wǎng)官方客服,聯(lián)系龍圖騰網(wǎng)可撥打電話0551-65771310或微信搜索“龍圖騰網(wǎng)”。
1、本報(bào)告根據(jù)公開、合法渠道獲得相關(guān)數(shù)據(jù)和信息,力求客觀、公正,但并不保證數(shù)據(jù)的最終完整性和準(zhǔn)確性。
2、報(bào)告中的分析和結(jié)論僅反映本公司于發(fā)布本報(bào)告當(dāng)日的職業(yè)理解,僅供參考使用,不能作為本公司承擔(dān)任何法律責(zé)任的依據(jù)或者憑證。
- 華為技術(shù)有限公司諸華林獲國(guó)家專利權(quán)
- 谷歌有限責(zé)任公司馬里厄斯·席爾德獲國(guó)家專利權(quán)
- 萊克電氣綠能科技(蘇州)有限公司倪祖根獲國(guó)家專利權(quán)
- 松下電器研究開發(fā)(蘇州)有限公司牛向偉獲國(guó)家專利權(quán)
- 晶元光電股份有限公司林羿宏獲國(guó)家專利權(quán)
- 麥斯韋爾技術(shù)股份有限公司戴維·雷歇爾獲國(guó)家專利權(quán)
- 株式會(huì)社可樂麗岡本哲彌獲國(guó)家專利權(quán)
- 日本瑞翁株式會(huì)社伊賀隆志獲國(guó)家專利權(quán)
- 英特爾公司N.K.托馬斯獲國(guó)家專利權(quán)
- 德雷塞爾大學(xué)蒂莫西·M·布勒克獲國(guó)家專利權(quán)


熱門推薦
- 深圳市贏合科技股份有限公司黃振奎獲國(guó)家專利權(quán)
- 廣州極飛科技股份有限公司溫海軍獲國(guó)家專利權(quán)
- 文塔納醫(yī)療系統(tǒng)公司M.巴恩斯獲國(guó)家專利權(quán)
- 三星電子株式會(huì)社崔性洙獲國(guó)家專利權(quán)
- 英特爾公司T·T·施呂斯列爾獲國(guó)家專利權(quán)
- 萬(wàn)事達(dá)卡國(guó)際股份有限公司S·C·戴維斯獲國(guó)家專利權(quán)
- 領(lǐng)星生物科技(上海)有限公司許強(qiáng)獲國(guó)家專利權(quán)
- 洋馬動(dòng)力科技有限公司平松敏史獲國(guó)家專利權(quán)
- 弗門尼舍有限公司M·德拉特利獲國(guó)家專利權(quán)
- 華為技術(shù)有限公司李勝鈺獲國(guó)家專利權(quán)