江南大學(xué)徐天陽獲國家專利權(quán)
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監(jiān)控用IP管家,真方便!
龍圖騰網(wǎng)獲悉江南大學(xué)申請的專利一種基于掩碼自動編碼器與噪聲增強的模型預(yù)訓(xùn)練方法獲國家發(fā)明授權(quán)專利權(quán),本發(fā)明授權(quán)專利權(quán)由國家知識產(chǎn)權(quán)局授予,授權(quán)公告號為:CN119940470B 。
龍圖騰網(wǎng)通過國家知識產(chǎn)權(quán)局官網(wǎng)在2025-08-26發(fā)布的發(fā)明授權(quán)授權(quán)公告中獲悉:該發(fā)明授權(quán)的專利申請?zhí)?專利號為:202510423102.2,技術(shù)領(lǐng)域涉及:G06N3/094;該發(fā)明授權(quán)一種基于掩碼自動編碼器與噪聲增強的模型預(yù)訓(xùn)練方法是由徐天陽;吳小俊;丁志堅設(shè)計研發(fā)完成,并于2025-04-07向國家知識產(chǎn)權(quán)局提交的專利申請。
本一種基于掩碼自動編碼器與噪聲增強的模型預(yù)訓(xùn)練方法在說明書摘要公布了:本發(fā)明提供一種基于掩碼自動編碼器與噪聲增強的模型預(yù)訓(xùn)練方法,涉及自然語言處理技術(shù)領(lǐng)域,該方法包括構(gòu)建非對稱編碼?解碼模型,通過差異化的掩碼比例和解碼機制提升訓(xùn)練信號多樣性。接著,引入噪聲注入機制,通過向嵌入添加噪聲增強模型對抗擾動的魯棒性,并提出兩項改進:一是動態(tài)調(diào)整噪聲幅度,在訓(xùn)練初期使用較大噪聲增強魯棒性,后期減小噪聲提升精度;二是在訓(xùn)練后期利用KL散度引導(dǎo)噪聲生成,衡量原始嵌入與加噪嵌入的分布差異,使噪聲針對模型弱點更智能化。在多個數(shù)據(jù)集上進行預(yù)訓(xùn)練與評估,顯著提升零樣本和監(jiān)督學(xué)習(xí)場景下的密集檢索性能。最終,該方法無需額外微調(diào)模型,即可提高檢索任務(wù)中句子表示的準確性和穩(wěn)定性。
本發(fā)明授權(quán)一種基于掩碼自動編碼器與噪聲增強的模型預(yù)訓(xùn)練方法在權(quán)利要求書中公布了:1.一種基于掩碼自動編碼器與噪聲增強的模型預(yù)訓(xùn)練方法,其特征在于,包括: S1:構(gòu)建非對稱編碼-解碼模型,其中編碼器為全規(guī)模深度神經(jīng)網(wǎng)絡(luò),用于生成輸入句子的嵌入表示,解碼器為輕量單層神經(jīng)網(wǎng)絡(luò),用于重建輸入句子; S2:對輸入句子施加差異化掩碼策略,其中編碼器掩碼比例為15%-30%,解碼器掩碼比例為50%-75%,以生成差異化的訓(xùn)練信號; S3:在編碼器嵌入生成過程中引入動態(tài)噪聲注入機制,通過在訓(xùn)練過程的不同時期添加不同幅度的噪聲,增強非對稱編碼-解碼模型對抗擾動的魯棒性,其中所述動態(tài)噪聲注入機制,噪聲幅度根據(jù)訓(xùn)練進度動態(tài)調(diào)整,其計算公式為: ; 其中,表示動態(tài)的噪聲幅度,表示初始噪聲幅度,表示衰減率,用于控制幅度下降速度,表示總訓(xùn)練步數(shù),表示當(dāng)前訓(xùn)練步數(shù),表示噪聲的最小幅度; S4:利用KL散度引導(dǎo)噪聲生成,通過計算原始嵌入與加噪嵌入的分布差異,優(yōu)化噪聲的生成方向;所述KL散度引導(dǎo)噪聲生成中,噪聲方向通過以下公式計算: ; 其中,表示高斯近似下的梯度,指向分布差異最大的方向,表示對噪聲向量N的梯度運算,表示KL散度,表示動態(tài)的噪聲幅度;被用來衡量兩個嵌入分布之間的差異,和分別為原始嵌入和加噪嵌入的概率分布;是從單位球面采樣的隨機向量,提供探索性擾動;為動態(tài)權(quán)重,范圍為,表示L2范數(shù)標準化; S5:使用多個數(shù)據(jù)集對非對稱編碼-解碼模型進行預(yù)訓(xùn)練,并通過語義重建和噪聲對抗聯(lián)合損失優(yōu)化非對稱編碼-解碼模型的參數(shù); S6:將預(yù)訓(xùn)練后的非對稱編碼-解碼模型直接應(yīng)用于零樣本或監(jiān)督學(xué)習(xí)場景的密集檢索任務(wù),輸出句子的向量表示。
如需購買、轉(zhuǎn)讓、實施、許可或投資類似專利技術(shù),可聯(lián)系本專利的申請人或?qū)@麢?quán)人江南大學(xué),其通訊地址為:214000 江蘇省無錫市經(jīng)開區(qū)金融八街1號無錫商會大廈2201;或者聯(lián)系龍圖騰網(wǎng)官方客服,聯(lián)系龍圖騰網(wǎng)可撥打電話0551-65771310或微信搜索“龍圖騰網(wǎng)”。
1、本報告根據(jù)公開、合法渠道獲得相關(guān)數(shù)據(jù)和信息,力求客觀、公正,但并不保證數(shù)據(jù)的最終完整性和準確性。
2、報告中的分析和結(jié)論僅反映本公司于發(fā)布本報告當(dāng)日的職業(yè)理解,僅供參考使用,不能作為本公司承擔(dān)任何法律責(zé)任的依據(jù)或者憑證。