北京面壁智能科技有限責任公司蔡杰獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網獲悉北京面壁智能科技有限責任公司申請的專利一種模型訓練樣本處理方法、裝置、電子設備及存儲介質獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN118153719B 。
龍圖騰網通過國家知識產權局官網在2025-09-09發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202410494957.X,技術領域涉及:G06N20/00;該發明授權一種模型訓練樣本處理方法、裝置、電子設備及存儲介質是由蔡杰;曾國洋設計研發完成,并于2024-04-23向國家知識產權局提交的專利申請。
本一種模型訓練樣本處理方法、裝置、電子設備及存儲介質在說明書摘要公布了:本發明實施例公開一種模型訓練樣本的處理方法、裝置、電子設備及存儲介質,涉及人工智能技術領域。便于解決傳統填充方式帶來的計算資源浪費問題。包括:從樣本池中選取待拼接樣本數據;將所述待拼接樣本數據與當前訓練批次內的至少一個樣本數據,按照預定數據長度進行拼接,形成一個組合樣本;將所述組合樣本中的每一個用于拼接的樣本數據,分配一個唯一的文本序列ID;其中,所述文本序列ID用于標識所述用于拼接的樣本數據在組合樣本中的位置和范圍;將該組合樣本作為一個新的樣本數據加入到當前訓練批次內,用于模型訓練。本發明適用于模型訓練場景中。
本發明授權一種模型訓練樣本處理方法、裝置、電子設備及存儲介質在權利要求書中公布了:1.一種模型訓練樣本的處理方法,其特征在于,包括: 從樣本池中選取待拼接樣本數據; 將所述待拼接樣本數據與當前訓練批次內的至少一個樣本數據,按照預定數據長度進行拼接,形成一個組合樣本; 將所述組合樣本中的每一個用于拼接的樣本數據,分配一個唯一的文本序列ID;其中,所述文本序列ID用于標識所述用于拼接的樣本數據在組合樣本中的位置和范圍; 將該組合樣本作為一個新的樣本數據加入到當前訓練批次內,用于模型訓練; 所述預定數據長度為當前訓練批次內數據長度最長的樣本的長度; 所述將所述待拼接樣本數據與當前訓練批次內的至少一個樣本數據,按照預定數據長度進行拼接,形成一個組合樣本包括:將所述待拼接樣本數據與當前訓練批次內的樣本數據逐一進行拼接,形成一個組合樣本,直到該組合樣本的長度達到或接近所述當前訓練批次內數據長度最長的樣本的長度為止; 所述將所述待拼接樣本數據與當前訓練批次內的至少一個樣本數據,按照預定數據長度進行拼接,形成一個組合樣本,包括: 將所述待拼接樣本數據和所述至少一個樣本數據進行水平拼接,形成一個一維特征向量; 將所述一維特征向量按照所述預定數據長度進行截斷或拼接,以使所述一維特征向量長度符合預定數據長度; 將所述截斷或拼接后的特征向量作為所述組合樣本的特征向量; 所述方法還包括:在訓練過程中,將組合樣本中的每個樣本數據的文本序列ID作為輸入特征傳遞給注意力機制; 在計算注意力權重時將注意力限制在當前組合樣本或跨度內; 利用掩碼區分當前批次內不同樣本之間的損失計算;其中,掩碼用于與目標數字進行按位操作,以屏蔽指定位; 為每個樣本的損失計算創建掩碼,以確保當前批次內的樣本之間不會相互影響; 將不同樣本之間的損失置為零,得到掩碼后的損失矩陣; 所述掩碼包括:文本序列掩碼和填充掩碼; 所述將組合樣本中的每個樣本數據的文本序列ID作為輸入特征傳遞給注意力機制,包括: 在訓練過程中,將當前訓練批次內的每個樣本的特征向量和文本ID作為輸入,傳遞給編碼器和解碼器;其中,所述編碼器和解碼器采用基于自注意力的多頭注意力機制,用于捕捉輸入和輸出之間的依賴關系; 所述在計算注意力權重時將注意力限制在當前組合樣本或跨度內,包括: 在編碼器和解碼器的每個注意力層中,根據文本序列ID生成文本序列掩碼,所述文本序列掩碼用于限制注意力的范圍;其中,文本序列掩碼是一個二維矩陣,其大小為n×n; 在計算注意力權重時,利用所述文本序列掩碼將不屬于同一個樣本數據的位置的權重降低到接近于零,以使注意力只關注當前組合樣本或跨度內的信息; 以及,利用所述填充掩碼屏蔽組合樣本中的填充位置,使所述填充掩碼不參與注意力計算; 所述掩碼還包括:前瞻掩碼;所述前瞻掩碼用于在計算注意力權重時,將不能進行注意力計算的位置的權重降低到接近于零,從而使注意力只關注有效的位置; 所述在計算注意力權重時將注意力限制在當前組合樣本或跨度內,還包括: 在編碼器和解碼器的每個注意力層中,將文本序列掩碼、填充掩碼和前瞻掩碼相加,得到一個總掩碼,用于最終的注意力計算;其中,總掩碼是一個二維矩陣,其大小為n×n,其中n是組合樣本的長度; 在編碼器和解碼器的每個注意力層中,根據總掩碼計算注意力權重,根據注意力權重計算注意力輸出;其中,所述注意力權重是一個二維矩陣,其大小為n×n,其中n是組合樣本的長度; 注意力權重的計算公式為:; 其中,Q表示查詢矩陣,K表示鍵矩陣,V值矩陣,它們都是由組合樣本的特征向量經過線性變換得到的;dk表示鍵的維度,M表示總掩碼;注意力輸出是一個二維矩陣,其大小為n×dv,其中n是組合樣本的長度,dv表示值的維度;注意力輸出的每個元素表示組合樣本中的一個位置的表示,它是由注意力權重加權的值矩陣的元素之和。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人北京面壁智能科技有限責任公司,其通訊地址為:100080 北京市海淀區中關村東路1號院6號樓6層601;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。