北京三快在線科技有限公司張辰獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網獲悉北京三快在線科技有限公司申請的專利文本檢索匹配模型的訓練方法、裝置、電子設備及介質獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN115146021B 。
龍圖騰網通過國家知識產權局官網在2025-09-09發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202110343807.5,技術領域涉及:G06F16/33;該發明授權文本檢索匹配模型的訓練方法、裝置、電子設備及介質是由張辰;胡燊;劉懷軍設計研發完成,并于2021-03-30向國家知識產權局提交的專利申請。
本文本檢索匹配模型的訓練方法、裝置、電子設備及介質在說明書摘要公布了:本申請實施例公開了一種文本檢索匹配模型的訓練方法、裝置、電子設備及存儲介質,該方法包括:根據初始樣本集,對預訓練語言模型進行微調訓練,得到初始文本檢索匹配模型;通過初始文本檢索匹配模型對未標注數據進行預測,得到輸出嵌入向量和預測標簽概率分布;根據預測標簽概率分布,對未標注數據集進行篩選,得到高置信度樣本集;確定高置信度樣本集中每兩個高置信度樣本之間的相似關系和向量距離,并確定高置信度樣本的置信度權重;將置信度權重、相似關系和向量距離添加至高置信度樣本集中,得到目標樣本集;根據目標樣本集,對初始文本檢索匹配模型進行訓練,得到目標文本檢索匹配模型。本申請實施例提高了模型的訓練效率及準確率。
本發明授權文本檢索匹配模型的訓練方法、裝置、電子設備及介質在權利要求書中公布了:1.一種文本檢索匹配模型的訓練方法,其特征在于,包括: 獲取初始樣本集,并獲取未標注數據集,其中,所述初始樣本集中的每個初始樣本包括檢索詞、文檔和標簽,所述未標注數據集中的未標注數據包括檢索詞和文檔; 根據所述初始樣本集,對預訓練語言模型進行微調訓練,得到初始文本檢索匹配模型; 通過所述初始文本檢索匹配模型對所述未標注數據集中的未標注數據進行預測,得到所述未標注數據集中每個未標注數據對應的輸出嵌入向量和預測標簽概率分布; 根據每個未標注數據對應的預測標簽概率分布,對所述未標注數據集進行篩選,得到高置信度樣本集; 根據所述高置信度樣本集中每個高置信度樣本的預測標簽概率分布和輸出嵌入向量,確定所述高置信度樣本集中每個高置信度樣本與其他高置信度樣本之間的相似關系和輸出嵌入向量的向量距離,并確定每個高置信度樣本的置信度權重; 將所述每個高置信度樣本的置信度權重以及每個高置信度樣本與其他高置信度樣本之間的相似關系和向量距離添加至所述高置信度樣本集中,得到目標樣本集; 根據所述目標樣本集和與置信度權重、相似關系和向量距離相關聯的目標損失函數,對所述初始文本檢索匹配模型進行訓練,得到目標文本檢索匹配模型。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人北京三快在線科技有限公司,其通訊地址為:100083 北京市海淀區北四環西路9號2106-030;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。