合肥工業大學李培培獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網獲悉合肥工業大學申請的專利基于平衡校準提示和自訓練的零樣本短文本分類方法獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN119106138B 。
龍圖騰網通過國家知識產權局官網在2025-08-29發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202411282412.9,技術領域涉及:G06F16/35;該發明授權基于平衡校準提示和自訓練的零樣本短文本分類方法是由李培培;閆文書;胡學鋼設計研發完成,并于2024-09-13向國家知識產權局提交的專利申請。
本基于平衡校準提示和自訓練的零樣本短文本分類方法在說明書摘要公布了:本發明公開了一種基于平衡校準提示和自訓練的零樣本短文本分類方法,包括:1使用提示模板封裝短文本數據集;2構建基于預訓練模型的提示分類模型;3對提示分類模型的標簽預測偏向進行校準,并對數據集進行初步預測;4根據模型對預測的自信程度劃分高自信度數據和低置信度數據;5使用高自信度數據訓練多個教師模型指導低自信度數據訓練學生模型;6使用學生模型完成最終的短文本分類任務。本發明能在短文本數據標簽完全缺失的場景下,提高短文本分類性能。
本發明授權基于平衡校準提示和自訓練的零樣本短文本分類方法在權利要求書中公布了:1.一種基于平衡校準提示和自訓練的零樣本短文本分類方法,其特征在于,是按照如下步驟進行: 步驟1:使用提示模板封裝短文本數據集: 步驟1.1:給定無標記短文本數據集和標簽集,其中,和分別表示中的第個短文本和中的第個標簽,和分別表示所述無標記短文本數據集中的短文本個數和標簽集中的標簽個數; 步驟1.2:構建由若干詞和一個標記共同組成的一段自然文本并作為自定義的模板,利用模板對所述無標記短文本數據集中的每個短文本分別封裝后,得到封裝短文本數據集,其中,表示中的第個封裝短文本; 步驟1.3:對隨機采樣后,獲得封裝支持短文本數據集,其中,表示第個封裝支持短文本,表示封裝支持短文本的數量; 步驟2:構建基于預訓練模型的提示分類模型,包括:預訓練掩碼語言模型、標簽映射器; 步驟2.1:所述預訓練掩碼語言模型對進行處理,得到第個單詞預測嵌入編碼; 步驟2.2:所述標簽映射器對進行處理,得到的標簽為的預測概率,從而由Q個封裝支持短文本下每個標簽的預測概率構成一個維度為的概率矩陣; 步驟3:利用提示分類模型對進行初步預測后,再使用概率矩陣對初步預測后的結果進行校準,以獲得校準后的預測概率,從而將校準后的最大預測概率所對應的標簽作為的偽標簽; 步驟4:構建高置信度封裝短文本數據集和低置信度封裝短文本數據集; 步驟5:構建m個教師模型并使用高置信度封裝短文本數據集進行訓練,得到訓練后的m個教師模型,其中,表示第個教師模型,表示訓練后的第個教師模型; 步驟6:基于低置信度封裝短文本數據集,使用指導學生模型訓練,從而得到訓練后的學生模型; 步驟7:將第個封裝短文本輸入訓練后的學生模型中進行處理,最終獲得的預測標簽。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人合肥工業大學,其通訊地址為:230009 安徽省合肥市包河區屯溪路193號;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。