南京信息工程大學任慕成獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網獲悉南京信息工程大學申請的專利一種基于損失閾值和動態權重的自適應醫學文本分類方法獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN120561308B 。
龍圖騰網通過國家知識產權局官網在2025-09-26發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202511063903.9,技術領域涉及:G06F16/353;該發明授權一種基于損失閾值和動態權重的自適應醫學文本分類方法是由任慕成;嚴宇辰;諶赫;曾嫻;徐軍設計研發完成,并于2025-07-31向國家知識產權局提交的專利申請。
本一種基于損失閾值和動態權重的自適應醫學文本分類方法在說明書摘要公布了:本發明公開了一種基于損失閾值和動態權重的自適應醫學文本分類方法,對預先獲取的醫療文本進行預處理,然后使用分詞器進行文本分詞,生成對應的字符序列并進行語義特征編碼;基于樣本損失分布確定易或難樣本閾值,并在后續每輪訓練中依據該閾值對樣本進行易或難標記與動態權重更新;將醫療文本的語義嵌入與首次被判定為易樣本的輪次及最終權重信息融合,以融合特征在特征空間中進行三類數據分層劃分,自適應動態再訓練預訓練語言模型,使模型先在簡單難度數據集上進行訓練,并根據驗證集性能增益動態引入中等及困難難度樣本,直至模型在完整的數據集上性能收斂。本發明能提升醫學文本分類任務的收斂速度、分類精度和魯棒性。
本發明授權一種基于損失閾值和動態權重的自適應醫學文本分類方法在權利要求書中公布了:1.一種基于損失閾值和動態權重的自適應醫學文本分類方法,其特征在于,包括以下步驟: (1)對預先獲取的醫療文本進行預處理,然后使用預訓練語言模型對應的分詞器進行文本分詞,生成對應的字符序列; (2)采用預訓練語言模型對字符序列進行語義特征編碼,獲得醫療文本的語義嵌入; (3)初次遍歷訓練集,基于樣本損失分布確定易或難樣本閾值,并在后續每輪訓練中依據該閾值對樣本進行易或難標記與動態權重更新; (4)初訓練結束后,將醫療文本的語義嵌入與首次被判定為易樣本的輪次及最終權重信息融合,以融合特征在特征空間中的語義方差、平均距離、以及首易輪次和權重均值綜合指標進行三類分層劃分,獲得簡單難度數據集、中等難度數據集和困難難度數據集; (5)自適應動態再訓練預訓練語言模型,使模型先在簡單難度數據集上進行訓練,并根據驗證集性能增益動態引入中等及困難難度樣本,直至模型在完整的數據集上性能收斂,對不同難度層次的樣本實現課程式學習,提升醫學文本分類任務的收斂速度、分類精度和魯棒性; 所述步驟(2)實現過程如下: 在字符序列前添加特殊標記[CLS],輸入特定領域預訓練模型進行前向傳播,得到高維度的語義嵌入向量表示;即將醫療文本內容通過預訓練語言模型轉化得到的固定維度的向量表示; 從高維語義嵌入中提取[CLS]對應的向量作為整個醫療文本的語義特征表示,記作: ; 其中,PLM表示特定領域預訓練模型,表示進行文本分詞后生成的字符序列,[CLS]為特定領域預訓練模型中特殊標記,表示語義嵌入向量的維度; 所述步驟(4)實現過程如下: (41)提取每個樣本的語義嵌入向量、首次被判定為易樣本的輪次及歸一化后的最終權重,并按: ; 構建融合特征向量,為初訓練總輪次; (42)對調用KMeans算法進行二簇聚類,得到初始簇、; (43)對每一初始簇內樣本,計算其與對應簇中心的歐氏距離: ; 并在每簇中選取距離最遠的前個樣本,合并構成“困難簇”; (44)將剩余樣本保留原初始簇編號,對簇內平均距離: ; 由最小者定義為“簡單簇”,最大者定義為“中等簇”; (45)分別計算中的簇內語義方差倒數,為極小正數、與簇中心平均距離、首易輪次均值及權重均值; (46)將各指標進行Min-Max歸一化后按預設加權求和,得到簇級的綜合難度分,按升序排序,最小對應“簡單難度數據集”,次之對應“中等難度數據集”,最大對應“困難難度數據集”。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人南京信息工程大學,其通訊地址為:210044 江蘇省南京市江北新區寧六路219號;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。