昆明理工大學李岫宸獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網獲悉昆明理工大學申請的專利一種融合密度聚類與ERNIE的醫療文本關系抽取方法獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN115952284B 。
龍圖騰網通過國家知識產權局官網在2025-09-09發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202211576536.9,技術領域涉及:G06F16/35;該發明授權一種融合密度聚類與ERNIE的醫療文本關系抽取方法是由李岫宸;朱波;鄒艷華;邱蘭設計研發完成,并于2022-12-09向國家知識產權局提交的專利申請。
本一種融合密度聚類與ERNIE的醫療文本關系抽取方法在說明書摘要公布了:本發明公開了一種融合密度聚類與ERNIE的醫療文本關系抽取方法,包括如下步驟:首先,獲取非結構化的中文醫療文本,其中,對實體進行識別和標注,并對文本使用正則表達式進行清洗;然后,對標注的實體進行向量化處理,并使用HDBSCAN算法進行聚類,其中,向量化前先進行平滑處理,以更準確提取到實體的詞頻特征;最后,將聚類結果標注到文本中,并作為ERNIE預訓練模型的輸入進行關系抽取,其中,抽取采用封閉式降低未知關系造成的歧義。本發明改善了中文醫療文本詞頻不足的特性,通過預訓練模型的運用充分挖掘了實體關系的先驗知識,同時通過預訓練模型強化實體在文本中的位置信息,提升關系抽取的準確性。
本發明授權一種融合密度聚類與ERNIE的醫療文本關系抽取方法在權利要求書中公布了:1.一種融合密度聚類與ERNIE的醫療文本關系抽取方法,其特征在于,包括如下步驟: 獲取原始標注文本,將中文醫療文本數據與已標注的實體分別提取,其中,提取的非結構化文本使用正則表達式進行數據清洗,刪除文本中多余的符號與網頁、圖片鏈接信息; 對已標記的實體使用HDBSCAN算法對向量化后的實體進行聚類,其中,為避免生僻字造成概率回退現象,使用平滑處理后的詞向量矩陣得到聚類標簽; 在實體進行聚類前,剔除重復出現的實體數據; 對頭實體與尾實體進行分別聚類; 創建關系數據集,用于關系抽取時確定關系分類數量; 聚類所使用詞向量矩陣使用平滑處理后的TFIDF詞向量矩陣,關系抽取使用Embedding詞向量矩陣; 將聚類結果融合到中文醫療文本中輸入到ERNIE預訓練模型中進行關系抽取,其中,采用封閉式抽取降低未知關系造成的歧義; 所述ERNIE醫療文本關系抽取模型為基于ERNIE模型的變體,結合了醫學領域特定關系抽取語料進行訓練,并采用Transformer架構中的自注意力機制來處理關系抽取任務,所述模型的損失函數Loss為: ; 其中,pi為關系抽取模型輸出層經過softmax輸出的關系類別預測向量,y為關系類別標簽的one-hot表示,N為關系類別數量; 所述融合密度聚類的ERNIE醫療文本關系抽取模型包括聚類層、詞嵌入層、自注意力層,并且通過多層Transformer網絡進一步提升抽取精度。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人昆明理工大學,其通訊地址為:650500 云南省昆明市呈貢區景明南路727號;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。