華東理工大學薛魁獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網獲悉華東理工大學申請的專利一種基于電子病歷文本的可遷移語言模型構建方法獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN113408277B 。
龍圖騰網通過國家知識產權局官網在2025-09-09發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202110683036.4,技術領域涉及:G06F40/289;該發明授權一種基于電子病歷文本的可遷移語言模型構建方法是由薛魁;柳俊;王奕;黃宗浩;葉琪設計研發完成,并于2021-06-18向國家知識產權局提交的專利申請。
本一種基于電子病歷文本的可遷移語言模型構建方法在說明書摘要公布了:本發明提出了一種基于電子病歷文本的可遷移語言模型,該模型通過醫學知識庫將電子病歷文本分離成模板與術語兩大部分,先利用PatternAttention對自然語言模板單獨建模,再利用KGCrossAttention融合對應的醫療術語,使得模型能夠利用醫學知識庫分離病歷文本進行建模,從而完成跨專科的信息抽取。為了讓模型更加適應于電子病歷文本,本發明設計了三種預訓練任務,通過這種方法對模型進行預訓練后,可以大幅降低模型在相近專科內的遷移難度。
本發明授權一種基于電子病歷文本的可遷移語言模型構建方法在權利要求書中公布了:1.一種基于電子病歷文本的可遷移語言模型構建方法,其特征在于,包括如下步驟: S1:模板術語分離器,以醫學知識庫為字典,從醫學文本S中匹配出對應的術語部分,將匹配的術語進行替換,生成文本模板與專業術語集合; S2:模板術語編碼器,將文本模板與專業術語進行編碼,得到文本與術語融合后的向量表征El+1; 其中,模板術語編碼器包括如下步驟: S21:模板術語編碼器使用PattenAttention、KGCrossAttention依次捕捉模板的上下文語義信息,建立文本模板與知識庫之間的關聯信息,具體公式如下; SelfAttentionX=lnmult_headh=12X,X,X,MASK+X KGCrossAttentionX,K=lnmult_headh=12X,K,K,MASK+X S22:使用FNN層對S21中捕獲到的信息進行一次非線性變換,得到融合后的向量表征El +1,具體公式如下: l∈{x|1≤x≤12},l為層數 El+1=FFNKGCrossAttentionSelfAttentionEl,K,MASK El=layer_normaladd[xi]s-max,[pi]s_max 其中,El為初始向量,源于文本X經過詞向量映射的[xi]s_max以及對應的位置編碼[pi]s_max;K為專業術語集合SKG中每個詞的向量表示;MASK為掩碼矩陣,能夠控制每個詞的注意力范圍,用于KGCrossAttention中讓模板只關注對應替換位置的向量表示; S3:預訓練下游任務層,將利用模板挖詞填空、術語還原、否定考量三個任務進行預訓練,輸出為下游任務的損失,進行模型訓練與優化。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人華東理工大學,其通訊地址為:200237 上海市徐匯區梅隴路130號;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。