北京工業大學李建強獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網獲悉北京工業大學申請的專利一種基于多源詞典的交叉Transformer中文醫療命名實體識別方法獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN114707497B 。
龍圖騰網通過國家知識產權局官網在2025-08-29發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202210326124.3,技術領域涉及:G06F40/295;該發明授權一種基于多源詞典的交叉Transformer中文醫療命名實體識別方法是由李建強;肖銀龍;徐曦設計研發完成,并于2022-03-30向國家知識產權局提交的專利申請。
本一種基于多源詞典的交叉Transformer中文醫療命名實體識別方法在說明書摘要公布了:本發明涉及一種基于多源詞典的交叉Transformer中文醫療命名實體識別方法。本發明加入多源詞典信息,通過特征提取模塊,分別提取通用詞匯增強的文本特征和醫療詞匯增強的文本特征。然后,通過交叉Transformer模塊,將上一步得到的2種特征進行交互增強,并動態的進行融合。最終,使用融合后的文本特征來一起預測中文醫療文本中的實體。該方法可以同時使用通用詞典信息和醫療領域詞典信息,來提升詞典和實體之間的匹配率。
本發明授權一種基于多源詞典的交叉Transformer中文醫療命名實體識別方法在權利要求書中公布了:1.一種基于多源詞典的交叉Transformer中文醫療命名實體識別方法,其特征在于包括以下步驟: S1:多源詞典匹配模塊MLM: 1.將原始文本復制2份,分別與通用詞典、醫療詞典進行匹配;將匹配的詞匯拼接在文本的后面,分別得到包含通用詞典詞匯的新文本序列Sg和包含醫療詞典詞匯的新文本序列Sm;后續和文本序列Sg相關的變量會添加上標g,和文本序列Sm相關的變量會添加上標m; 2.將文本中的字符和詞匯統稱為片段,通過檢索預訓練的詞典向量表,得到文本序列Sg的向量序列為Hg,文本序列Sm的向量序列為Hm; 3.為每個片段分配兩個位置索引:片段第一個字符所在的位置索引head,片段最后一個字符所在的位置索引tail;通過計算兩個片段head、tail的差值來得到片段i和片段j之間的相對位置大小hij,tij,公式如下: hij=head[i]-head[j]1tij=tai[i]-tail[j]2 其中head[i]表示片段i的head索引,head[j]表示片段j的head索引,tail[i]表示片段i的tail索引,tail[j]表示片段j的tail索引;然后,計算相對位置大小的向量表示Pd,公式如下: 其中d表示相對位置大小,k表示位置索引,dmodel表示模型的維度;表示向量Pd維度索引為奇數時的值,表示向量Pd維度索引為偶數時的值;通過公式3、4,得到相對位置大小為時的向量表示Ph,相對位置大小為tij時的向量表示Pt;之后,計算片段i和片段j的相對位置向量Rij;公式如下: 其中Wr是隨機初始化的參數;ReLU表示ReLU激活函數,表示向量拼接;參數Wr會隨著模型多輪訓練自動更新,模型訓練輪數的取值范圍在50到100之間,最終保存多輪訓練結果中驗證集F1值最高的參數;后續參數的確定方法相同; 通過公式5,可以得到向量序列Hg中片段i和片段j的相對位置向量向量序列Hm中片段i和片段j的相對位置向量 S2:特征提取模塊FE 特征提取模塊FE采用FlatLatticeTransformer模型FLAT;FLAT接收上一步得到的文本向量序列Hg、Hm以及對應的相對位置向量然后通過嵌入相對位置的多頭注意力機制提取片段向量序列Hg的語義特征Fg,提取片段向量序列Hm的語義特征Fm;Fg、Fm包含了文本的上下文語義特征和文本匹配詞匯的詞匯語義特征;計算公式如下: Fg=softmaxAgVg9 Fm=softmaxAmVm10 Vg=WgHg12 Vm=WmHm13 其中,Vg、Vm分別表示Hg、Hm經過線性變化后的向量,Hi表示片段i的向量,Hj表示片段j的向量,Aij表示片段i和片段j的注意力權重;Am通過公式11得到,表示向量序列Hm中所有片段之間的注意力權重矩陣;Ag通過公式11得到,表示向量序列Hg中所有片段之間的注意力權重矩陣;Wg、Wm、Wq、Wk,R、Wk,H、u、v都是隨機初始化的參數,會隨著模型多輪訓練自動更新,模型訓練輪數的取值范圍在50到100之間; S3:交叉Transformer模塊CT 交叉Transformer模塊CT接收上一步得到的詞匯增強后的文本特征Fg、Fm;在CT模塊中,首先通過交叉注意力機制,來交互Fg、Fm之間的信息,得到交互增強后的文本特征Finter-gc、Finter-mc;計算公式如下: Finter-gc=CrossAttg→mFg,FmFm14 Finter-mc=CrossAttm→gFm,FgFg15 其中CrossAtt表示計算交叉注意力權重;g→m表示以Fg作為CrossAtt的查詢條件,以Fm作為CrossAtt的查詢字段;m→g表示以Fm作為CrossAtt的查詢條件,以Fg作為CrossAtt的查詢字段;然后,將交互增強后的信息和輸入之前的信息拼接起來,并通過線性變換Linear來保持維度不變,得到最終的交互增強特征Fgc、Fmc;公式如下: Fgc=Linear[Fg;Finter-gc]16 Fmc=Linear[Fm;Finter-mc]17 S4:特征動態融合模塊FGF 不同的特征在不同的句子中有不同程度的影響,因此采用特征動態融合模塊FGF來動態的選擇對特征Fgc、Fmc融合后保留的比重;FGF采用門控機制,使用門控向量Vgate對上一步得到的詞匯增強后的文本特征Fgc、Fmc進行加權求和,得到融合后的特征Ff;公式如下: hgc=tanhFgcWgc+bgc18 hmc=tanhFmcWmc+bmc19 Vgate=σ[hgc;hmc]Wgate20 Ff=VgateFgc+1-VgateFmc21 其中,hgc、hmc分別表示Fgc、Fmc經過非線性變換后的向量,Wgc,Wmc,Wgate,bgc,bmc是隨機初始化的參數,會隨著模型多輪訓練自動更新,模型訓練輪數的取值范圍在50到100之間;σ表示sigmod激活函數,tanh表示tanh激活函數; S5:標簽預測模塊LP 標簽預測模塊采用全連接網絡和CRF層對上一步得到的特征Ff進行標簽預測;全連接網絡將文本特征映射到標簽分布空間,輸出標簽預測概率;CRF層接收全連接網絡輸出的標簽預測概率,輸出最優的序列標注結果。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人北京工業大學,其通訊地址為:100124 北京市朝陽區平樂園100號;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。