浪潮軟件科技有限公司朱家兵獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網獲悉浪潮軟件科技有限公司申請的專利一種基于掩碼語言模型的文獻新詞發現方法及系統獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN113901811B 。
龍圖騰網通過國家知識產權局官網在2025-08-22發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202111141051.2,技術領域涉及:G06F40/289;該發明授權一種基于掩碼語言模型的文獻新詞發現方法及系統是由朱家兵;楊璽;谷鋼;尹京剛設計研發完成,并于2021-09-28向國家知識產權局提交的專利申請。
本一種基于掩碼語言模型的文獻新詞發現方法及系統在說明書摘要公布了:本發明公開了一種基于掩碼語言模型的文獻新詞發現方法及系統,屬于人工智能自然語言處理技術領域,該方法包括掩碼語言訓練組件、模型依賴關系運算組件和最大概率運算組件,掩碼語言訓練組件對文獻數據進行數據清洗、句段切分,通過訓練集的訓練組成向量標識WordEmbedding,組建Attention機制和前饋神經網絡,合為一組Encoder,并搭建Encoder訓練模型;將編碼后的訓練集采用隨機屏蔽,部分輸入token做訓練集輸入,被屏蔽的token做輸出,以該方式做數據生成器,訓練深度雙向表示網絡。本發明能夠達到速度與精確度的平衡,對于特定場景的文獻有更好的新詞發現效果。
本發明授權一種基于掩碼語言模型的文獻新詞發現方法及系統在權利要求書中公布了:1.一種基于掩碼語言模型的文獻新詞發現方法,其特征在于,包括掩碼語言訓練組件、模型依賴關系運算組件和最大概率運算組件, 掩碼語言訓練組件對文獻數據進行數據清洗、句段切分,通過訓練集的訓練組成向量標識WordEmbedding,組建Attention機制和前饋神經網絡,合為一組Encoder,并搭建Encoder訓練模型;將編碼后的訓練集采用隨機屏蔽,部分輸入token做訓練集輸入,被屏蔽的token做輸出,以該方式做數據生成器,訓練深度雙向表示網絡;經過迭代與訓練,得到能完成Cloze任務的掩碼語言模型,并對模型進行持久化處理保證其增量運算能力與可遷移性; 通過模型依賴關系運算組件得到任意兩個token的相關性,并組成所有token的相關性矩陣,得到不同于互信息衡量的相關度指標,通過運算得到句子字間依賴度; 所述模型依賴關系運算組件將待分析句子以字為單位逐個替換為[MASK],經過掩碼語言訓練組件后輸出初始預測序列,并以此序列為基礎,依次替換除待分析字片段以外的字為[MASK],重復進入掩碼語言訓練模型,得到第二組token組成的矩陣序列,將兩序列依次做歐氏距離運算,得到句子片段中除自己以外的每個字對此字的依賴程度,組成相關性組,循環至所有待分析字完成,對相鄰兩字正反依賴程度做平均值計算,得到句子字間依賴度; 最大概率運算組件利用模型依賴關系運算組件生成的待測句子字間依賴度指標,對特定閾值進行拆分,并通過多字權重的調整,利用概率乘積與權值配比,計算得到待測句子最大概率組合。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人浪潮軟件科技有限公司,其通訊地址為:250100 山東省濟南市高新區浪潮路1036號浪潮科技園;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。