山西大學譚紅葉獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網獲悉山西大學申請的專利一種漢語自監督詞義理解方法及系統獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN115688799B 。
龍圖騰網通過國家知識產權局官網在2025-08-26發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202211371258.3,技術領域涉及:G06F40/30;該發明授權一種漢語自監督詞義理解方法及系統是由譚紅葉;金旭;李茹;張虎設計研發完成,并于2022-11-03向國家知識產權局提交的專利申請。
本一種漢語自監督詞義理解方法及系統在說明書摘要公布了:本發明公開了一種漢語自監督詞義理解方法及系統,屬于自然語言處理技術領域。通過生成式自監督與判別式自監督兩種方式,提高模型對詞語具體含義識別的準確性。生成式方式即設計面向詞義理解的預訓練任務,提升模型對文本中歧義詞表示的能力;判別式方式即構建偽歧義詞標記數據,引導模型學習判別詞義間差別的能力,具體包括面向詞義理解的模型預訓練、偽歧義詞標記數據的構建、詞義理解模型的建立三個模塊。
本發明授權一種漢語自監督詞義理解方法及系統在權利要求書中公布了:1.一種漢語自監督詞義理解系統,其特征在于:包括面向詞義理解的模型預訓練模塊、偽歧義詞標記數據的構建模塊、詞義理解模型的建立模塊; 所述面向詞義理解的模型預訓練模塊:該模塊從未標記漢語語料庫中獲取含歧義詞的初始文本,根據歧義詞不同詞性特點對文本加入噪聲,通過將帶噪聲的文本還原,讓模型以生成式方式,自監督地學習歧義詞語義表征; 所述偽歧義詞標記數據的構建:該模塊通過篩選未標記漢語語料庫中單義詞作為待標記詞語,利用相似度計算為其增添干擾釋義,形成包含正確釋義與干擾釋義的偽歧義詞的標記數據集; 所述詞義理解模型的建立:該模塊基于上述預訓練模型與偽歧義詞標記數據集,通過構建單選題的方式,訓練機器理解詞義的能力; 偽歧義詞的定位與篩選:抽取漢語詞典中所有詞語及其詞義,根據詞義數量判斷該詞語為單義詞還是多義詞,并生成相應的詞表;獲取未標記語料庫中初始文本,基于單義詞詞表識別文本中單義詞;計算單義詞TF-IDF值,選擇大于設定閾值且不為人名、地名、機構名的專有名詞的單義詞作為偽歧義詞,并在語料庫中進行標記; 構建偽歧義詞的干擾釋義:針對偽歧義詞的定位,利用同義詞詞林與多義詞詞表尋找與其同義的多義詞;針對每個多義詞,計算其釋義與偽歧義詞正確釋義的相似度,剔除與正確釋義最相似的釋義,將剩余釋義視為干擾釋義。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人山西大學,其通訊地址為:030006 山西省太原市塢城路92號;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。