北京策騰數字科技集團有限公司樂妙獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網獲悉北京策騰數字科技集團有限公司申請的專利一種上下文感知的詞匯識別模型訓練方法及系統獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN120218066B 。
龍圖騰網通過國家知識產權局官網在2025-09-02發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202510660282.6,技術領域涉及:G06F40/284;該發明授權一種上下文感知的詞匯識別模型訓練方法及系統是由樂妙;王小波設計研發完成,并于2025-05-22向國家知識產權局提交的專利申請。
本一種上下文感知的詞匯識別模型訓練方法及系統在說明書摘要公布了:本發明公開了一種上下文感知的詞匯識別模型訓練方法及系統,涉及詞匯定義識別技術領域,包括如下步驟:構建詞匯詞庫,同時基于詞匯定義構建三元組表;使用語義識別模型對樣本文章進行語義識別,得到正確語義,基于正確語義分析不同詞語之間的詞匯關聯性;獲取目標詞匯的上下文,提取上下文的文章分詞;基于文章分詞以及文章分詞所處的位置分析詞匯定義的關聯占比,再對目標詞匯的詞匯定義進行識別,并檢測詞匯識別模型是否有效;本發明用于解決現有的詞匯定義識別技術還存在對單一領域的詞匯進行識別,導致判斷結果出現偏差且詞匯識別的準確率稍顯不足的問題。
本發明授權一種上下文感知的詞匯識別模型訓練方法及系統在權利要求書中公布了:1.一種上下文感知的詞匯識別模型訓練方法,其特征在于,包括如下步驟: 構建詞匯詞庫,同時基于詞匯定義構建三元組表; 使用語義識別模型對樣本文章進行語義識別,得到正確語義,基于正確語義分析不同詞語之間的詞匯關聯性; 獲取目標詞匯的上下文,對上下文進行分詞處理,提取上下文的文章分詞; 基于文章分詞以及文章分詞所處的位置分析詞匯定義的關聯占比,再基于關聯占比對目標詞匯的詞匯定義進行識別,并檢測詞匯識別模型是否有效; 構建詞匯識別模型,基于正確語義分析不同詞語之間的詞匯關聯性包括如下子步驟: 構建詞匯識別模型;基于關鍵詞提取技術提取樣本文章中的關鍵詞,標記為樣本關鍵詞,所述樣本關鍵詞不包括停用詞; 統計期刊中輸出標注正確信號和標注錯誤信號的數量,分別標記為A1和B1,統計新聞報道中輸出標注正確信號和標注錯誤信號的數量,分別標記為A2和B2,統計雜志中輸出標注正確信號和標注錯誤信號的數量,分別標記為A3和B3,統計網絡文章中輸出標注正確信號和標注錯誤信號的數量,分別標記為A4和B4; 通過文檔校對技術對期刊、新聞報道、雜志以及網絡文章進行校對,統計期刊、新聞報道、雜志以及網絡文章中需要校對的詞語的數量,分別標記為RJ、RN、RM以及RO; 統計期刊、新聞報道、雜志以及網絡文章中的詞語的數量,分別標記為NWJ、NWN、NWM以及NWO; 針對任意樣本關鍵詞,標記為目標關鍵詞,統計目標關鍵詞在所有樣本文章中出現的次數,標記為目標數量,通過符號C表示; 通過公式 計算目標關鍵詞與歧義詞之間的詞匯關聯性,其中,T為詞匯關聯性,α為參考系數; 統計每一個樣本關鍵詞與歧義詞之間的詞匯關聯性; 為每個歧義詞構建一份歧義關聯表,將與歧義詞存在詞匯關聯性的樣本關鍵詞以及對應的詞匯關聯性錄入歧義關聯表,歧義詞不同的詞匯定義在歧義關聯表中分別占有一列表格,詞匯關聯性記錄于與正確語義相同的詞匯定義所屬的單元格中; 基于目標詞匯的歧義關聯表,同時基于文章分詞以及文章分詞所處的位置分析詞匯定義的關聯占比包括如下子步驟: 查找目標詞匯的歧義關聯表,標記為目標關聯表; 對文章分詞進行排序,按照從前往后的順序排序編號得到Pi,其中,i為非零自然數且i為P的序號,查找目標詞匯的Pi,將目標詞匯的Pi的序號i標記為j; 針對目標詞匯任意的詞匯定義,查找Pi在目標關聯表中的詞匯關聯性,標記為Si,若不存在詞匯關聯性則Si為0,同時將Sj設置為0; 通過公式計算詞匯定義的關聯占比,其中,K為關聯占比,maxi為i的最大值。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人北京策騰數字科技集團有限公司,其通訊地址為:100080 北京市海淀區上地三街9號B座2層B310;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。