北京科技大學付冬梅獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網獲悉北京科技大學申請的專利一種基于大語言模型的中文實體鏈接方法及系統獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN119807391B 。
龍圖騰網通過國家知識產權局官網在2025-09-02發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202411665523.8,技術領域涉及:G06F16/334;該發明授權一種基于大語言模型的中文實體鏈接方法及系統是由付冬梅;王子欣;李眾設計研發完成,并于2024-11-20向國家知識產權局提交的專利申請。
本一種基于大語言模型的中文實體鏈接方法及系統在說明書摘要公布了:本發明提供一種基于大語言模型的中文實體鏈接方法及系統,涉及自然語言處理技術領域,方法包括:構建知識庫并將每個實體轉化為實體向量,接收中文輸入文本,利用大語言模型識別待鏈接實體,并生成相應的描述文本;通過召回詞實體檢索方法,生成第一候選實體集;基于描述文本及向量相似度,生成第二候選實體集;交叉比對兩者,若只有一個相同的目標實體,利用BERT模型評分,若評分高于第一預設值,則作為第一實體鏈接結果;若沒有或有多個相同實體,則利用BERT模型對兩個候選集進行評分,挑選評分高于第二預設值的多個實體,選擇得分最高的實體作為第二實體鏈接結果;利用大語言模型,過濾實體鏈接結果中錯誤的實體鏈接結果。
本發明授權一種基于大語言模型的中文實體鏈接方法及系統在權利要求書中公布了:1.一種基于大語言模型的中文實體鏈接方法,其特征在于,包括: S1:構建知識庫,將所述知識庫中的每個實體轉化為實體向量; S2:獲中文輸入文本; S3:利用大語言模型,從所述中文輸入文本中識別待鏈接實體,并生成用于描述所述待鏈接實體的描述文本; S4:通過基于召回詞的實體檢索方式,從所述知識庫中生成所述待鏈接實體的第一候選實體集;基于所述描述文本,通過基于向量相似度的檢索方式,從所述知識庫生成所述待鏈接實體的第二候選實體集; S5:對所述第一候選實體集與所述第二候選實體集進行交叉比較,判斷比較結果中是否僅有一個相同的目標候選實體;若是,進入S6;否則,進入S7; S6:根據所述描述文本,利用單塔結構的BERT模型,計算所述目標候選實體的評分值,判斷所述目標候選實體的評分值是否大于第一預設評分值;若是,將所述目標候選實體作為鏈接至所述知識庫的第一實體鏈接結果; S7:根據所述描述文本,利用單塔結構的BERT模型,計算所述第一候選實體集以及所述第二候選實體集中的各個目標候選實體的評分值,挑選出評分值高于第二預設評分值的多個目標候選實體,并在評分值高于第二預設評分值的多個目標候選實體中選擇擁有最高評分值所對應的候選實體作為第二實體鏈接結果; S8:利用大語言模型,判斷所述第一實體鏈接結果或所述第二實體鏈接結果是否符合正確鏈接要求;若是,將正確實體鏈接結果鏈接至所述知識庫;否則,過濾錯誤實體鏈接結果; 其中,所述S3中生成用于描述所述待鏈接實體的描述文本,具體包括: 利用所述大語言模型,結合上下文信息提取與實體相關的關鍵信息; 對所述關鍵信息進行總結,生成用于描述所述待鏈接實體的描述文本; 其中,所述S4中通過基于召回詞的實體檢索方式,從所述知識庫生成所述待鏈接實體第一候選實體集,具體包括: 設置用于詞匯匹配的召回詞; 根據所述召回詞,通過基于召回詞的實體檢索方式中的詞匯匹配機制,從知識庫中生成所述第一候選實體集; 其中,所述召回詞具體為實體名稱的詞匯或實體名稱的短語; 其中,所述S4中基于所述描述文本,通過基于向量相似度的檢索方式,從所述知識庫生成所述待鏈接實體的第二候選實體集,具體包括: 利用編碼器對所述描述文本進行嵌入,得到描述文本向量; 計算所述描述文本向量與知識庫中的所述實體向量之間的向量相似度; 將向量相似度大于預設向量相似度所對應的候選實體組成的候選實體集,作為所述第二候選實體集。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人北京科技大學,其通訊地址為:100083 北京市海淀區學院路30號;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。