北京信息職業(yè)技術(shù)學(xué)院李章民獲國家專利權(quán)
買專利賣專利找龍圖騰,真高效! 查專利查商標(biāo)用IPTOP,全免費!專利年費監(jiān)控用IP管家,真方便!
龍圖騰網(wǎng)獲悉北京信息職業(yè)技術(shù)學(xué)院申請的專利基于無監(jiān)督學(xué)習(xí)知識圖譜構(gòu)建方法及系統(tǒng)獲國家發(fā)明授權(quán)專利權(quán),本發(fā)明授權(quán)專利權(quán)由國家知識產(chǎn)權(quán)局授予,授權(quán)公告號為:CN119474405B 。
龍圖騰網(wǎng)通過國家知識產(chǎn)權(quán)局官網(wǎng)在2025-08-26發(fā)布的發(fā)明授權(quán)授權(quán)公告中獲悉:該發(fā)明授權(quán)的專利申請?zhí)?專利號為:202411699183.0,技術(shù)領(lǐng)域涉及:G06F16/36;該發(fā)明授權(quán)基于無監(jiān)督學(xué)習(xí)知識圖譜構(gòu)建方法及系統(tǒng)是由李章民設(shè)計研發(fā)完成,并于2024-11-26向國家知識產(chǎn)權(quán)局提交的專利申請。
本基于無監(jiān)督學(xué)習(xí)知識圖譜構(gòu)建方法及系統(tǒng)在說明書摘要公布了:本發(fā)明涉及知識圖譜技術(shù)領(lǐng)域,具體為基于無監(jiān)督學(xué)習(xí)知識圖譜構(gòu)建方法及系統(tǒng),所述方法包括:獲取文本數(shù)據(jù),對收集的文本數(shù)據(jù)進(jìn)行預(yù)處理,并對文本數(shù)據(jù)進(jìn)行分詞,得到文本數(shù)據(jù)的分詞結(jié)果;基于預(yù)訓(xùn)練語言模型,對文本數(shù)據(jù)的分詞結(jié)果進(jìn)行實體識別,并對文本數(shù)據(jù)中的實體識別結(jié)果進(jìn)行歧義消除;采用無監(jiān)督模型抽取實體關(guān)系,生成實體和實體關(guān)系三元組;構(gòu)建實體關(guān)系權(quán)重計算公式,并將實體關(guān)系權(quán)重映射為實體關(guān)系置信度,過濾置信度值低于閾值的實體關(guān)系;基于文本數(shù)據(jù)中抽取的實體和實體關(guān)系,構(gòu)建文本數(shù)據(jù)的知識圖譜。本發(fā)明提高了知識圖譜構(gòu)建的效率和質(zhì)量,為智能搜索、問答、推薦等知識驅(qū)動的應(yīng)用提供了重要的知識支撐。
本發(fā)明授權(quán)基于無監(jiān)督學(xué)習(xí)知識圖譜構(gòu)建方法及系統(tǒng)在權(quán)利要求書中公布了:1.基于無監(jiān)督學(xué)習(xí)知識圖譜構(gòu)建方法,其特征在于,包括: 獲取文本數(shù)據(jù),對收集的文本數(shù)據(jù)進(jìn)行預(yù)處理,并對文本數(shù)據(jù)進(jìn)行分詞,得到文本數(shù)據(jù)的分詞結(jié)果; 基于預(yù)訓(xùn)練語言模型,對文本數(shù)據(jù)的分詞結(jié)果進(jìn)行實體識別,并對文本數(shù)據(jù)中的實體識別結(jié)果進(jìn)行歧義消除; 采用無監(jiān)督模型抽取實體關(guān)系,生成實體和實體關(guān)系三元組; 構(gòu)建實體關(guān)系權(quán)重計算公式,并將實體關(guān)系權(quán)重映射為實體關(guān)系置信度,過濾置信度值低于閾值的實體關(guān)系; 基于文本數(shù)據(jù)中抽取的實體和實體關(guān)系,構(gòu)建文本數(shù)據(jù)的知識圖譜; 選擇RoBERTa預(yù)訓(xùn)練模型作為實體識別模型,并在RoBERTa預(yù)訓(xùn)練模型的基礎(chǔ)上,對RoBERTa預(yù)訓(xùn)練模型進(jìn)行調(diào)整,添加實體識別特定的網(wǎng)絡(luò)層,包括線性層和CRF層; 將分詞結(jié)果輸入調(diào)整后的模型,得到每個分詞的標(biāo)簽概率分布,使用維特比算法解碼,得到最優(yōu)標(biāo)簽序列;提取實體及類型,得到實體識別結(jié)果; 對每個實體識別結(jié)果,從RoBERTa預(yù)訓(xùn)練模型的知識庫中檢索同名候選實體,計算知識庫中的實體與候選實體的相似度;選擇相似度最高的候選實體作為鏈接對象: ; 其中,是知識庫中的實體集合,將知識庫中的實體鏈接到選定的候選實體,消除歧義; 選擇OpenIE模型作為無監(jiān)督實體關(guān)系抽取模型,包括; 將預(yù)處理后的文本數(shù)據(jù)和實體識別結(jié)果輸入到OpenIE模型,OpenIE模型通過句法分析、實體識別、關(guān)系觸發(fā)詞識別、關(guān)系界定以及三元組生成的步驟抽取實體關(guān)系; 所述句法分析包括,使用依存句法分析器對輸入的文本進(jìn)行句法分析,識別出句子的主語、謂語和賓語成分; 所述實體識別包括,利用預(yù)先識別的實體信息,在句子中定位實體; 所述關(guān)系觸發(fā)詞識別包括,根據(jù)句法分析結(jié)果和預(yù)定義的規(guī)則,識別出表示實體關(guān)系的觸發(fā)詞; 所述關(guān)系界定包括,根據(jù)觸發(fā)詞和實體提及的位置,界定出實體關(guān)系的邊界,提取出實體關(guān)系; 所述三元組生成包括,將實體對和關(guān)系描述組合成三元組,表示實體和實體之間存在關(guān)系; 構(gòu)建實體關(guān)系權(quán)重計算公式,計算實體和實體之間的關(guān)系權(quán)重:; 其中,和表示實體;為文本數(shù)據(jù)的發(fā)布日期衰減指數(shù);為文本數(shù)據(jù)的發(fā)布日期;為當(dāng)前日期;為參數(shù);為文本數(shù)據(jù)k的來源指數(shù);和分別為實體和實體在文章k中的詞頻,為文本數(shù)據(jù)k中的實體最大詞頻。
如需購買、轉(zhuǎn)讓、實施、許可或投資類似專利技術(shù),可聯(lián)系本專利的申請人或?qū)@麢?quán)人北京信息職業(yè)技術(shù)學(xué)院,其通訊地址為:100020 北京市朝陽區(qū)芳園西路5號;或者聯(lián)系龍圖騰網(wǎng)官方客服,聯(lián)系龍圖騰網(wǎng)可撥打電話0551-65771310或微信搜索“龍圖騰網(wǎng)”。
1、本報告根據(jù)公開、合法渠道獲得相關(guān)數(shù)據(jù)和信息,力求客觀、公正,但并不保證數(shù)據(jù)的最終完整性和準(zhǔn)確性。
2、報告中的分析和結(jié)論僅反映本公司于發(fā)布本報告當(dāng)日的職業(yè)理解,僅供參考使用,不能作為本公司承擔(dān)任何法律責(zé)任的依據(jù)或者憑證。


熱門推薦
- 南京一擎機(jī)械制造有限公司張震洲獲國家專利權(quán)
- 東京毅力科創(chuàng)株式會社橫田聰裕獲國家專利權(quán)
- 約翰遜父子公司B·L·阿克曼獲國家專利權(quán)
- 卡迪斯制造(德國)有限公司諾伯特·布赫獲國家專利權(quán)
- 北京京東尚科信息技術(shù)有限公司李俊濤獲國家專利權(quán)
- 武偉獲國家專利權(quán)
- 羅斯蒙特儲罐雷達(dá)股份公司揚·韋斯特林獲國家專利權(quán)
- 華為技術(shù)有限公司楊磊獲國家專利權(quán)
- 北京京東尚科信息技術(shù)有限公司廖耀華獲國家專利權(quán)
- 森森網(wǎng)絡(luò)集團(tuán)有限公司尼哈特·沃獲國家專利權(quán)