北京工業大學劉瀟健獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網獲悉北京工業大學申請的專利基于語義和關系結構融合嵌入的知識圖譜嵌入方法獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN115935968B 。
龍圖騰網通過國家知識產權局官網在2025-09-09發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202310005099.3,技術領域涉及:G06F40/279;該發明授權基于語義和關系結構融合嵌入的知識圖譜嵌入方法是由劉瀟健;顧問;張旸旸;邊洪梅設計研發完成,并于2023-01-04向國家知識產權局提交的專利申請。
本基于語義和關系結構融合嵌入的知識圖譜嵌入方法在說明書摘要公布了:本發明利用語義相關性和關系結構相關性在關聯關系推理中的作用,提出一種基于語義和關系結構融合嵌入的知識圖譜嵌入方法,適用于所有既包含實體描述,又包含關聯關系的知識圖譜的嵌入和推理,相較于純基于語義嵌入和純基于關系結構嵌入的知識圖譜嵌入方法,本發明在知識圖譜關聯預測任務、實體預測任務和未知實體樣本預測任務中都有良好的表現。
本發明授權基于語義和關系結構融合嵌入的知識圖譜嵌入方法在權利要求書中公布了:1.基于語義和關系結構融合嵌入的知識圖譜嵌入方法,其特征在于: 步驟1:提煉知識圖譜的“實體描述數據集”和“關系結構數據集”;“實體描述數據集”源自實體的描述性屬性;“關系結構數據集”源自于實體關系三元組h,r,t,其中h,t表示頭實體和尾實體,r表示關系類型; 步驟2:訓練詞嵌入模型;基于“實體描述數據集”進行詞嵌入訓練,構建詞嵌入模型;詞嵌入模型中保存了“實體描述數據集”中單詞的嵌入向量; 步驟3:實體預向量嵌入;從“關系結構數據集”中隨機選取訓練數據;對于每個三元組h,r,t,從“實體描述數據集”中獲取相應的頭尾h,t的實體描述,并以實體描述中所有詞的詞向量均值定義實體語義嵌入的預向量pre_vector; 步驟4:語義嵌入;頭實體預向量pre_H_vector和尾實體pre_T_vector預向量經過相同結構、相同參數的語義嵌入網絡后,嵌入為頭實體向量H_vector和尾實體向量T_vector; 步驟5:關系結構嵌入;頭實體向量H_vector和尾實體向量T_vector,與關系向量R_vector共同輸入到關系結構模型進行優化訓練,同時優化頭尾實體向量、關系向量及語義嵌入網絡的參數,實現語義和關系結構的聯合訓練和融合嵌入; 技術實現和網絡模型具體如下: 1語義嵌入技術實現 語義嵌入基于出現在相似上下文中的詞具有相似含義的假設,采用基于當前詞的周圍詞contextw預測當前詞w的方法實現詞嵌入,即最大化條件概率pw|contextw;同時采用隨機負采樣提高詞嵌入性能,對于給定的contextw,詞w就是一個正樣本,其它詞就是負樣本;對于一個給定的樣本contextw,w,希望最大化: gw=∏u∈{w}∪NEGwpu|contextw1 式中,NEGw表示負樣本集,通過增大正樣本概率同時降低負樣本概率,最大化gw;基于Sigmoid構造pu|contextw: 式中,Lwu為樣本標簽,正樣本Lwu=1,負樣本Lwu=0;xw表示contextw中各詞向量之和,θu表示詞u對應的待訓練參數;Sigmoid函數用σX表示; 對于“實體描述數據集”中語料庫基于公式1和公式2定義目標函數 利用隨機梯度求解參數更新: 經過模型訓練,得到詞嵌入模型及語料庫中所有詞的詞向量vw;然后,基于詞嵌入模型構建實體的語義嵌入向量;設實體描述的詞集合D={w1,w2,...,wm},每個描述詞對應的詞向量為vwi,則實體預向量: 實體預向量pre_vector作為預訓練向量輸入語義神經網絡模型: fpre_vector,ω6式中ω為語義嵌入網絡模型中的各參數; ω是語義嵌入網絡模型中參數的統稱,模型中的參數數量由向量維度V決定,數量是V*V;語義嵌入階段采用V維到V維的全連接方式,以保持各部分嵌入維度的一致;經過語義嵌入階段,頭實體、尾實體分別嵌入為V維的H_vector和T_vector,分別輸入關系結構嵌入階段的神經網絡模型中; 2關系結構嵌入技術實現 語義嵌入階段結束后,頭尾實體向量H_vector和T_vector作為輸入進入關系結構嵌入階段;關系結構嵌入階段的目標是將“關系結構數據集”中的頭實體、尾實體和關聯關系三元組h,r,t關系結構信息嵌入到向量中;因此,該階段的輸入除了頭尾實體向量外,還應包括關聯關系向量;與實體向量的維數保持一致,關聯關系嵌入的向量也為V維;設關聯關系的類型數量為C,則關聯向量矩陣為C×V維;訓練時,根據三元組h,r,t抽取相應的關聯關系向量; 關系結構嵌入的基本思路是將實體之間的關聯關系r理解為頭實體h和尾實體t之間的轉換操作,即:H_vector+R_vector≈T_vector;幾何意義是尾實體向量應該是頭實體向量與關系向量加和的近鄰;關系結構嵌入效能函數E則被定義為: E=||H_vector+R_vector-T_vector||7 基于E設計損失函數并基于梯度下降法優化更新各模型參數;其中,關系結構嵌入階段更新的參數為整個關聯向量矩陣,及頭尾向量H_vector和T_vector;H_vector和T_vector僅作為輔助參數,將梯度變化傳遞到語義嵌入階段,進行語義嵌入網絡模型中各參數的更新; 3嵌入模型優化 根據公式7和L2范數定義距離函數dh+r,t,用于衡量h+r和t之間的距離: 式中,h,t表示頭尾實體向量,即H_vector,T_vector;r表示關系向量,即R_vector; 在關系結構嵌入中采用最大間隔方法,定義目標函數Loss: 式中,S是“關系結構數據集”中的三元組,S'h,r,t是通過替換h,r,t中的h,t得到的負采樣三元組;γ是取值大于0的間隔距離參數;[X]+表示正值函數,即X0時,[X]+=X;當X≤0時,[X]+=0;令L=γ+dh+r,t-dh'+r,t'; 關系結構嵌入階段訓練優化關系向量r,更新公式為: 語義嵌入階段主要訓練優化語義神經網絡模型中的參數ω,更新公式為: 將公式6代入L: L=γ+d[fp_h,ω+r,fp_t,ω]-d[fp_h',ω+r,fp_t',ω]12 則公式11中: 式中,p_*表示不同的預向量;通過公式12和公式13將關系結構嵌入階段的針對頭尾實體向量的訓練和更新繼續傳遞到語義嵌入階段的網絡模型中,實現已標識的實體關系對關系結構嵌入模型和語義嵌入模型共同地監督優化。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人北京工業大學,其通訊地址為:100124 北京市朝陽區平樂園100號;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。