北京工業大學吳迪獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網獲悉北京工業大學申請的專利面向公共網絡重要數據補全的基于多模態嵌入交互的鏈接預測方法獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN116611509B 。
龍圖騰網通過國家知識產權局官網在2025-09-09發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202310485326.7,技術領域涉及:G06N5/01;該發明授權面向公共網絡重要數據補全的基于多模態嵌入交互的鏈接預測方法是由吳迪;唐滋芳;李童;楊震設計研發完成,并于2023-04-28向國家知識產權局提交的專利申請。
本面向公共網絡重要數據補全的基于多模態嵌入交互的鏈接預測方法在說明書摘要公布了:面向公共網絡重要數據補全的基于多模態嵌入交互的鏈接預測方法,屬于網絡數據安全領域,解決現有交互方法隨機生成嵌入向量從而限制模型挖掘更多有價值信息的問題,達到更好地融合公共網絡中的多源異構數據及補全公共網絡中的重要數據。該方法步驟如下:獲取公共網絡重要數據的知識圖譜數據集及重要數據的文本描述信息;文本嵌入模型訓練;結構嵌入模型訓練;交替拼接;特征降維;特征重排;循環卷積和預測尾實體向量。本方法在嵌入交互方法的基礎上,利用重要數據的多模態信息,解決了面向公共網絡多源異構數據的難以融合與補全的問題,在預測重要數據的準確率有提升。
本發明授權面向公共網絡重要數據補全的基于多模態嵌入交互的鏈接預測方法在權利要求書中公布了:1.面向公共網絡重要數據補全的基于多模態嵌入交互的鏈接預測方法,其特征在于,步驟如下: 步驟1獲取公共網絡重要數據的知識圖譜數據集;從不同的公共網絡數據集網站收集信息,然后將數據集相關信息匯總到excel表格中,相關信息包括:數據集領域、數據集名稱、下載地址、數據類型、數據集介紹、數據量規模、是否有標簽、是否可下載信息;數據集表示為三元組形式頭實體、關系、為實體,其中頭實體用h表示,關系用r表示,尾實體用t表示;三元組分為正樣本和負樣本,存在兩個三元組h1,r1,t1和h2,r2,t2,給定一個頭實體h1和關系r1去預測尾實體,預測正確為正樣本組h1,r1,t1,預測錯誤為負樣本h1,r1,t2; 步驟2文本嵌入;嵌入重要數據的文本信息目的是通過文本嵌入方法處理文本類型數據得到實體的文本嵌入向量;輸入是在公共網絡中收集到與Freebase數據集中與重要數據相關的文本描述信息,使用基于BERT的查詢編碼對文本描述進行處理,以獲得實體文本嵌入向量Se;將重要數據的文本描述句子打包為單個輸入標記序列;每個輸入標記序列包含多個句子,使用唯一的標記[SEP]來分隔句子;輸入表示通過對相應的、標記、段和位置嵌入求和來構建;標記嵌入ew由WordPiece嵌入生成;不同的元素由[SEP]區分,因此它們包含不同的段嵌入es;位置嵌入ep是位置大小到低維稠密向量的映射;每個輸入標記都有一個位置嵌入表示,不同的標記在相同的位置包含相同的位置嵌入;每個輸入序列中的第一個標記是一個唯一的分類標記[CLS];與此標記相對應的最終隱藏狀態是實體文本嵌入向量; 步驟3結構嵌入;在結構嵌入中,利用TransD結構嵌入對三元組進行訓練,得到滿足結構h+r=t的實體結構嵌入向量Se和關系結構嵌入向量Sr;TransD使用兩個向量來表示每個實體和關系;第一個向量表示實體或關系的含義,另一個投影向量將用于構建映射矩陣;給定三元組eh,er,et,其中,eh代表隨機初始化的頭實體嵌入向量,er代表隨機初始化的關系嵌入向量,et代表隨機初始化的尾實體嵌入向量;TransD將頭部和尾部實體映射到關系空間,分別得到實體的映射矩陣和關系的映射矩陣 其中,表示對頭實體嵌入向量eh執行轉置操作,Im×n表示單位矩陣,表示對尾實體嵌入向量et執行轉置操作;映射矩陣既與實體相關也與關系相關; 分別是頭實體和尾實體的映射向量; 得分函數ftr表示頭實體的映射向量加上關系向量er與尾實體的映射向量之間的誤差;因此,通過計算頭部和尾部實體的映射向量最小化目標函數SEP: fr={eh,er,et|eh,er,et∈E}; f'r={e'h,er,et|e′h∈E}∪{eh,er,e't|e't∈E} 其中γ是邊界參數,用于限制關系嵌入空間中實體和關系之間的相對位置的參數,通常情況下,可以將邊界參數隨機初始化為[-0.001,0.001]之間的隨機數;在訓練過程中,模型通過優化損失函數來學習實體和關系之間的嵌入式表示,并通過更新邊界參數來限制實體和關系之間的相對位置關系;E是數據集中所有的實體集合;fr是訓練數據集中的正樣本集合;f'r是損壞的三元組負樣本集合,它是通過將正樣本集合fr中有效三元組的頭實體eh或尾實體et隨機替換成實體集合中的任意頭實體e'h或尾實體e't而產生的; 步驟4交替拼接模塊;交替拼接模型使用交替排列向量中的元素的方式將實體文本嵌入向量Te與結構嵌入向量Se進行拼接得到矩陣C; 步驟5特征降維模塊;實體嵌入向量[Te,Se]通過使用特征降維方法被映射到200維,得到實體嵌入向量Je;特征降維首先對矩陣C進行中心化操作; 其中,是中心化的數據矩陣,X是文本嵌入向量的維度與結構嵌入向量維度的總數,Ci是矩陣C中第i個元素;接下來,計算中心化數據矩陣的協方差矩陣: 表示協方差矩陣;然后,通過特征值分解可以得到協方差矩陣的特征值和特征向量: λ表示特征值,v表示對應的特征向量;最后,將原始矩陣C投影到由第一個200維特征向量v1,v2,…,v200構成的空間中,得到降維后的實體嵌入向量Je: 步驟6特征重排模塊;方法將實體嵌入向量Je和關系嵌入向量Sr重排為不同的矩陣方式;特征重排的第一步是對實體和關系嵌入向量進行元素隨機排序,生成μ不同的向量表示,旨在從不同角度交替拼接實體和關系嵌入向量產生的交互信息;第二步是按元素交替拼接兩個嵌入向量;第三步是將拼接后的向量重新排列成不同的矩陣作為循環卷積的輸入; 步驟7循環卷積模塊;利用循環卷積神經網絡訓練重構的置換向量;循環卷積模塊為文本和結構嵌入向量提供了統一的嵌入空間;循環卷積將每個重排堆疊為一個單獨的通道;以一種深度的方式將循環卷積應用于卷積層的循環填充;它通過分別用卷積核大小的一半的向量填充矩陣的頂部和底部來擴展矩陣的大??;同時使用的歸一化函數和激活函數用于防止梯度爆炸;然后,通過隱藏層來防止過擬合,最后,使用激活函數進行反向傳播; 步驟8映射到向量空間模塊;Pk是使用交替連接和特征降維將實體文本嵌入向量Je與結構嵌入向量Sr連接起來得到的拼接向量;接下來,采用特征重排操作φ對實體和關系的拼接向量Pk進行排列;Θ表示深度循環卷積操作,使用過濾器w連接的實體關系作為卷積層的輸入;vec將得到的特征映射張量向量化;eo表示目標實體嵌入矩陣;函數f和g分別是ReLU激活函數和sigmoid激活函數;模型通過矩陣參數W的線性轉移將g映射到向量空間;通過矩陣乘法與目標實體嵌入矩陣eo相乘得到最終的預測分數ψ; ψ=gvecfφPkΘwWeo。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人北京工業大學,其通訊地址為:100124 北京市朝陽區平樂園100號;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。