延邊大學趙亞慧獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網獲悉延邊大學申請的專利基于跨模態對齊與融合的多模態實體和關系抽取方法及系統獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN120146051B 。
龍圖騰網通過國家知識產權局官網在2025-09-02發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202510210311.9,技術領域涉及:G06F40/295;該發明授權基于跨模態對齊與融合的多模態實體和關系抽取方法及系統是由趙亞慧;鄭金康;金國哲;金哲俊;尹飛;張振國;崔榮一;任一平;杜美豫;張博倫;彭宇翔;王明皓;谷會敏;胡勤龍設計研發完成,并于2025-02-25向國家知識產權局提交的專利申請。
本基于跨模態對齊與融合的多模態實體和關系抽取方法及系統在說明書摘要公布了:本發明公開了基于跨模態對齊與融合的多模態實體和關系抽取方法及系統,包括:對輸入文本和圖像進行處理和編碼,獲得多種圖像和文本特征;以圖像的語義表示為錨點,分別對細粒度和粗粒度的文本特征與像素級圖像表示進行特征對齊,將圖像和文本特征映射到同一語義空間;通過文本引導動態門控聚合、視覺前綴跨模態融合、跨模態圖文匹配,進行多粒度特征融合,增加特征互補性的同時建模文本中名詞短語與圖像對象的關聯,獲得多粒度的多模態特征表示;通過實體引導注意力門控融合多粒度的多模態特征,聚集文本實體相關的視覺信息,獲得最終的多模態融合表示;根據多模態融合表示,分別進行多模態命名實體識別和多模態關系抽取的任務預測。
本發明授權基于跨模態對齊與融合的多模態實體和關系抽取方法及系統在權利要求書中公布了:1.基于跨模態對齊與融合的多模態實體和關系抽取方法,其特征在于,所述方法包括: 步驟一:對輸入文本和圖像進行處理和編碼,獲得多種圖像和文本特征;其中,多種圖像和文本特征包括:細粒度文本特征、粗粒度文本特征、細粒度像素級圖像表示、粗粒度像素級圖像表示、細粒度語義級圖像表示以及粗粒度語義級圖像表示; 步驟二:將圖像的語義表示作為圖像和文本特征對齊的錨點,分別進行細粒度文本特征和細粒度像素級圖像表示,以及粗粒度文本特征和粗粒度像素級圖像表示的特征對齊,將圖像和文本特征映射到同一語義空間; 步驟三:通過文本引導動態門控聚合、視覺前綴跨模態融合、跨模態圖文匹配,進行多粒度特征融合,增加特征互補性的同時建模文本中名詞短語與圖像對象的關聯,獲得細粒度和粗粒度的多模態特征表示; 步驟四:將獲得的多粒度的多模態特征表示輸入到實體引導注意力門控模塊,聚集文本實體相關的視覺信息,獲得最終的多模態融合表示; 步驟五:將獲得的多模態融合表示輸入到任務特定解碼器,分別進行多模態命名實體識別和多模態關系抽取的任務預測; 所述步驟三中,通過文本引導動態門控聚合、視覺前綴跨模態融合、跨模態圖文匹配,進行多粒度特征融合,獲得細粒度和粗粒度的多模態特征表示包括: 將特征對齊之后的粗粒度和細粒度的文本表示,圖像像素表示以及圖像語義表示分別進行處理;包括: 將細粒度的文本表示以及圖像表示和進行基于視覺前綴transformer塊的細粒 度特征融合; 進行文本引導的動態門控聚合,獲取文本在特定層次上的互補圖像特征;動態門控信號表示從圖像編碼器獲得的第k層視覺特征到第l個細粒度視覺前綴transformer塊的概率: 其中,k和l分別表示圖像編碼器和視覺前綴transformer塊的層次索引,K表示圖像編 碼器的最大層數,表示第k層視覺特征與細粒度文本特征的融合表示,為可學習的 權重參數,為第l層的動態門控信號,表示前一層視覺前綴transformer輸出的全 局文本特征的表示,表示第k層細粒度像素級視覺特征,表示級聯操作; 利用每層的門信號得到最終聚合的細粒度層次化視覺特征; 將聚合的細粒度層次化視覺特征,投影到視覺key向量和視覺value向量中,其中是視覺注意力映射參數,將第l-1層的細粒度文本特 征編碼表示投影到交叉注意力文本query向量、key向量和value向量中,;進行視覺前綴跨模 態融合,其中分別是注意力映射參數;通過視覺前綴注意計算第l層的隱含 特征,逐層迭代更新,最后一層的隱藏特征 即為跨模態細粒度文本特征編碼表示; 基于語義錨點對比學習得到的相似度矩陣,進行跨模態圖文匹配; 將矩陣對角線元素置為0,避免與正樣本比較;然后,根據相似度分布從同一批次中采樣負文本和負圖像,基于其與目標圖像或文本相似度賦予采樣概率; 使用視覺前綴transformer塊的最后一層輸出嵌入[CLS]token作為圖像-文本對的融 合表示,預測圖像和文本匹配的概率,得到圖文匹配損失,其中是表示真值標簽的二維one-hot向量; 分別進行文本表示與配對的圖像表示和的匹配概率預測,利用該模塊輸出的匹 配概率,得到細粒度多模態特征:;其中,L 表示細粒度視覺前綴transformer塊的最大層數,和表示圖像和文本匹配的概 率,分別用于確定保留的細粒度文本特征和細粒度像素級視覺特征融合后的細粒度多模態 特征和細粒度文本特征和細粒度語義表示融合后的細粒度多模態特征的比 例; 進行細粒度的文本表示以及圖像表示和的粗粒度特征融合,獲得粗粒度的多模 態特征。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人延邊大學,其通訊地址為:133002 吉林省延邊朝鮮族自治州延吉市公園路977號;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。