西北工業大學張艷寧獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網獲悉西北工業大學申請的專利基于動態自進化信息抽取和對齊的文本-目標檢索方法獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN116645694B 。
龍圖騰網通過國家知識產權局官網在2025-08-29發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202310483808.9,技術領域涉及:G06V40/10;該發明授權基于動態自進化信息抽取和對齊的文本-目標檢索方法是由張艷寧;王鵬;牛凱;陳鴻宇;矯炳亮;高麗穎設計研發完成,并于2023-05-04向國家知識產權局提交的專利申請。
本基于動態自進化信息抽取和對齊的文本-目標檢索方法在說明書摘要公布了:本發明公開了一種基于動態自進化信息抽取和對齊的文本?目標檢索方法,構建了文本引導的動態視覺信息過濾和部件級對齊網絡,包括基本圖文特征提取模塊、行人無關視覺內容過濾模塊和行人模態動態自進化模塊;在基本圖文特征提取模塊中,使用一個視覺卷積神經網絡和一個語言處理模型提取圖像和描述的基本特征;在行人無關視覺內容過濾模塊中,采用了Transformer編碼器層負責細粒度的像素級視覺特征增強,采用基于原型引導的注意力層分別和從增強后的視覺特征中過濾與行人無關的噪聲;最后,在行人模態動態自進化模塊中,利用文字描述引導圖像級部件掩碼自主進化,利用掩碼描述對各個行人部件的強調程度,以進行詳細的部件級對齊和匹配。
本發明授權基于動態自進化信息抽取和對齊的文本-目標檢索方法在權利要求書中公布了:1.一種基于動態自進化信息抽取和對齊的文本-目標檢索方法,其特征在于,包括如下步驟: 步驟1:構建文本引導的動態視覺信息過濾和部件級對齊網絡,包括基本圖文特征提取模塊、行人無關視覺內容過濾模塊和行人模態動態自進化模塊; 步驟1-1:所述基本圖文特征提取模塊包括語義特征提取支路和圖像特征提取支路; 所述語義特征提取支路使用經過文本數據預訓練的BERT網絡,對于每個文本輸入,在每個描述的開頭添加一個特殊分類標記,將特殊分類標記經過BERT模型處理后,將BERT模型最終輸出中的隱藏狀態用作該描述的整體特征表示; 所述圖像特征提取支路,使用ResNet50在ImageNet上預訓練后作為基準網絡Backbone,用于提取行人圖像特征移除圖像特征提取支路中的最后一個下采樣操作,用于增加特征圖的空間尺度,模型輸出的特征圖的大小設定為C,H,W,其中C和H,W分別表示通道維度和特征映射大小; 步驟1-2:所述行人無關視覺內容過濾模塊包括Transformer編碼器層和原型引導的注意力模塊; 步驟1-2-1:所述Transformer編碼器層利用特征向量之間的相關性增強視覺特征,它包括一個多頭自注意力機制和一個前饋網絡;首先將上述Transformer編碼器層提取的特征展平為H*W個視覺特征向量,作為Transformer編碼器層的輸入,然后H*W個視覺特征向量分別通過一個全連接層計算每個視覺特征向量的query向量、key向量和value向量: qi=Wqvi,kj=Wkvj,valuej=Wvvj 其中,qi為query向量中的分量,vi為value向量中的分量,kj為key向量向量中的分量,Wq、Wk、Wv分別為權重矩陣; 利用每兩個視覺特征向量的query向量和key向量之間的相似性si,j作為注意力的權重ai,j: 其中dk為query向量和key向量的通道維度; 計算加權的視覺特征向量,如下: 將加權得到的視覺特征向量經過層正則項后,輸入到兩層全連接層的前饋網絡中,得到增強的視覺特征; 步驟1-2-2:所述原型引導的注意力模塊包括原型向量的構造和更新及基于原型的跨模態注意力機制;首先構造一個可學習的原型向量,它的維度與視覺特征向量的維度一致;為了使得這個原型向量包含所有文本描述的行人語義知識,在原型向量和步驟1-2-1提取的文本特征向量之間設計相似性損失函數LSM,通過一個全連接層計算Transformer編碼器層產生的視覺特征向量的key向量和value向量,原型向量和視覺特征向量之間的相似性作為跨模態注意力機制的權重,并計算最終的視覺特征向量作為語義顯著的視覺信息,實現將行人內容從視覺噪音中分離出來,最終所述原型引導的注意力模塊將生成強化后的視覺特征Voriginal; 步驟1-3:所述行人模態動態自進化模塊中,利用文字描述引導圖像級部件掩碼自主進化,包括視覺掩碼過濾器和文本掩碼過濾器; 行人模態動態自進化模塊的輸入為步驟1-2-2中基于原型引導的注意力模塊生成的強化后的視覺特征Voriginal,將Voriginal在H維度上平均分為k個局部視覺特征,大小表示為C,Hk,W,將每個局部特征分別先平均池化,然后再分別通過多個不共享參數的全連接層,生成局部視覺特征Vpart;同時,Voriginal通過一個全連接層得到全局特征Vglobal;其中,在每個局部視覺特征和全局特征后插入身份分類損失函數以提取與行人身份相關的顯著性特征;此后,將步驟1-2-1提取的文本特征引導局部視覺特征Vpart和全局視覺特征進行動態自主進化,得到最終視覺特征Vfinal,計算過程見下式: 其中,Vglobal表示全局視覺特征,表示第i個水平條帶區域的部分級別視覺特征,αi是文本引導的第i個視覺水平條帶區域對應的權重得分,i=1,2,...,k; 步驟2:使用基于文本的行人檢索任務的數據集訓練文本引導的動態視覺信息過濾和部件級對齊網絡,設置訓練超參數,使用Adam優化器完成訓練; 測試網絡時,使用余弦相似度作為相似度的評估指標對文本特征向量和最終視覺特征進行距離計算; 步驟3:組合上述步驟建立的各模塊,輸入描述和待檢索的行人圖像,根據相似性對圖像進行排序,若給出的查詢結果與實際行人ID相同,則判定查詢成功。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人西北工業大學,其通訊地址為:710072 陜西省西安市友誼西路127號;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。