電子科技大學吳慶波獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網獲悉電子科技大學申請的專利一種基于跨模態對偶圖對齊的參考圖像分割方法獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN115713538B 。
龍圖騰網通過國家知識產權局官網在2025-08-29發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202211445260.0,技術領域涉及:G06T7/11;該發明授權一種基于跨模態對偶圖對齊的參考圖像分割方法是由吳慶波;施兆豐;李宏亮;孟凡滿;許林峰;潘力立設計研發完成,并于2022-11-18向國家知識產權局提交的專利申請。
本一種基于跨模態對偶圖對齊的參考圖像分割方法在說明書摘要公布了:本發明公開了一種基于跨模態對偶圖對齊的參考圖像分割方法,屬于多模態圖像分割領域。本發明創新性的提出了“部分?統一?整體”的范式,即將提取得到的視覺與文本特征先映射至一個統一的潛在表征結構,再進行跨模態融合。這有利于模型提取的顯式對齊信息,可以有效增強最終的分割效果。
本發明授權一種基于跨模態對偶圖對齊的參考圖像分割方法在權利要求書中公布了:1.一種基于跨模態對偶圖對齊的參考圖像分割方法,該方法包括: 步驟1:為了進一步增強文本信息以及促進后續對句子長距離上下文的捕獲,首先對輸入的文本進行預處理;預處理包括單詞詞性標注以及基于依賴解析樹的方法獲取句法結構; 使用現有開源的自然語言處理依賴庫:SpaCy來實現,對于單詞詞性標注,將單詞詞性類別縮減為7類:名詞、形容詞、動詞、介詞、副詞、其他詞性以及補零位置,并且使用獨熱編碼去表示這7類詞性; 采用依賴解析樹的方法獲得了句子中詞與詞之間的從屬關系,為后續構建圖結構做準備; 步驟2:將圖像I與文本表達式S分別輸入各自模態的編碼器,得到4個尺度視覺特征Vi與文本特征L,i=0,1,2,3;隨后,將步驟1中提取得到的詞性獨熱編碼經過一個多層全連接層編碼網絡,獲得詞性特征P,最后,將文本特征L與詞性特征P進行元素級相乘,使每個單詞對應的特征與它的詞性特征得到充分的融合,具體公式如下: LP=ReLUConvL⊙P 其中,⊙表示矩陣元素級相乘操作,Conv表示卷積層,ReLU代表激活函數,LP表示融入了詞性信息的文本特征; 步驟3:對于最低級別的視覺特征V0,進行跨模態融合; 首先,將從文本編碼器中得來的文本初始特征L經過一個線性映射層與Softmax計算函數,得到每個單詞特征對應的權重ω;根據權重,對文本特征L中,每一個單詞對應的特征向量作加權和操作,得到句子的整體特征向量hc;最后,將hc平鋪,并將其與V0以及人為定義的空間坐標O0沿著通道維度作拼接操作,并通過一個卷積層輸出這個尺度下最終的多模態特征M0;具體公式表示為: M0=Conv[V0;Tilehc;O0] 其中,Tile表示平鋪操作,[;]表示拼接操作,Conv表示卷積層; 步驟4:對于較高級的視覺特征V1、V2與V3,利用對偶圖模塊與層次化交互模塊來進行跨模態融合;對V1、V2與V3的操作均相同,下文中省略各自對應的下標來進行方法闡釋; 首先是提取實體,將融入了詞性信息的文本特征LP視作文本實體,并且以LE表示,在視覺方面,將空間坐標O與視覺特征V拼接后卷積,得到視覺實體VE;然后使用實體級HIM對不同模態的實體進行交互,得到實體級多模態特征ME;隨后,構建視覺圖與文本圖,對視覺實體VE與文本實體LE分別進行模態內的圖推理,更新后的基于圖的視覺與文本特征分別用VG與LG表示;接著使用圖級HIM對不同模態的基于圖的特征進行交互,得到圖級多模態特征MG;最后,將ME與MG進行拼接操作,實現實體級交互結果與圖級層次化交互結果的整合,得到該尺度下的最終的多模態特征M; 步驟5:經過上述步驟后,獲得了不同尺度的多模態特征Mi,i=0,1,2,3,設計了一種由高到低的路徑來整合各個尺度上的多模態特征,具體公式為: 其中,Upsample代表上采樣操作,[;]表示拼接操作,Conv表示卷積層; 步驟6:將Y0輸入多層卷積層組成的分割頭,并且對輸出進行上采樣,獲得最終的預測結果使用二值交叉熵函數作為損失函數,并用Y表示分割真實值,預測損失表示為: 其中,下標i,j表示預測結果和真實值的像素位置;H與W表示真實圖像掩碼的尺寸。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人電子科技大學,其通訊地址為:611731 四川省成都市高新區(西區)西源大道2006號;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。