淮陰工學院王文豪獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網獲悉淮陰工學院申請的專利一種基于DETR改進模型的稀疏注意力目標檢測方法獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN117152416B 。
龍圖騰網通過國家知識產權局官網在2025-08-29發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202311122596.8,技術領域涉及:G06V10/25;該發明授權一種基于DETR改進模型的稀疏注意力目標檢測方法是由王文豪;伍言倫;付步穎;孫陳瑾;靳陶陽;牟孝志;陳鑫;趙麗娟;戚薇設計研發完成,并于2023-09-01向國家知識產權局提交的專利申請。
本一種基于DETR改進模型的稀疏注意力目標檢測方法在說明書摘要公布了:本發明公開了一種基于DETR改進模型的稀疏注意力目標檢測方法,基于DeformableDETR框架改進而來,其中編碼器由多個編碼器層堆疊而成,每一層主要由依賴實例的稀疏注意力模塊、門控線性控制單元以及它們之間的殘差連接和歸一化操作構成,解碼器由多個解碼器層堆疊而成,每一層主要由多頭自注意力模塊、依賴實例的稀疏注意力模塊、門控線性控制單元以及它們之間的殘差連接和歸一化操作構成;本發明利用實例之間的依賴關系增強了注意力的表達能力,稀疏注意力能夠根據輸入圖像的內容動態調整特征之間的連接性,更好地捕捉語義信息,操作減少計算復雜度。本發明能夠提高計算效率,提高模型對目標的檢測性能。
本發明授權一種基于DETR改進模型的稀疏注意力目標檢測方法在權利要求書中公布了:1.一種基于DETR改進模型的稀疏注意力目標檢測方法,其特征在于,包括: 1將訓練數據集輸入骨干網絡SwinTransformerV1中,提取出三層特征圖C3、C4和C5; 2通過多尺度特征融合模塊,將三層特征圖C3、C4和C5轉變為四個特征層,融合四個特征層并加入相對位置編碼信息,獲得多尺度融合特征圖; 3將多尺度融合特征圖作為編碼器的輸入,編碼器由多個編碼器層堆疊而成,每一層主要由依賴實例的稀疏注意力模塊、門控線性控制單元以及它們之間的殘差連接和歸一化操作構成,輸入的特征序列依次通過依賴實例的稀疏注意力模塊、殘差連接和歸一化操作和門控線性控制單元進行處理,最后再經過一個殘差連接和歸一化操作,得到一層編碼器的輸出;重復遍歷多次編碼器,得到編碼器輸出特征圖; 4將編碼器輸出特征圖作為解碼器的輸入,解碼器由多個解碼器層堆疊而成,每一層主要由多頭自注意力模塊、依賴實例的稀疏注意力模塊、門控線性控制單元以及它們之間的殘差連接和歸一化操作構成,具有位置編碼的特征序列輸入多頭自注意力模塊,多頭自注意力模塊的輸出經過殘差連接和歸一化操作后,再依次通過依賴實例的稀疏注意力模塊、殘差連接和歸一化操作和門控線性控制單元進行處理,最后再經過一個殘差連接和歸一化操作,得到一層解碼器的輸出;重復遍歷多次解碼器,獲得解碼器輸出特征向量; 5將解碼器輸出特征向量分別通過一個線性層和一個多層感知機來預測類別和邊界框,獲得一個預測的目標集合,每個目標包含類別和邊界框坐標信息; 6將預測的目標集合與真實的目標集合之間進行網絡整體損失計算,通過反向傳播優化模型; 7多次重復步驟1至6,得到訓練好的目標檢測模型; 步驟2包括: 將三層特征圖C3、C4和C5經過三個卷積核為1×1步長為1的卷積依次變換為尺寸為和的特征圖,將最后一層特征圖C5經過卷積核為3×3步長為1的卷積變換為尺寸為的特征圖,作為第四個特征層; 將四個特征層加上坐標信息,為區分不同層的特征點位置信息,引入相對位置坐標,位置嵌入方法是將每個層的特征點的絕對坐標轉換為相對坐標;將每個層的特征點的相對坐標和尺度信息拼接起來,獲得多尺度融合特征圖; 步驟3中,依賴實例的稀疏注意力模塊執行如下的操作: 首先,將多尺度融合特征圖進行分塊,得到一個特征向量序列X=x1,x2,...,xN,其中N和n表示特征序列長度,xi表示序列中第i個特征向量, 表示實數域,d是特征維度,表示xi是d維的實數向量,每個元素都是實數;表示X是維度為n×d的實數矩陣;對每個特征向量進行線性變換,分別通過三個線性變換Q=XWQ、K=XWK和V=XWV得到查詢向量Q=q1,q2,...,qN、鍵向量K=k1,k2,...,kN和值向量V=v1,v2,...,vN,其中WQ,WK,WV是可學習的參數矩陣,這些參數矩陣在訓練過程中通過反向傳播進行優化,以使模型能夠自適應地學習輸入序列的表示,表示WQ,WK,WV都是d維實數向量形成的d×d矩陣; 接著,通過一個輕量級的連接預測模塊來估計每對特征向量之間的連接分數,連接分數反映了兩個特征向量在語義上的相關性,連接預測模塊執行如下的操作: 計算低秩注意力權重,低秩注意力權重公式如下: 其中,從查詢Q和向下投影鍵WdownK的外積計算關注矩陣的低秩近似,Wdown是可學習的參數矩陣,ndown表示降維大小,n表示輸入特征序列長度,WdownK表示將K的token維度向下投影到較低的維度,表示特征維度,softmax表示歸一化函數,表示矩陣的轉置運算; 通過閾值對低秩注意力權重進行稀疏化,其公式如下: 其中,表示一對特征向量i和j之間做低秩注意力權重計算得到的結果,τ表示閾值,在低秩注意力稀疏化中,小于τ的值直接舍棄不存儲零值; 通過連接掩碼預測器,產生一個向上投影的稀疏化連接掩碼M,其表達式為: 其中,連接掩碼預測器對稀疏上投影矩陣Wup進行稀疏矩陣乘法,即 Wup是可學習的參數矩陣,它通過用Top-k算法選擇有限的相似度分數,即選擇前k個最相關的特征向量作為注意力對象而不是計算所有可能的配對;進行二值化操作得到一個向上投影的稀疏化連接掩碼M,1[·]表示二值化,它是將子集中的元素映射為一,而其他元素映射為零,在連接掩碼預測器中,它用于將每對標記的連接分數二值化,這些分數表示它們對注意力的相關性; 然后,在稀疏化連接掩碼M的指引下,算法只計算全秩注意力權重A的非零元素,即如果每一對特征向量,它們之間滿足Mij=1時,表示它們具有相似度能進行注意力匹配計算,計算稀疏全秩注意力矩陣公式如下: 最后,對于每個查詢向量i,其對應的計算輸出向量為: 其中當Mij≠1時,舍棄對應的否則保留N是特征序列長度,vj表示值向量V=v1,v2,...,vN中第j個元素的表示,表示特征向量i和j之間的注意力加權計算結果,最終整個依賴實例的稀疏注意力模塊計算輸出為:
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人淮陰工學院,其通訊地址為:223000 江蘇省淮安市經濟技術開發區枚乘東路1號;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。