江南大學王映輝獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網獲悉江南大學申請的專利一種基于混合模型的輕量級視頻行為識別方法獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN115690916B 。
龍圖騰網通過國家知識產權局官網在2025-09-23發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202211392253.9,技術領域涉及:G06V40/20;該發明授權一種基于混合模型的輕量級視頻行為識別方法是由王映輝;祝安磊設計研發完成,并于2022-11-08向國家知識產權局提交的專利申請。
本一種基于混合模型的輕量級視頻行為識別方法在說明書摘要公布了:本發明公開了一種基于混合模型的輕量級視頻行為識別方法,屬于計算機人工智能學科技術領域。本發明通過使用輕量級3D卷積模塊與Transformer相結合的方式構建輕量級深度卷積網絡并用于視頻行為識別,使用3D卷積能夠提取時空特征優點的同時,彌補了Transformer所缺乏的歸納偏置,使得網絡能夠加速收斂,使用Transformer對視頻這種帶有時間維度信息的任務進行長時間序列信息建模,二者相輔相成,通過在不同數據集下的對比,本發明的方法提高了模型的精度,降低了模型的訓練難度,并保證了模型仍為輕量化網絡的效果,提升了識別效率。
本發明授權一種基于混合模型的輕量級視頻行為識別方法在權利要求書中公布了:1.一種視頻行為識別方法,其特征在于,所述視頻行為識別方法包括: 步驟一:獲取待識別的行為視頻; 步驟二:對所述待識別的行為視頻進行預處理,得到行為圖像序列; 步驟三:將所述行為圖像序列輸入基于Transformer與3D-CNN混合的輕量級視頻行為識別網絡; 步驟四:所述基于Transformer與3D-CNN混合的輕量級視頻行為識別網絡對所述行為圖像序列進行計算并輸出行為識別結果; 所述基于Transformer與3D-CNN混合的輕量級視頻行為識別網絡包括依次連接的:輸入層、第一卷積層、3D-ShuffleViT網絡、第二卷積層、池化層、線性分類層和輸出層,其中所述3D-ShuffleViT網絡連續堆疊1次以上; 所述3D-ShuffleViT網絡包括:3D-ShuffleNetV2基礎模塊、3D-ShuffleNetV2下采樣模塊和ShuffleViT模塊; 所述3D-ShuffleViT網絡的構建過程包括: 步驟1:構建所述3D-ShuffleNetV2基礎模塊和3D-ShuffleNetV2下采樣模塊; 將輕量級ShuffleNetV2網絡中的2D卷積轉化為3D卷積,2D池化操作轉換為3D池化操作; 步驟2:構建所述ShuffleViT模塊; 對特征層進行Unflod展開操作,計算展開后特征層Patch之間的自注意力,最后將展開的特征層折疊; 步驟3:由所述3D-ShuffleNetV2基礎模塊、所述3D-ShuffleNetV2下采樣模塊和所述ShuffleViT模塊構建所述3D-ShuffleViT網絡; 所述步驟2包括: 步驟2.1:首先將特征圖通過一個卷積核大小為3x3x3的卷積層進行局部特征建模,然后再通過一個卷積核大小為1x1x1的卷積層調整通道數; 步驟2.2:Unflod操作; 對特征圖劃分Patch,設置的Patch大小為2x2x2,即每個Patch內有8個像素; 步驟2.3:自注意力計算; 每個Token只和在每個Patch中位置相同的Token進行自注意力計算; 步驟2.4:Flod操作; 自注意力計算完后,對特征進行折疊操作,將[N,C,T,H,W]折疊為[N,C,T*H*W],其中N表示Patch大小,C表示通道數,T表示時間維度,H和W表示高和寬,將經過自注意力機制計算后的特征折疊為原特征圖結構。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人江南大學,其通訊地址為:214122 江蘇省無錫市濱湖區蠡湖大道1800號;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。