揚州萬方科技股份有限公司周思遠獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網獲悉揚州萬方科技股份有限公司申請的專利一種搭載于無人機的多模態場景內容理解系統獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN118887590B 。
龍圖騰網通過國家知識產權局官網在2025-09-05發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202411129202.6,技術領域涉及:G06V20/40;該發明授權一種搭載于無人機的多模態場景內容理解系統是由周思遠;王楨;包敏;周春云設計研發完成,并于2024-08-16向國家知識產權局提交的專利申請。
本一種搭載于無人機的多模態場景內容理解系統在說明書摘要公布了:一種搭載于無人機的多模態場景內容理解系統,涉及深度學習和多模態內容理解領域。包括依次連接的信號采集單元、數據采樣和處理單元、時空特征提取單元、雙模態特征融合單元和場景內容分類單元,所述信號采集單元用于對音頻數據和視頻數據進行采集;所述數據采樣和處理單元用于對音頻數據進行處理形成頻譜圖以及對視頻數據進行幀采樣;所述時空特征提取單元用于對音頻模態的連續頻譜圖提取特征以及對視頻模態的連續幀提取時空特征;整個系統結合音頻和視頻完成場景內容的理解,相比于單模態或者單幀加邏輯的系統設計,本發明能夠在單模態信息不足時依然能輸出魯棒的結論,并且憑借其幀間變化和動作特征提取能力可以理解更多動態場景內容類型。
本發明授權一種搭載于無人機的多模態場景內容理解系統在權利要求書中公布了:1.一種搭載于無人機的多模態場景內容理解系統,其特征在于,包括依次連接的信號采集單元、數據采樣和處理單元、時空特征提取單元、雙模態特征融合單元和場景內容分類單元, 所述信號采集單元用于對音頻數據和視頻數據進行采集;音頻數據使用兩路麥克風采集兩路音頻信號,一路懸掛在無人機下遠離機身位置,用于采集場景聲音,減少無人機自身噪音的干擾,另一路固定在靠近機身下方位置,用于采集旋翼工作時發出的環境噪音; 所述數據采樣和處理單元用于對音頻數據進行處理形成頻譜圖以及對視頻數據進行幀采樣; 音頻處理的實施方式如下:對場景聲音和環境噪音采用相同的處理方式,首先按時間戳截取音頻流,存儲到本地,加載到內存后將音頻重新采樣為單聲道音頻,通過使用Hann時窗,按10ms幀移對音頻進行短時傅里葉變換,再計算對數梅爾聲譜;然后對特征進行無重疊組幀,堆疊出四維數組;環境噪音以同樣的方式處理成相同維度的數組,在通道維拼接得到四維數組作為音頻分支模型輸入; 所述時空特征提取單元用于對音頻模態的連續頻譜圖提取特征以及對視頻模態的連續幀提取時空特征; 所述時空特征提取單元包括: 音頻模態和視頻模態擁有獨立的特征提取分支網絡,每個特征提取的分支網絡均是在卷積構成的通用分類或檢測模型的主干網絡的基礎上,插入自適應時間域注意力模塊,兩個模態輸出各自的一維特征向量,表征各自模態的連續輸入在時間和空間維的全局和局部特征; 自適應時間域注意力模塊,包括時間維自適應局部特征提取子模塊和時間維全局注意力子模塊;自適應時間域注意力模塊的輸入復制成4份,一份用于時間維自適應局部特征提取子模塊,三份用于時間維全局注意力子模塊;時間維自適應局部特征提取子模塊生成自適應的卷積核;時間維全局注意力子模塊在其中一份輸入的時間維提取注意力權重,并用乘法的方式將權重應用到第2份輸入的相應時間維的所有元素上,再將結果與第3份輸入按對應位置相加,作為時間維全局注意力子模塊的輸出;自適應時間域注意力模塊的最后一部分是一個2D卷積,卷積的輸入是時間維全局注意力子模塊的輸出,該卷積的卷積核是時間維自適應局部特征提取子模塊的輸出,該2D卷積的結果作為自適應時間域注意力模塊的輸出; 時間維自適應局部特征提取子模塊,輸入是自適應時間域注意力模塊的輸入,輸出為下一步卷積的卷積核;實現方式為,在每個通道中,先將空間維做全局池化,之后對時間維做卷積核大小為5的一維卷積,通過1維BatchNorm層和ReLU激活層,用于提取相鄰時刻間的特征,再通過全連接層將維度減小到5,最后經過Sigmoid層調整數值范圍,生成5*1的卷積核,作為后續2D卷積的權重,卷積核的數值來源于輸入本身,不同的輸入會生成不同的卷積核,實現模型權重對輸入的自適應; 時間維全局注意力子模塊,通過對相鄰時間的空間維特征圖在做差,提取連續時間內的特征變化,捕捉目標或鏡頭的高維運動信息,實施方式為,被減數分支在時間維從t1到tn,減數分支多經過一個2D卷積層,再將t1移動到時間維的末尾,形成t2,t3,..,tn,t1的順序,將兩個分支的對應位置的特征圖相減,獲得空間維的差值特征圖,經過全局池化和Softmax后,得到時間維的權重,該權重在空間維上廣播復制后,與模塊輸入做乘積后再與輸入相加并輸出; 所述雙模態特征融合單元用于對時空特征提取單元提取的特征進行融合; 所述場景內容分類單元用于對雙模態特征融合單元的輸出特征向量進行內容分類,得出特征向量對應的類別編號,映射為原音視頻所歸屬的內容類別。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人揚州萬方科技股份有限公司,其通訊地址為:225006 江蘇省揚州市廣陵產業園安林路96號;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。