陜西師范大學馬苗獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網獲悉陜西師范大學申請的專利低光照場景下的視頻問答方法獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN117095336B 。
龍圖騰網通過國家知識產權局官網在2025-09-12發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202311246520.6,技術領域涉及:G06V20/40;該發明授權低光照場景下的視頻問答方法是由馬苗;楊捷;李雨桐;姚超;任杰設計研發完成,并于2023-09-25向國家知識產權局提交的專利申請。
本低光照場景下的視頻問答方法在說明書摘要公布了:一種低光照場景下的視頻問答方法,由視頻預處理、增強低光照視頻、構建VF?enhNeXt網絡、增強視頻特征、訓練VF?enhNeXt網絡、驗證VF?enhNeXt網絡、測試VF?enhNeXt網絡步驟組成。其中在增強低光照視頻的方法中,計算視頻幀亮度的平衡值,對調整視頻幀整體亮度后平衡值滿足設定閾值的視頻進行多尺度增強;在增強視頻特征的方法中,構建了VF?enhNeXt網絡,使用VF?enhNeXt網絡對視頻空間特征進行分割和時空上下文建模,獲得能夠在低光照場景下的視頻問答方法。本發明對視頻問答數據集中低光照視頻進行視頻增強和特征增強,為視頻問答模型的輸入提供多層次的視頻特征表示,可以有效提高視頻問答模型在低光照場景下的泛化性能。
本發明授權低光照場景下的視頻問答方法在權利要求書中公布了:1.一種低光照場景下的視頻問答方法,其特征在于由下述步驟組成: 1視頻預處理 采用國際公開的基準數據集NExT-VQA作為視頻數據集,按照7:1:2劃分為訓練集、驗證集、測試集,將給定的視頻集合V作為輸入, V={v1,v2,…,vn}1 對于每一個輸入視頻vn,n為有限的正整數,采樣固定數量的視頻片段Pt,Pt∈{P1,P2,...,Pt},t為有限的正整數,用滑動窗口的方式將視頻片段Pt劃分為固定數量的視頻幀 m為有限的正整數,按照式2對視頻vn的視頻幀進行變暗和添加高斯噪聲G: 其中,Im表示預處理后的視頻幀,α為變暗的系數,取值為[0.4,0.5]; 2增強低光照視頻 1從視頻片段Pt隨機抽取視頻幀,按照式3獲得視頻幀亮度的平衡值 其中,N表示像素的總數,H,W分別表示視頻幀的高度和寬度,x,y分別表示視頻幀中像素的位置坐標的橫坐標和縱坐標,R,G,B分別表示圖像的紅色、綠色、藍色的亮度,δ,為模型參數,δ∈[0.05,0.1], 2按照式4調整視頻vi的視頻片段Pt中的視頻幀Im在位置x,y處的像素值Ix,y: 其中,x,y表示視頻幀中像素的位置坐標; 3視頻片段Pt滿足Tsd為閾值參數,取值為其中lmax和lmin分別表示視頻幀亮度的最大值和最小值,通過重復下采樣和上采樣得到不同尺度的圖像,按照式5獲得增強后的圖像S′: S′=RL5 R=log1+S-Hlog1+S6 其中,L表示視頻幀的光照分量,S為采樣圖像轉換為的灰度圖像,σ表示高斯函數的方差,x,y表示高斯函數的中心點坐標; 4采用加權平均方法對增強后的圖像進行尺度合成,進行直方圖均衡化,得到增強后的視頻幀I′t和視頻片段P′t,I′t∈{I′1,I′2,...,I′m},m為有限的正整數,P′t∈{P′1,P′2,...,P′t},t為有限的正整數; 3構建VF-enhNeXt網絡 VF-enhNeXt網絡由時序編碼模塊與第一分支模塊、第二分支模塊、激活函數層、全連接層3、特征融合模塊、推理判斷模塊依次串聯構成;所述的第一分支模塊由動態學習殘差塊1與全連接層1串聯構成;所述的第二分支模塊由動態學習殘差塊2與歸一化層1、動態學習殘差塊3、歸一化層2、動態學習殘差塊4、全連接層2依次串聯構成; 4增強視頻特征 將增強后的視頻片段P′t傳遞給殘差卷積神經網絡,分別提取視頻空間特征和光流運動特征,通過VF-enhNeXt網絡增強視頻特征如下: 1將視頻空間特征沿著時間維度劃分為子片段和每個子片段的大小為M為批尺寸大小,T為特征的時間維度,C為通道數,M、T、C取值為有限的正整數; 2使用時序編碼模塊對每個子片段的時間信息進行編碼,復制編碼后的子片段,以獲得相同的時空特征和并將時空特征和作為第一分支、時空特征和作為第二分支; 3在第一分支中,使用第一分支模塊沿著通道維度連接子片段的所有特征,得到第一個分支結果 4在第二分支中,使用第二分支模塊疊加時空特征和中相同的時空特征,得到時空特征和沿著通道維度連接時空特征和的所有特征,得到第二個分支結果 5使用Sigmoid函數生成自適應的區分權重 其中d是輸入特征的數量,按式8得到增強特征結果Fa: 其中,⊕表示逐元素相加,⊙表示逐元素相乘,Sigmoid·為S型激活函數,Conv1d·為一維卷積,k為卷積核大小; 5訓練VF-enhNeXt網絡 1構建損失函數 按式10構建損失函數Ls: 其中,K表示候選答案個數,pw與分別表示原視頻樣本與增強視頻樣本中不正確選項的得分,pr與分別表示原視頻樣本與增強視頻樣本中正確選項的得分; 2訓練VF-enhNeXt網絡 將訓練集的視頻空間特征和光流運動特征送入到VF-enhNeXt網絡中進行訓練,在訓練過程中,學習率為γ∈[10-5,10-3],優化器采用Adam優化方法,迭代至損失函數收斂; 6驗證VF-enhNeXt網絡 將驗證集的視頻空間特征和光流運動特征輸入到訓練好的VF-enhNeXt網絡中進行驗證; 7測試VF-enhNeXt網絡 將測試集的視頻空間特征和光流運動特征輸入到訓練好的VF-enhNeXt網絡中進行測試,加載保存的權重文件,得到答案。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人陜西師范大學,其通訊地址為:710062 陜西省西安市長安南路199號;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。