湖南馬欄山視頻先進技術研究院有限公司鄧正秋獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網獲悉湖南馬欄山視頻先進技術研究院有限公司申請的專利基于深度信息與時頻優化的軌跡控制視頻生成方法及裝置獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN120238709B 。
龍圖騰網通過國家知識產權局官網在2025-09-09發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202510387765.3,技術領域涉及:H04N21/81;該發明授權基于深度信息與時頻優化的軌跡控制視頻生成方法及裝置是由鄧正秋;黎維設計研發完成,并于2025-03-31向國家知識產權局提交的專利申請。
本基于深度信息與時頻優化的軌跡控制視頻生成方法及裝置在說明書摘要公布了:本發明提供了基于深度信息與時頻優化的軌跡控制視頻生成方法及裝置,涉及圖像處理技術領域,本發明通過多實體分割、深度估計和時頻分解,結合用戶指令優化3D軌跡,并利用多尺度融合網絡生成控制信號;最后,將這些信號與原始圖像輸入改進的StableVideoDiffusion模型生成視頻潛在表示序列,解決了現有視頻生成方法對動態實體運動控制精度不足、跨幀一致性差的問題,通過深度信息引導的3D軌跡建模與時頻聯合優化機制,顯著提升生成視頻的運動平滑性、空間真實性及時頻穩定性。
本發明授權基于深度信息與時頻優化的軌跡控制視頻生成方法及裝置在權利要求書中公布了:1.基于深度信息與時頻優化的軌跡控制視頻生成方法,其特征在于,包括以下步驟: S1、對原始圖像I進行多實體實例分割生成多實體實例遮罩集合M,并根據實體區域面積動態確定控制點數量通過加權聚類提取覆蓋關鍵運動區域的多尺度控制點集合C;所述多尺度控制點集合C為2D控制點集合; S2、基于多尺度控制點集合C通過深度估計網絡提取圖像深度圖D,將多尺度控制點集合C結合深度值映射為全局3D軌跡集合T; S3、采用離散小波變換對全局3D軌跡集合T進行時頻分解得到低頻近似分量與高頻細節分量,結合用戶方向指令U與自適應方向增益調整高頻細節分量以優化全局3D軌跡集合T得到優化3D軌跡集合T′; S4、將多實體實例遮罩集合M、全局3D軌跡集合T及優化3D軌跡集合T′輸入多尺度融合網絡生成實體級光流場Oi與多尺度特征并通過門控跨尺度注意力機制融合實體級光流場Oi與多尺度特征生成多尺度控制信號S; S5、將多尺度控制信號S與原始圖像I輸入改進的StableVideoDiffusion模型,所述改進的StableVideoDiffusion模型的隱空間擴散過程中通過退火采樣與跨模態注意力生成視頻潛在表示序列 步驟S5具體包括以下步驟: S51、將多尺度控制信號與原始圖像輸入至基于StableVideoDiffusion框架的改進模型,首先通過3D-VAE編碼器將輸入圖像I壓縮為潛在表示同時將多尺度控制信號S通過時空卷積網絡映射為條件嵌入在擴散去噪過程中,隱變量zt通過改進的UNet架構迭代更新,其時間依賴的殘差塊計算形式為: òθzt,t,c=Conv3DAdaGNzt,t+CrossAttnzt,c, 其中AdaGNzt,t為注入時間步t的嵌入向量,表示自適應組歸一化層;CrossAttnzt,c為跨模態注意力模塊,用于計算zt的c交互權重并加權融合為條件特征;h=H8;w=W8;d=4;t∈[1,T];òθzt,t,c表示去噪網絡的輸出;Conv3D為三維卷積層,在空間維度與時序維度上聯合建模運動連續性;H為圖像高度,W為圖像寬度; S52、引入退火采樣策略:在去噪步t∈[Tc,Tend]時采用完整條件嵌入c,而在t∈[1,Tc]時逐步衰減多尺度控制信號S的權重γt=min1,Tc-tTc-1,以消除過度約束導致的偽影;最終通過頻域穩定模塊對潛在表示進行后處理輸出時序平滑的視頻潛在表示序列 為可學習頻域濾波器;Tend表示退火采樣策略的終止時間步;Tc表示退火采樣策略的起始時間步。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人湖南馬欄山視頻先進技術研究院有限公司,其通訊地址為:410000 湖南省長沙市開福區月湖街道濱河北路280興旺科技園A棟5樓;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。