上海人工智能創新中心于家碩獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網獲悉上海人工智能創新中心申請的專利用于長時節奏化視頻的配樂方法及裝置獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN116312429B 。
龍圖騰網通過國家知識產權局官網在2025-08-26發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202310240155.1,技術領域涉及:G10H1/00;該發明授權用于長時節奏化視頻的配樂方法及裝置是由于家碩;王耀暉;陳昕苑;孫驍;喬宇設計研發完成,并于2023-03-13向國家知識產權局提交的專利申請。
本用于長時節奏化視頻的配樂方法及裝置在說明書摘要公布了:本發明涉及視頻處理技術領域,提出一種用于長時節奏化視頻的配樂方法及裝置,該方法包括:通過隱式的無條件生成模型提取音頻特征;通過上下文感知的條件編碼器從長時節奏化視頻中提取視頻特征;以及通過隱式的條件擴散生成模型使用跨模態注意力模塊將所述音頻特征和所述視頻特征交互融合以生成配樂。通過本發明生成的音樂有更好的節奏匹配度和音樂質量;生成音樂的長度從現有技術的2?6秒擴充到25?50秒;可以應用于更多的節奏化視頻的場景,將場景從單純的舞蹈擴充到體育場景。
本發明授權用于長時節奏化視頻的配樂方法及裝置在權利要求書中公布了:1.一種用于長時節奏化視頻的配樂方法,其特征在于,包括下列步驟: 通過隱式的無條件生成模型提取音頻特征; 通過上下文感知的條件編碼器從長時節奏化視頻中提取視頻特征;以及 通過隱式的條件擴散生成模型使用跨模態注意力模塊將所述音頻特征和所述視頻特征交互融合以生成配樂, 其中所述視頻特征包括RGB特征、視頻的節奏特征以及視頻的類別特征, 提取RGB特征包括: 使用預訓練的I3D網絡進行特征提取,并且使用雙層的LSTM網絡進行建模,表示為下式: cv,h,mc=BiLSTMEnci1,i2,...,iT,h0,mc0, 其中,Enc表示視覺編碼器、i表示輸入的視覺幀、BiLSTM表示雙向長短期記憶網絡、h表示隱藏向量、mc表示記憶向量以及cv表示視覺條件特征; 提取視頻的節奏特征包括: 提取視頻的2D姿勢特征; 提取視頻節奏,表示為下式: 其中,Mt,j表示第t時刻第j個關節的運動特征、∠Mt,j表示運動特征和x坐標軸的夾角、1θ表示指示函數、K表示bin的個數、Ot表示第t個時刻內的視覺節奏以及η表示歸一化函數;以及 根據所述視頻節奏生成節奏曲線,并且選取節奏曲線的局部最大值以生成二元向量,所述二元向量表示每一個時序位置是否是視覺節奏點,其中選取節奏曲線的局部最大值的條件表示為下式: 其中,crti表示第i個視覺節奏點所在的時刻的節奏條件特征,prem、postm、prea、posta分別表示取局部均值和最大值的前后閾值,ω表示兩個視覺節奏點所在的時序位置的最小間隔,δ表示視覺節奏點閾值; 其中所述配樂方法還包括將所述節奏特征由二元向量轉化為高維的節奏特征張量,通過隱式的條件擴散生成模型使用跨模態注意力模塊將所述音頻特征和所述視頻特征交互融合包括: 根據所述節奏特征張量使用跨模態注意力模塊進行條件生成,表示為下式: 其中,Att表示注意力函數,d表示特征的維度,WQ、WK、WV表示可學習的向量,c表示條件特征,T表示矩陣轉置,i表示第i個中間層;以及 添加條件特征對擴散模型進行優化,表示為下式: 其中,LCLD表示條件隱式擴散函數以及C表示條件特征。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人上海人工智能創新中心,其通訊地址為:200232 上海市徐匯區云錦路701號37、38層;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。