中國傳媒大學劉子航獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網獲悉中國傳媒大學申請的專利一種視聽內容同步音效合成方法獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN120358379B 。
龍圖騰網通過國家知識產權局官網在2025-09-12發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202510868599.9,技術領域涉及:H04N21/43;該發明授權一種視聽內容同步音效合成方法是由劉子航設計研發完成,并于2025-06-26向國家知識產權局提交的專利申請。
本一種視聽內容同步音效合成方法在說明書摘要公布了:本發明公開了一種視聽內容同步音效合成方法,涉及視聽內容處理技術領域。該視聽內容同步音效合成方法,通過對待合成的每幀圖像數據進行特征提取,結合預訓練視覺事件識別模型識別需生成音效的關鍵幀,提取其觸發事件信息,并進一步分析對應幀圖像的空間聲像定位指數與情緒音效調節指數。在此基礎上,計算每幀圖像的音效匹配指數,與預設音效片段進行區間匹配,實現精準選取與合成音效,本發明通過引入圖像特征集,并借助預訓練的視覺事件識別模型,構建了面向圖像事件動態的完整識別路徑,不僅可在視覺信息無顯著場景切換的情況下精準識別出具有聲效需求的事件幀,還能通過輸出事件區域圖像數據、事件類型和觸發時間等結構化信息。
本發明授權一種視聽內容同步音效合成方法在權利要求書中公布了:1.一種視聽內容同步音效合成方法,其特征在于,包括以下步驟: 獲取待合成的若干幀圖像數據,并分別進行特征提取,得到待合成的每幀圖像的圖像特征集; 將待合成的每幀圖像的圖像特征集輸入至預訓練的視覺事件識別模型中,識別需生成音效的若干幀圖像,并輸出對應的觸發事件幀信息; 基于圖像特征集和觸發事件幀信息,分析需生成音效的每幀圖像的空間聲像定位指數和情緒音效調節指數; 基于空間聲像定位指數和情緒音效調節指數,匹配需生成音效的每幀圖像的音效片段,并執行音效合成處理; 觸發事件幀信息包括觸發時間、事件類型與事件區域圖像數據,事件區域圖像數據包括若干個事件像素點的像素值以及二維坐標,所述視覺事件識別模型包括幀級特征編碼層、時間序列建模層、注意力聚焦層、事件分類與定位輸出層; 識別需生成音效的若干幀圖像,并輸出對應的觸發事件幀信息的具體步驟如下: 在視覺事件識別模型的幀級特征編碼層中,接收待合成的每幀圖像的圖像特征集,并進行逐字段編碼,輸出對應幀的圖像編碼特征向量; 在視覺事件識別模型的時間序列建模層中,將每幀圖像的圖像編碼特征向量按時間順序排列,構建時間序列特征張量,并提取每幀圖像的時間關聯特征向量; 在視覺事件識別模型的注意力聚焦層中,讀取每幀圖像的時間關聯特征向量,并對其與相鄰幀的特征變化速率進行差異評分,提取差異評分高于設定閾值的幀作為候選觸發事件幀; 在視覺事件識別模型的事件分類與定位輸出層中,根據候選觸發事件幀的圖像編碼特征向量,分析輸出需生成音效的若干幀圖像的對應觸發事件幀信息; 計算需生成音效的某幀圖像的空間聲像定位指數的具體公式如下: 其中,KsD、BrQ、ZgL、ZpY、MjZ依次為需生成音效的某幀圖像的空間聲像定位指數、邊緣擾動強度、幀間光流向量模值、中心坐標偏移值、事件區域面積占比值,δ1、δ2、δ3、δ4依次為數據庫中存儲的邊緣擾動響應系數、光流響應系數、中心偏移響應系數、面積占比響應系數; 計算需生成音效的某幀圖像的情緒音效調節指數的具體公式如下: 其中,QyX、StB、WrB、ZsT、LjZ依次為需生成音效的某幀圖像的情緒音效調節指數、色彩突變率、紋理擾動比率、最大色彩梯度值、圖像亮度均值,λ1、λ2、λ3、λ4、λ5依次為數據庫中存儲的色彩突變響應系數、紋理擾動響應系數、交互響應系數、色彩梯度響應系數、圖像亮度響應系數。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人中國傳媒大學,其通訊地址為:100020 北京市朝陽區定福莊東街1號;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。