廣州虎牙科技有限公司林哲獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監(jiān)控用IP管家,真方便!
龍圖騰網(wǎng)獲悉廣州虎牙科技有限公司申請的專利虛擬數(shù)字人音唇同步優(yōu)化方法、裝置、設備及存儲介質(zhì)獲國家發(fā)明授權專利權,本發(fā)明授權專利權由國家知識產(chǎn)權局授予,授權公告號為:CN118678135B 。
龍圖騰網(wǎng)通過國家知識產(chǎn)權局官網(wǎng)在2025-09-09發(fā)布的發(fā)明授權授權公告中獲悉:該發(fā)明授權的專利申請?zhí)?專利號為:202410787161.3,技術領域涉及:H04N21/43;該發(fā)明授權虛擬數(shù)字人音唇同步優(yōu)化方法、裝置、設備及存儲介質(zhì)是由林哲設計研發(fā)完成,并于2024-06-18向國家知識產(chǎn)權局提交的專利申請。
本虛擬數(shù)字人音唇同步優(yōu)化方法、裝置、設備及存儲介質(zhì)在說明書摘要公布了:本發(fā)明涉及計算機視覺技術領域,公開了一種虛擬數(shù)字人音唇同步優(yōu)化方法、裝置、設備及存儲介質(zhì)。虛擬數(shù)字人音唇同步優(yōu)化方法包括:獲取下一時刻虛擬數(shù)字人待輸出的目標音頻片段;判斷目標音頻片段是否屬于待處理的音頻類型;若目標音頻片段屬于待處理的音頻類型,則基于預置音唇同步優(yōu)化策略,生成目標音頻片段對應的3D人臉嘴型參數(shù)幀序列;基于3D人臉嘴型參數(shù)幀序列,生成對應3D人臉嘴型圖像幀序列并渲染至虛擬數(shù)字人中。本發(fā)明能夠適應各類音頻類型,提升了虛擬數(shù)字人在不同音頻類型下的嘴型流暢性與自然性。
本發(fā)明授權虛擬數(shù)字人音唇同步優(yōu)化方法、裝置、設備及存儲介質(zhì)在權利要求書中公布了:1.一種虛擬數(shù)字人音唇同步優(yōu)化方法,其特征在于,所述虛擬數(shù)字人音唇同步優(yōu)化方法包括: 獲取下一時刻虛擬數(shù)字人待輸出的目標音頻片段; 判斷所述目標音頻片段是否屬于待處理的音頻類型,其中,所述待處理的音頻類型包括短時音頻類型和靜音音頻類型; 若所述目標音頻片段屬于短時音頻類型,則將所述目標音頻片段輸入預置音頻嘴型轉(zhuǎn)換模型進行處理,輸出第一3D人臉嘴型參數(shù)序列; 獲取所述虛擬數(shù)字人對應的3D人臉模型的拓撲結構信息,其中,所述拓撲結構信息包括構成3D人臉模型的多個頂點; 基于各所述頂點對應的語義信息,識別所述第一3D人臉嘴型參數(shù)幀序列中各第一目標頂點,其中,所述第一目標頂點包括嘴部區(qū)域的頂點; 采用一歐元濾波算法對所述第一3D人臉嘴型參數(shù)幀序列中各所述第一目標頂點進行平滑處理,得到所述目標音頻片段對應的3D人臉嘴型參數(shù)幀序列; 若所述目標音頻片段屬于靜音音頻類型,則判斷所述目標音頻片段的前一音頻片段是否屬于靜音音頻類型; 若所述目標音頻片段的前一音頻片段屬于靜音音頻類型,則將預置閉嘴狀態(tài)的第二3D人臉嘴型參數(shù)幀序列作為所述目標音頻片段對應的3D人臉嘴型參數(shù)幀序列; 基于所述3D人臉嘴型參數(shù)幀序列,生成對應3D人臉嘴型圖像幀序列,并將所述3D人臉嘴型圖像幀序列渲染至所述虛擬數(shù)字人中。
如需購買、轉(zhuǎn)讓、實施、許可或投資類似專利技術,可聯(lián)系本專利的申請人或?qū)@麢嗳?a target="_blank" rel="noopener noreferrer nofollow" href="https://iptop.www.hzsmkbearing.com.cn/list?keyword=%E5%B9%BF%E5%B7%9E%E8%99%8E%E7%89%99%E7%A7%91%E6%8A%80%E6%9C%89%E9%99%90%E5%85%AC%E5%8F%B8&temp=1">廣州虎牙科技有限公司,其通訊地址為:511400 廣東省廣州市番禺區(qū)鐘村街(漢溪商業(yè)中心)澤溪街13號1301;或者聯(lián)系龍圖騰網(wǎng)官方客服,聯(lián)系龍圖騰網(wǎng)可撥打電話0551-65771310或微信搜索“龍圖騰網(wǎng)”。
1、本報告根據(jù)公開、合法渠道獲得相關數(shù)據(jù)和信息,力求客觀、公正,但并不保證數(shù)據(jù)的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發(fā)布本報告當日的職業(yè)理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據(jù)或者憑證。