山東女子學(xué)院郭延輝獲國家專利權(quán)
買專利賣專利找龍圖騰,真高效! 查專利查商標(biāo)用IPTOP,全免費!專利年費監(jiān)控用IP管家,真方便!
龍圖騰網(wǎng)獲悉山東女子學(xué)院申請的專利一種基于深度學(xué)習(xí)的語音驅(qū)動3D數(shù)字人生成方法獲國家發(fā)明授權(quán)專利權(quán),本發(fā)明授權(quán)專利權(quán)由國家知識產(chǎn)權(quán)局授予,授權(quán)公告號為:CN120431222B 。
龍圖騰網(wǎng)通過國家知識產(chǎn)權(quán)局官網(wǎng)在2025-09-26發(fā)布的發(fā)明授權(quán)授權(quán)公告中獲悉:該發(fā)明授權(quán)的專利申請?zhí)?專利號為:202510927244.2,技術(shù)領(lǐng)域涉及:G06T13/20;該發(fā)明授權(quán)一種基于深度學(xué)習(xí)的語音驅(qū)動3D數(shù)字人生成方法是由郭延輝;田睿;王勤芬;于謙設(shè)計研發(fā)完成,并于2025-07-07向國家知識產(chǎn)權(quán)局提交的專利申請。
本一種基于深度學(xué)習(xí)的語音驅(qū)動3D數(shù)字人生成方法在說明書摘要公布了:本發(fā)明公開了一種基于深度學(xué)習(xí)的語音驅(qū)動3D數(shù)字人生成方法,涉及深度學(xué)習(xí)音頻處理技術(shù)領(lǐng)域,包括以下步驟:步驟1:采集音頻數(shù)據(jù)和對應(yīng)的面部數(shù)據(jù),并進行預(yù)處理;步驟2:利用預(yù)處理后的音頻數(shù)據(jù)和面部數(shù)據(jù)對MetaFormer模型進行訓(xùn)練,獲得面部預(yù)測模型;步驟3:采集待轉(zhuǎn)換音頻并輸入至面部預(yù)測模型,獲得預(yù)測面部數(shù)據(jù);步驟4:將預(yù)測面部數(shù)據(jù)通過客戶端傳輸至UE5引擎,生成數(shù)字人。本發(fā)明能夠?qū)崿F(xiàn)語音驅(qū)動3D數(shù)字人嘴型數(shù)據(jù)預(yù)測,提高預(yù)測數(shù)據(jù)的通用性,以及數(shù)字人渲染效率。
本發(fā)明授權(quán)一種基于深度學(xué)習(xí)的語音驅(qū)動3D數(shù)字人生成方法在權(quán)利要求書中公布了:1.一種基于深度學(xué)習(xí)的語音驅(qū)動3D數(shù)字人生成方法,其特征在于,包括以下步驟: 步驟1:采集音頻數(shù)據(jù)和對應(yīng)的面部數(shù)據(jù),并進行預(yù)處理; 步驟2:利用預(yù)處理后的音頻數(shù)據(jù)和面部數(shù)據(jù)對MetaFormer模型進行訓(xùn)練,獲得面部預(yù)測模型;采用Wav2Vec模型對音頻數(shù)據(jù)進行預(yù)處理,提取初步特征,獲得音頻向量;MetaFormer模型包括線性層、特征對齊層、動作編碼器、周期性位置編碼器、目標(biāo)掩碼層、內(nèi)存掩碼層和動作解碼器; 線性層,設(shè)置角色向量并轉(zhuǎn)換為角色特征; 特征對齊層,將音頻向量轉(zhuǎn)換為以幀為單位的向量,并與面部數(shù)據(jù)中的每一幀圖像一一對應(yīng); 周期性位置編碼器,采用改進正弦位置編碼方法為預(yù)測的預(yù)測幀圖像進行編碼,獲得周期性位置編碼加入預(yù)測幀圖像,并將周期性位置編碼編碼成可渲染格式; 目標(biāo)掩碼層,根據(jù)預(yù)測幀圖像生成目標(biāo)掩碼矩陣; 內(nèi)存掩碼層,根據(jù)預(yù)測幀圖像生成內(nèi)存掩碼矩陣; 動作解碼器,根據(jù)對齊后的音頻向量和面部數(shù)據(jù)、角色特征、目標(biāo)掩碼矩陣和內(nèi)存掩碼矩陣進行推理預(yù)測,生成預(yù)測幀圖像并進行編碼,所有預(yù)測幀圖像構(gòu)成預(yù)測面部數(shù)據(jù); 目標(biāo)掩碼層根據(jù)當(dāng)前的預(yù)測幀圖像生成目標(biāo)掩碼矩陣,目標(biāo)掩碼矩陣表示為: 其中,p表示時間周期;i表示矩陣的列,j表示矩陣的行,BFi,j表示第j行第i列的目標(biāo)碼權(quán)重; 內(nèi)存掩碼層根據(jù)當(dāng)前的預(yù)測幀圖像生成內(nèi)存掩碼矩陣,內(nèi)存掩碼矩陣BA表示為: 其中,k表示當(dāng)前連續(xù)幀的數(shù)量;i表示矩陣的列,j表示矩陣的行,BAi,j表示第j行第i列的內(nèi)存權(quán)重; 改進正弦位置編碼方法表示為: PPEt,2α=sintmodp100002αdτ PPEt,2α+1=costmodp100002αdτ 其中,τ表示縮放參數(shù);t為當(dāng)前幀時間;d為模型維度;α為維度指數(shù);p為時間周期;PPEt,2α表示偶數(shù)預(yù)測幀圖像對應(yīng)的周期性位置編碼;PPEt,2α+1表示奇數(shù)預(yù)測幀圖像對應(yīng)的周期性位置編碼;mod表示計算相除后的余數(shù);在預(yù)測幀圖像中加入周期性位置編碼表示為: 其中,Sn表示當(dāng)前預(yù)測幀圖像;Wf為權(quán)重,bf為偏差,為上一幀預(yù)測幀圖像的向量值;x表示循環(huán)次數(shù)k大于1,且小于或等于總幀數(shù)T的預(yù)測幀圖像;fx表示推理出的所有預(yù)測幀圖像;ft表示t時刻的預(yù)測幀圖像;表示加入周期性位置編碼后的t時刻的預(yù)測幀圖像; 步驟3:采集待轉(zhuǎn)換音頻并輸入至面部預(yù)測模型,獲得預(yù)測面部數(shù)據(jù); 步驟4:將預(yù)測面部數(shù)據(jù)通過客戶端傳輸至UE5引擎,生成數(shù)字人。
如需購買、轉(zhuǎn)讓、實施、許可或投資類似專利技術(shù),可聯(lián)系本專利的申請人或?qū)@麢?quán)人山東女子學(xué)院,其通訊地址為:250300 山東省濟南市長清區(qū)大學(xué)科技園大學(xué)路2399號;或者聯(lián)系龍圖騰網(wǎng)官方客服,聯(lián)系龍圖騰網(wǎng)可撥打電話0551-65771310或微信搜索“龍圖騰網(wǎng)”。
1、本報告根據(jù)公開、合法渠道獲得相關(guān)數(shù)據(jù)和信息,力求客觀、公正,但并不保證數(shù)據(jù)的最終完整性和準(zhǔn)確性。
2、報告中的分析和結(jié)論僅反映本公司于發(fā)布本報告當(dāng)日的職業(yè)理解,僅供參考使用,不能作為本公司承擔(dān)任何法律責(zé)任的依據(jù)或者憑證。
- 華為技術(shù)有限公司尤索·海斯卡寧獲國家專利權(quán)
- 麻旭東獲國家專利權(quán)
- 騰訊科技(深圳)有限公司陳新星獲國家專利權(quán)
- 考特克斯·特克斯羅恩有限公司及兩合公司克里斯·戴維斯獲國家專利權(quán)
- 安東帕有限責(zé)任公司邁克爾·克倫獲國家專利權(quán)
- 日產(chǎn)化學(xué)株式會社忰山高大獲國家專利權(quán)
- 喬治費歇爾金屬成型科技阿爾藤馬克特有限責(zé)任兩合公司H.馬爾科獲國家專利權(quán)
- 瑞儀(廣州)光電子器件有限公司洪僡嬅獲國家專利權(quán)
- 海信冰箱有限公司張樹棟獲國家專利權(quán)
- 蘋果公司張羽書獲國家專利權(quán)


熱門推薦
- 金華市弘馳科技有限公司姜斌獲國家專利權(quán)
- 賽默飛世爾科學(xué)股份有限公司T·博薩利亞獲國家專利權(quán)
- 浙江科技學(xué)院陳聰獲國家專利權(quán)
- 華為技術(shù)有限公司喬貝·普萊姆·納拉揚獲國家專利權(quán)
- 廣東旗米兄弟智能科技有限公司蒲虹均獲國家專利權(quán)
- 北京航空航天大學(xué)沈明珠獲國家專利權(quán)
- 廣州方邦電子股份有限公司蘇陟獲國家專利權(quán)
- 寧波望通鎖業(yè)有限公司韓文杰獲國家專利權(quán)
- 應(yīng)用材料公司高建德獲國家專利權(quán)
- 揚子江藥業(yè)集團江蘇海慈生物藥業(yè)有限公司王亞獲國家專利權(quán)