無錫未來鏡顯示科技有限公司張儉獲國家專利權(quán)
買專利賣專利找龍圖騰,真高效! 查專利查商標(biāo)用IPTOP,全免費(fèi)!專利年費(fèi)監(jiān)控用IP管家,真方便!
龍圖騰網(wǎng)獲悉無錫未來鏡顯示科技有限公司申請的專利基于智能圖像處理的字幕匹配顯示方法和系統(tǒng)獲國家發(fā)明授權(quán)專利權(quán),本發(fā)明授權(quán)專利權(quán)由國家知識產(chǎn)權(quán)局授予,授權(quán)公告號為:CN119992530B 。
龍圖騰網(wǎng)通過國家知識產(chǎn)權(quán)局官網(wǎng)在2025-09-02發(fā)布的發(fā)明授權(quán)授權(quán)公告中獲悉:該發(fā)明授權(quán)的專利申請?zhí)?專利號為:202510076610.8,技術(shù)領(lǐng)域涉及:G06V20/62;該發(fā)明授權(quán)基于智能圖像處理的字幕匹配顯示方法和系統(tǒng)是由張儉;姚超;曹心遠(yuǎn)設(shè)計研發(fā)完成,并于2025-01-17向國家知識產(chǎn)權(quán)局提交的專利申請。
本基于智能圖像處理的字幕匹配顯示方法和系統(tǒng)在說明書摘要公布了:本發(fā)明提供一種基于智能圖像處理的字幕匹配顯示方法和系統(tǒng),涉及計算機(jī)技術(shù)領(lǐng)域,所述方法包括:將待處理視頻進(jìn)行解析,獲得視頻圖像;通過圖像信息處理模型,對視頻圖像進(jìn)行處理,獲得口型信息和表情信息;通過文本識別模型,對音頻文件進(jìn)行處理,確定文本信息;確定音頻子文件對應(yīng)的視頻圖像;根據(jù)音頻子文件、口型信息和表情信息,確定文本的像素值;根據(jù)音頻子文件和表情信息,確定文本的顯示尺寸;根據(jù)文本的像素值和顯示尺寸,獲得顯示信息,從而獲得字幕。根據(jù)本發(fā)明,可基于口型信息和表情信息來確定字幕的文本信息中的重點(diǎn),從而對字幕設(shè)置特定的像素值和顯示尺寸,以突出字幕中的重點(diǎn)文本,便于觀看者進(jìn)行觀看和了解,提升顯示效果。
本發(fā)明授權(quán)基于智能圖像處理的字幕匹配顯示方法和系統(tǒng)在權(quán)利要求書中公布了:1.一種基于智能圖像處理的字幕匹配顯示方法,其特征在于,包括: 將待處理視頻進(jìn)行解析,獲得多個視頻圖像; 通過圖像信息處理模型,對所述視頻圖像中的目標(biāo)對象所在區(qū)域進(jìn)行處理,獲得所述目標(biāo)對象的口型信息和表情信息; 通過文本識別模型,對待處理視頻對應(yīng)的音頻文件進(jìn)行處理,確定音頻文件對應(yīng)的文本信息; 對待處理視頻對應(yīng)的音頻文件進(jìn)行處理,獲得與文本信息中每個文本的發(fā)音對應(yīng)的音頻子文件,并確定與每個音頻子文件對應(yīng)的視頻圖像; 根據(jù)所述音頻子文件、視頻圖像中目標(biāo)對象的口型信息和表情信息,確定字幕中與所述音頻子文件對應(yīng)的文本的像素值; 根據(jù)所述音頻子文件和視頻圖像中目標(biāo)對象的表情信息,確定字幕中與所述音頻子文件對應(yīng)的文本的顯示尺寸; 根據(jù)所述文本的像素值和所述顯示尺寸,獲得與所述音頻子文件對應(yīng)的文本在視頻圖像中的顯示信息; 根據(jù)各個文本的顯示信息,獲得待處理視頻的字幕; 根據(jù)所述音頻子文件、視頻圖像中目標(biāo)對象的口型信息和表情信息,確定字幕中與所述音頻子文件對應(yīng)的文本的像素值,包括: 確定音頻子文件對應(yīng)的多個視頻圖像的時間戳; 根據(jù)所述時間戳,確定所述音頻子文件中第i個視頻圖像的時間戳至第i+1個視頻圖像的時間戳之間的時間段內(nèi)的音頻片段; 通過音頻處理模型,確定所述音頻片段的文本發(fā)音信息,其中,所述文本發(fā)音信息用于表示所述音頻片段對應(yīng)的文本的發(fā)音特征; 通過口型發(fā)音預(yù)測模型,確定所述口型信息的口型發(fā)音信息,其中,所述口型發(fā)音信息用于表示基于所述口型信息能夠發(fā)出的聲音的發(fā)音特征; 對所述音頻片段進(jìn)行頻譜分析,確定音頻片段的頻譜信息; 根據(jù)所述文本發(fā)音信息、所述口型發(fā)音信息、所述頻譜信息和所述表情信息,確定第i個視頻圖像的字幕中與所述音頻子文件對應(yīng)的文本的像素值; 所述口型發(fā)音預(yù)測模型的訓(xùn)練步驟包括: 獲取多個試驗人員進(jìn)行多種發(fā)音時的第一樣本視頻; 獲取第一樣本視頻的多個第一圖像,并通過圖像信息處理模型獲取第一圖像中試驗人員的第一樣本口型信息; 根據(jù)第一圖像的時間戳對第一樣本視頻對應(yīng)的音頻文件進(jìn)行分割,獲得樣本音頻片段,并通過音頻處理模型對樣本音頻片段進(jìn)行處理,得到樣本文本發(fā)音信息; 根據(jù)所述口型發(fā)音預(yù)測模型,對第一樣本口型信息進(jìn)行處理,獲得樣本口型發(fā)音信息; 對樣本音頻片段進(jìn)行頻譜分析,獲得第一樣本頻譜信息; 根據(jù)所述第一樣本頻譜信息,獲得參考發(fā)音信息; 根據(jù)所述樣本文本發(fā)音信息、所述樣本口型發(fā)音信息和所述參考發(fā)音信息,確定口型發(fā)音預(yù)測模型、音頻處理模型和圖像信息處理模型的第一綜合損失函數(shù); 根據(jù)所述第一綜合損失函數(shù),對口型發(fā)音預(yù)測模型、音頻處理模型和圖像信息處理模型進(jìn)行訓(xùn)練,獲得訓(xùn)練后的口型發(fā)音預(yù)測模型、訓(xùn)練后的音頻處理模型和訓(xùn)練后的圖像信息處理模型。
如需購買、轉(zhuǎn)讓、實施、許可或投資類似專利技術(shù),可聯(lián)系本專利的申請人或?qū)@麢?quán)人無錫未來鏡顯示科技有限公司,其通訊地址為:214125 江蘇省無錫市無錫經(jīng)濟(jì)開發(fā)區(qū)金融三街6號2208室;或者聯(lián)系龍圖騰網(wǎng)官方客服,聯(lián)系龍圖騰網(wǎng)可撥打電話0551-65771310或微信搜索“龍圖騰網(wǎng)”。
1、本報告根據(jù)公開、合法渠道獲得相關(guān)數(shù)據(jù)和信息,力求客觀、公正,但并不保證數(shù)據(jù)的最終完整性和準(zhǔn)確性。
2、報告中的分析和結(jié)論僅反映本公司于發(fā)布本報告當(dāng)日的職業(yè)理解,僅供參考使用,不能作為本公司承擔(dān)任何法律責(zé)任的依據(jù)或者憑證。
- 中興通訊股份有限公司黃阿柳獲國家專利權(quán)
- 格科微電子(上海)有限公司杜柯獲國家專利權(quán)
- 華為技術(shù)有限公司朱國峰獲國家專利權(quán)
- 華為技術(shù)有限公司陳虎獲國家專利權(quán)
- 阿里巴巴(中國)有限公司穆罕默德·G·薩維爾獲國家專利權(quán)
- 中國船舶重工集團(tuán)公司第十二研究所南飛艷獲國家專利權(quán)
- 紹興梅奧心磁醫(yī)療科技有限公司盧才義獲國家專利權(quán)
- 華為技術(shù)有限公司胡丹獲國家專利權(quán)
- 阿里巴巴集團(tuán)控股有限公司郭立帆獲國家專利權(quán)
- 西門子歌美颯可再生能源公司P·B·布洛甘獲國家專利權(quán)


熱門推薦
- 云米互聯(lián)科技(廣東)有限公司陳小平獲國家專利權(quán)
- 廣東弘景光電科技股份有限公司劉振庭獲國家專利權(quán)
- 華為技術(shù)有限公司陳培培獲國家專利權(quán)
- 現(xiàn)代自動車株式會社慎鏞振獲國家專利權(quán)
- 深圳硅基傳感科技有限公司趙瑜獲國家專利權(quán)
- 阿里巴巴(中國)有限公司穆罕默德·G·薩維爾獲國家專利權(quán)
- 北京鼎材科技有限公司孫恩濤獲國家專利權(quán)
- 珠海凌達(dá)壓縮機(jī)有限公司孫萬杰獲國家專利權(quán)
- 東莞榮興五金制品有限公司江航武獲國家專利權(quán)
- 中煤能源研究院有限責(zé)任公司申斌學(xué)獲國家專利權(quán)