清華大學(xué)深圳國(guó)際研究生院袁春獲國(guó)家專利權(quán)
買專利賣專利找龍圖騰,真高效! 查專利查商標(biāo)用IPTOP,全免費(fèi)!專利年費(fèi)監(jiān)控用IP管家,真方便!
龍圖騰網(wǎng)獲悉清華大學(xué)深圳國(guó)際研究生院申請(qǐng)的專利一種無(wú)需微調(diào)的多文本長(zhǎng)視頻生成方法獲國(guó)家發(fā)明授權(quán)專利權(quán),本發(fā)明授權(quán)專利權(quán)由國(guó)家知識(shí)產(chǎn)權(quán)局授予,授權(quán)公告號(hào)為:CN119697443B 。
龍圖騰網(wǎng)通過(guò)國(guó)家知識(shí)產(chǎn)權(quán)局官網(wǎng)在2025-09-02發(fā)布的發(fā)明授權(quán)授權(quán)公告中獲悉:該發(fā)明授權(quán)的專利申請(qǐng)?zhí)?專利號(hào)為:202411816883.3,技術(shù)領(lǐng)域涉及:H04N21/472;該發(fā)明授權(quán)一種無(wú)需微調(diào)的多文本長(zhǎng)視頻生成方法是由袁春;王子樂(lè)設(shè)計(jì)研發(fā)完成,并于2024-12-11向國(guó)家知識(shí)產(chǎn)權(quán)局提交的專利申請(qǐng)。
本一種無(wú)需微調(diào)的多文本長(zhǎng)視頻生成方法在說(shuō)明書摘要公布了:一種無(wú)需微調(diào)的多文本長(zhǎng)視頻生成方法,稱為DuFree,利用雙流視頻擴(kuò)散模型DVDM,并設(shè)計(jì)了逐幀提示和維度壓縮注意力模塊,以確保在多個(gè)提示詞之間實(shí)現(xiàn)平滑過(guò)渡,同時(shí)保留細(xì)節(jié)。DVDM通過(guò)專家自適應(yīng)LayerNormAdaLN模塊分別處理文本和視覺(jué)輸入,提升內(nèi)容質(zhì)量。逐幀提示模塊通過(guò)維護(hù)提示詞隊(duì)列,實(shí)現(xiàn)視頻幀間平滑過(guò)渡;維度壓縮注意力模塊壓縮多個(gè)提示詞,緩解訓(xùn)練?推理差距,保留紋理細(xì)節(jié)。本方法在自動(dòng)度量和人類評(píng)估中均表現(xiàn)優(yōu)越,尤其在跟蹤強(qiáng)度和時(shí)間運(yùn)動(dòng)平滑度方面,解決了現(xiàn)有模型在多提示詞和長(zhǎng)視頻生成中的挑戰(zhàn),實(shí)現(xiàn)了高質(zhì)量、時(shí)間一致且運(yùn)動(dòng)平滑的長(zhǎng)視頻生成。
本發(fā)明授權(quán)一種無(wú)需微調(diào)的多文本長(zhǎng)視頻生成方法在權(quán)利要求書中公布了:1.一種無(wú)需微調(diào)的多文本長(zhǎng)視頻生成方法,其特征在于,包括以下步驟: S1、使用基礎(chǔ)模型生成N幀視頻,并為每一幀添加不同強(qiáng)度的噪聲,以模擬不同程度的降質(zhì),形成初始去噪隊(duì)列; S2、維護(hù)一個(gè)提示詞隊(duì)列,每個(gè)提示詞對(duì)應(yīng)一個(gè)視頻幀,初始時(shí)提示詞隊(duì)列被第一個(gè)提示詞填充; S3、通過(guò)雙流視頻擴(kuò)散模型DVDM處理文本和視覺(jué)輸入,該模型使用兩個(gè)專家自適應(yīng)LayerNorm模塊分別處理文本和視覺(jué)模態(tài),擴(kuò)散過(guò)程的時(shí)間步長(zhǎng)作為調(diào)制模塊; S4、在去噪過(guò)程中,逐步切換提示詞,以更平滑的方式改變提示詞,并在更接近視覺(jué)域的空間中進(jìn)行插值,以實(shí)現(xiàn)使用不同提示詞的視頻生成的平滑過(guò)渡; S5、將多個(gè)提示詞壓縮為一個(gè)表示,以緩解DVDM中的訓(xùn)練-推理差距,同時(shí)保留紋理細(xì)節(jié);其中,通過(guò)在批次維度上對(duì)提示詞進(jìn)行平均,將多個(gè)提示詞壓縮為一個(gè)單一的提示詞,然后與加噪圖像連接,并輸入到3D全注意力模塊中以計(jì)算注意力權(quán)重,確定視頻中哪些部分應(yīng)該與文本提示相匹配,并輸出加權(quán)的視頻特征; S6、在去噪隊(duì)列中,僅更新后半部分的潛在編碼,以執(zhí)行一次去噪步驟,同時(shí)利用3D全注意力模塊輸出的加權(quán)視頻特征來(lái)指導(dǎo)潛在編碼的去噪過(guò)程,在注意力操作之后,將提示詞擴(kuò)展回原始維度,以使其可以用于最終的視頻生成;完成去噪后,隊(duì)列前面的潛在編碼被出隊(duì),并在隊(duì)列末尾被隨機(jī)采樣的高斯噪聲所替代,循環(huán)進(jìn)行,以生成長(zhǎng)度不受限的視頻;其中,結(jié)合3D全注意力模塊輸出的加權(quán)視頻特征和去噪隊(duì)列中的最新潛在編碼,以及擴(kuò)展回原始維度的提示詞,生成與多個(gè)文本提示相對(duì)應(yīng)的視頻幀; S7、在去噪隊(duì)列更新的同時(shí),同步更新提示詞隊(duì)列,以使每個(gè)視頻幀都對(duì)應(yīng)正確的文本提示。
如需購(gòu)買、轉(zhuǎn)讓、實(shí)施、許可或投資類似專利技術(shù),可聯(lián)系本專利的申請(qǐng)人或?qū)@麢?quán)人清華大學(xué)深圳國(guó)際研究生院,其通訊地址為:518071 廣東省深圳市南山區(qū)桃源街道麗水路2279號(hào);或者聯(lián)系龍圖騰網(wǎng)官方客服,聯(lián)系龍圖騰網(wǎng)可撥打電話0551-65771310或微信搜索“龍圖騰網(wǎng)”。
1、本報(bào)告根據(jù)公開、合法渠道獲得相關(guān)數(shù)據(jù)和信息,力求客觀、公正,但并不保證數(shù)據(jù)的最終完整性和準(zhǔn)確性。
2、報(bào)告中的分析和結(jié)論僅反映本公司于發(fā)布本報(bào)告當(dāng)日的職業(yè)理解,僅供參考使用,不能作為本公司承擔(dān)任何法律責(zé)任的依據(jù)或者憑證。
- 美光科技公司張揚(yáng)獲國(guó)家專利權(quán)
- 英特爾公司G·A·格拉斯獲國(guó)家專利權(quán)
- 寧波舜宇光電信息有限公司蔣恒獲國(guó)家專利權(quán)
- 耐克創(chuàng)新有限合伙公司喬瓦尼·阿達(dá)米獲國(guó)家專利權(quán)
- 塞壩股份公司M·巴赫曼獲國(guó)家專利權(quán)
- 展訊通信(上海)有限公司周化雨獲國(guó)家專利權(quán)
- 高通股份有限公司陳萬(wàn)士獲國(guó)家專利權(quán)
- II-VI有限公司W(wǎng)-Q·許獲國(guó)家專利權(quán)
- 麥克賽爾株式會(huì)社平冢幸惠獲國(guó)家專利權(quán)
- 索邁茲古魯科穆薩維立吉股份公司阿西姆·貝爾林獲國(guó)家專利權(quán)


熱門推薦
- 根馬布私人有限公司F.貝烏爾肯斯獲國(guó)家專利權(quán)
- 華為技術(shù)有限公司于健獲國(guó)家專利權(quán)
- 伊緹斯公司A.斯坦頓獲國(guó)家專利權(quán)
- 英特爾公司U·Y·卡凱亞獲國(guó)家專利權(quán)
- 浙江集英精密機(jī)器有限公司盧建偉獲國(guó)家專利權(quán)
- 富通麥迪資產(chǎn)二有限公司馬修斯·亨德里克·路易斯·西森獲國(guó)家專利權(quán)
- 蘋果公司I·A·喬德里獲國(guó)家專利權(quán)
- 索尼半導(dǎo)體解決方案公司田中裕介獲國(guó)家專利權(quán)
- 華為技術(shù)有限公司陳普獲國(guó)家專利權(quán)
- AGC株式會(huì)社村山優(yōu)獲國(guó)家專利權(quán)