浪潮軟件集團有限公司李玉坤獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網獲悉浪潮軟件集團有限公司申請的專利基于多模態大模型的文本到視頻全鏈路生成方法及系統獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN120512591B 。
龍圖騰網通過國家知識產權局官網在2025-09-23發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202510991328.2,技術領域涉及:H04N21/854;該發明授權基于多模態大模型的文本到視頻全鏈路生成方法及系統是由李玉坤;朱家兵;朱相宇;李超設計研發完成,并于2025-07-18向國家知識產權局提交的專利申請。
本基于多模態大模型的文本到視頻全鏈路生成方法及系統在說明書摘要公布了:本發明公開了基于多模態大模型的文本到視頻全鏈路生成方法及系統,屬于人工智能生成內容技術領域,通過多個智能體協同工作,分析用戶輸入文本,構建跨模態記憶庫,基于記憶庫內容確保生成分鏡的視頻和音頻的統一,實現從文本到視頻的全流程自動生成;該方法的實現包括以下步驟:獲取用戶文本輸入;文本分析,通過協同工作的Agent,從輸入文本中動態提取、分析、生成、關聯、存儲圖文音多模態信息,構建多模態記憶庫;生成分鏡,根據記憶庫生成分鏡視頻和音頻;音視頻合成,音畫同步對齊后形成最終視頻。本發明能夠實現長視頻生成的敘事連貫性、提高分鏡圖的特征一致性、增強跨模態情感的一致性、減少人工干預、提高視頻制作的效率。
本發明授權基于多模態大模型的文本到視頻全鏈路生成方法及系統在權利要求書中公布了:1.基于多模態大模型的文本到視頻全鏈路生成方法,其特征在于,通過多個智能體協同工作,分析用戶輸入文本,構建跨模態記憶庫,基于記憶庫內容確保生成分鏡的視頻和音頻的統一,實現從文本到視頻的全流程自動生成;該方法的實現包括以下步驟: 步驟一:獲取用戶文本輸入; 步驟二:文本分析,通過協同工作的Agent,從輸入文本中動態提取、分析、生成、關聯、存儲圖文音多模態信息,構建結構化的、用于指導后續視頻生成的多模態記憶庫;記憶庫中內容包含圖片、聲音、文字; 步驟三:生成分鏡,根據記憶庫生成分鏡視頻和音頻;分鏡音視頻生成時,將情感提示詞同時且同步地指導視頻生成和語音合成; 步驟四:音視頻合成,音畫同步對齊后形成最終視頻; 所述文本分析,具體實現步驟如下: (2.1)通過agent1,輸入用戶輸入文本,獲取文本的類型、風格和主題信息; (2.2)根據文本類型、風格、主題自動從圖像風格庫中選擇圖像風格參考圖片,如果沒有對應的風格,通過agent2,輸入文本類型、風格、主題和用戶輸入文本,生成圖像風格參考圖片提示詞,并通過agent6生成圖像風格參考圖片存入圖像風格庫中; (2.3)通過agent3,輸入文本類型、風格、主題,獲取旁白音色特征,并從音色庫中選擇音色; (2.4)通過agent4,輸入用戶文本輸入,獲取文本輸入中出現的所有場景、人物、道具、服裝、其他實體,并按json格式輸出; (2.5)對于agent4輸出的每一個實體,通過agent5,輸入用戶文本輸入、文本風格和實體名,獲取該實體的文中對應描述,實體特征、圖片生成提示詞,其中對于每一類實體,使用不同的提示詞; (2.6)對于agent4輸出的每一個實體,根據實體特征從設計庫中獲取對應的實體參考圖片,如果沒有對應,通過agent6,輸入agenet5生成的圖片生成提示詞,獲取對應的參考圖片并添加到設計庫中; (2.7)對于agent4輸出的每一個“人物”實體,通過agent7,輸入步驟(2.6)中獲取的人物參考圖片和所有“服裝”參考圖片,獲取穿著指定服裝的人物參考圖片; (2.8)對于每個步驟(2.6)中生成的實體參考圖片和步驟(2.7)中生成的人物參考圖片,通過agent8,輸入圖像風格參考圖片和實體參考圖片,獲取圖片風格遷移后統一風格的實體圖片; (2.9)對于agent4輸出的有“臺詞”的實體,通過agent3,輸入文本風格和實體特征,獲取配音音色特征,并從音色庫中選擇音色; 所述步驟三,具體實現步驟如下: (3.1)通過agent9,輸入用戶輸入文本和記憶庫中的文本類型、風格、主題,分析敘事結構,劃分場景或鏡頭,生成包含鏡頭描述的分鏡列表,并統計分鏡中出現的背景、人物、服飾、道具和其他實體列表; (3.2)對于每一個分鏡,從記憶庫中獲取圖像風格參考圖和分鏡中出現的背景、人物、服飾、道具和其他實體列表信息;然后執行步驟(3.3)至步驟(3.7); (3.3)通過agent10,輸入分鏡描述和分鏡中出現的實體信息描述,獲取分鏡圖提示詞、分鏡視頻提示詞、每句對話的情感提示詞; (3.4)對于每一個分鏡,通過agent11,輸入分鏡圖提示詞、背景圖、人物圖、其他出現的實體圖,獲取分鏡參考圖; (3.5)對于每一個分鏡,通過agent8,輸入圖像風格參考圖片和分鏡參考圖,通過圖像風格遷移技術,獲取風格統一的分鏡圖,確保所有分鏡圖視覺風格統一,解決多鏡頭畫風不一致的問題; (3.6)對于每一個分鏡,通過agent12,輸入分鏡圖和分鏡視頻提示詞和情感提示詞,獲取分鏡視頻; (3.7)對于每一句對話,通過agent13,輸入人物對應的音色、臺詞、情感提示詞,獲取對話音頻,音頻與視頻生成使用相同的情感提示詞; 所述步驟四,具體實現步驟如下: (4.1)創建草稿:通過agent14創建視頻草稿,然后對于每個分鏡執行步驟(4.2)至步驟(4.3); (4.2)動作音頻匹配,對于每個分鏡,通過agent15,輸入分鏡鏡頭描述和分鏡視頻,確定對白和背景音效的開始結束時間; (4.3)將視頻、音頻、文本插入到時間軸,通過agent14,輸入視頻、音頻、文本及對應的開始結束時間,將視頻插入到時間軸,然后根據對白開始時間偏移將音頻和字幕插入到時間軸中; (4.4)選擇背景音樂,通過agent16,輸入分鏡列表,從背景音樂庫中選擇合適的背景音樂列表并給出背景音樂對應的開始、結束時間; (4.5)將背景音樂插入到時間軸中,通過agent14,輸入背景音樂和對應的背景音樂對應的開始、結束時間,將背景音樂插入到視頻草稿的時間軸中; (4.6)渲染輸出。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人浪潮軟件集團有限公司,其通訊地址為:250000 山東省濟南市高新區浪潮路1036號S02樓;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。