四川省人工智能研究院(宜賓)滿鑫獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網獲悉四川省人工智能研究院(宜賓)申請的專利一種三線性編碼系統及視頻-語言表征學習方法獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN115379242B 。
龍圖騰網通過國家知識產權局官網在2025-09-23發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202211020801.5,技術領域涉及:H04N19/70;該發明授權一種三線性編碼系統及視頻-語言表征學習方法是由滿鑫;張明星;邵杰;陳飛宇;申恒濤設計研發完成,并于2022-08-24向國家知識產權局提交的專利申請。
本一種三線性編碼系統及視頻-語言表征學習方法在說明書摘要公布了:本發明公開了一種三線性編碼系統及視頻?語言表征學習方法,方法包括以下步驟:S1、使用教學類視頻和電視數據集作為數據樣本,并將其分為視頻片段;S2、使用密集字幕生成模型提取視頻片段的密集字幕;提取原始ASR轉錄文本;每個片段的密集字幕作為原始ASR轉錄文本的補充文本;S3、將視頻片段、原始ASR轉錄文本和密集字幕作為三線性編碼系統的輸入,獲得視頻?語言表征;S4、使用視頻?語言表征進行視頻?文本的多模態信息交互。本發明關注模態間互信息;將密集字幕作為補充文本,自動提取密集字幕,實現了視頻文本匹配。
本發明授權一種三線性編碼系統及視頻-語言表征學習方法在權利要求書中公布了:1.一種三線性編碼系統,其特征在于, 單模編碼器,用于對視頻幀序列、ASR轉錄文本序列和密集字幕序列進行編碼; 三線性的多模態融合編碼器,用于根據單模編碼器的輸出獲取視頻片段級編碼; 時序變換器,用于通過預訓練的前置任務去學習視頻片段級編碼的上下文信息,獲得視頻-語言表征; 信息交互模塊,用于使用視頻-語言表征進行視頻-文本的多模態信息交互; 三線性的多模態融合編碼器包含至少一層多模態融合編碼單元,每一層多模態融合編碼單元包括5個多頭注意力模塊、3個自注意力模塊、3個加權和模塊、6個求和模塊和3個前饋網絡; 每一層多模態融合編碼單元的第一多頭注意力模塊的輸出端連接第一加權和模塊的輸入端和第二加權和模塊的輸入端;第二多頭注意力模塊的輸出端連接第一加權和模塊的輸入端和第三加權和模塊的輸入端; 第一加權和模塊的輸出端連接第四多頭注意力模塊的輸入端;第二加權和模塊的輸出端連接第三多頭注意力模塊的輸入端;第三加權和模塊的輸出端連接第五多頭注意力模塊的輸入端; 第三多頭注意力模塊的輸出端連接第一求和模塊的輸入端;第四多頭注意力模塊的輸出端連接第二求和模塊的輸入端;第五多頭注意力模塊的輸出端連接第三求和模塊的輸入端; 第一求和模塊的輸出端連接第一自注意力模塊的輸入端;第一自注意力模塊的輸出端連接第一前饋網絡的輸入端和第四求和模塊的輸入端;第一前饋網絡模塊的輸出端連接第四求和模塊的輸入端;第二求和模塊的輸出端連接第二自注意力模塊的輸入端;第二自注意力模塊的輸出端連接第五求和模塊的輸入端和第二前饋網絡的輸入端;第三求和模塊的輸出端連接第三自注意力模塊的輸入端;第三自注意力模塊的輸出端連接第三前饋網絡的輸入端和第六求和模塊的輸入端;第四求和模塊的輸出端作為三線性的多模態融合編碼器的第一輸出端;第五求和模塊的輸出端作為三線性的多模態融合編碼器的第二輸出端;第六求和模塊的輸出端作為三線性的多模態融合編碼器的第三輸出端。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人四川省人工智能研究院(宜賓),其通訊地址為:644000 四川省宜賓市宜賓臨港經濟技術開發區長江北路西段附二段430號;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。