西安電子科技大學(xué)王笛獲國家專利權(quán)
買專利賣專利找龍圖騰,真高效! 查專利查商標(biāo)用IPTOP,全免費!專利年費監(jiān)控用IP管家,真方便!
龍圖騰網(wǎng)獲悉西安電子科技大學(xué)申請的專利基于預(yù)訓(xùn)練模型的視頻文本檢索方法獲國家發(fā)明授權(quán)專利權(quán),本發(fā)明授權(quán)專利權(quán)由國家知識產(chǎn)權(quán)局授予,授權(quán)公告號為:CN116109960B 。
龍圖騰網(wǎng)通過國家知識產(chǎn)權(quán)局官網(wǎng)在2025-09-05發(fā)布的發(fā)明授權(quán)授權(quán)公告中獲悉:該發(fā)明授權(quán)的專利申請?zhí)?專利號為:202210804157.4,技術(shù)領(lǐng)域涉及:G06V20/40;該發(fā)明授權(quán)基于預(yù)訓(xùn)練模型的視頻文本檢索方法是由王笛;王泉;李錦峰;萬波;田玉敏;劉錦輝;王義峰;羅雪梅;安玲玲;趙輝設(shè)計研發(fā)完成,并于2022-07-07向國家知識產(chǎn)權(quán)局提交的專利申請。
本基于預(yù)訓(xùn)練模型的視頻文本檢索方法在說明書摘要公布了:本發(fā)明公開了一種基于預(yù)訓(xùn)練模型的視頻文本檢索方法,主要解決現(xiàn)有方法中數(shù)據(jù)特征異質(zhì)性及冗余級聯(lián)造成視頻文本匹配精度低的問題;方案包括:1獲取視頻數(shù)據(jù)集的幀序列及文本標(biāo)注切分產(chǎn)生的文本序列;2采用圖文預(yù)訓(xùn)練模型協(xié)同提取視頻和文本的特征;3將視頻以塊級聯(lián)形式映射,同時將協(xié)同提取應(yīng)用到視頻的聚合階段,以文本表征指導(dǎo)聚合視頻幀級特征;4加入交叉方向上的先驗概率并使用分散約束損失,完成模型訓(xùn)練;5利用訓(xùn)練好的視頻文本匹配模型得到最終檢索結(jié)果。本發(fā)明能夠有效減少不同模態(tài)之間的語義鴻溝,充分挖掘視頻模態(tài)數(shù)據(jù)中的復(fù)雜時空信息,提升跨模態(tài)檢索精度。
本發(fā)明授權(quán)基于預(yù)訓(xùn)練模型的視頻文本檢索方法在權(quán)利要求書中公布了:1.一種基于預(yù)訓(xùn)練模型的視頻文本檢索方法,其特征在于,利用圖文預(yù)訓(xùn)練模型得到的先驗知識協(xié)同提取視頻幀特征和自然語言文本特征,構(gòu)建共同的語義子空間,使用文本知識聚合視頻特征,并利用交叉熵?fù)p失和分散約束損失函數(shù)訓(xùn)練視頻文本檢索模型;實現(xiàn)步驟包括如下: 1處理數(shù)據(jù)集: 選擇待訓(xùn)練的視頻數(shù)據(jù)集V和其對應(yīng)的文本標(biāo)注T,將視頻數(shù)據(jù)集通過視頻圖像生成工具按照預(yù)先指定的采樣頻率均勻采樣,得到視頻數(shù)據(jù)集的幀序列其中表示視頻數(shù)據(jù)集中第i個視頻的第j幀圖片;j=1,2,...,N,N表示視頻中的幀圖片數(shù)目;i=1,2,...,M,M表示視頻集中的視頻數(shù)量;同時,將文本標(biāo)注切分成單詞并按順序存儲,得到T產(chǎn)生的文本序列其中表示視頻數(shù)據(jù)集中第i個視頻對應(yīng)的文本標(biāo)注Ti被切分后的第k個單詞,k=1,2,...,m,m表示文本標(biāo)注包含的單詞總數(shù); 2協(xié)同提取視頻文本特征: 提取圖片的RGB特征,即紅、綠、藍(lán)顏色特征,得到3組特征矩陣;將所有視頻幀序列中每一幀圖片的RGB特征全部提取出來后,按照既定步長stride將每一幀圖片切割為n×n的塊,并將位置信息與塊特征級聯(lián)后分別輸入到預(yù)訓(xùn)練的視覺特征編碼器VisualTransformer中得到第i個視頻的幀級表征序列將文本序列輸入文本特征編碼器TextTransformer中,使用文本特征編碼器最后一層[EOS]指令對應(yīng)的特征作為輸入文本序列的表征; 3生成視頻文本的全局特征表示: 3.1使用一層全連接層對第i個視頻的幀級表征序列和對應(yīng)文本序列的表征進(jìn)行映射,然后進(jìn)行歸一化操作得到第i個視頻映射后幀序列和第i個視頻的文本特征其中表示第i個視頻映射后的第j幀圖片特征,并計算得到兩者的相似性 3.2將第i個視頻Vi的所有幀圖片特征與文本特征求相似度后得到的序列通過自下而上的多頭自注意力機(jī)制,進(jìn)行增強(qiáng)視頻模態(tài)數(shù)據(jù)內(nèi)的細(xì)微交互,得到增強(qiáng)后幀序列的表征 其中ω1∈R2D×D,ω2∈RD×2D,D表示每一幀特征的維度;tanh表示第一激活函數(shù);表示視頻Vi的第j幀表征; 3.3采用LSTM網(wǎng)絡(luò)構(gòu)造視頻時序性信息,隨機(jī)初始化LSTM參數(shù)信息,得到第i個視頻Vi的時序序列 其中,表示第i個視頻Vi第j幀的權(quán)重; 3.4根據(jù)增強(qiáng)后幀序列的表征和時序序列獲取視頻Vi的全局特征同時,通過門控模塊GateEmbedding將第i個視頻對應(yīng)的文本標(biāo)注Ti映射至公共語義嵌入空間,獲取文本標(biāo)注Ti的全局特征Zi; 4通過對視頻Vi的全局特征和文本標(biāo)注Ti的全局特征Zi兩者計算余弦相似度,得到視頻文本匹配模型; 5訓(xùn)練模型: 5.1計算視頻和文本交叉方向的先驗概率,即分別計算視頻特征對所有視頻中所對應(yīng)文本特征的先驗概率和文本特征對所有視頻中全部視頻特征的先驗概率 5.2將交叉方向的先驗概率和引入到交叉熵?fù)p失中,得到分別表示視頻到文本的匹配損失和文本到視頻的匹配損失 5.3使用分散約束損失Lc對視頻分布進(jìn)行約束: 其中,ci表示一個批次中所有視頻特征的均值,B表示批次大小,γ和μ分別表示第一和第二調(diào)節(jié)參數(shù); 5.4得到用于模型訓(xùn)練的總損失函數(shù)L: 5.5根據(jù)總損失函數(shù)L迭代訓(xùn)練模型參數(shù),以等差的方式更新網(wǎng)絡(luò)的學(xué)習(xí)率、神經(jīng)元丟棄率和損失函數(shù)的參數(shù)值,直到L收斂至最小,得到訓(xùn)練好的視頻文本匹配模型; 6對視頻文本進(jìn)行跨模態(tài)互檢索: 將待檢索的視頻文本輸入訓(xùn)練好的視頻文本匹配模型中,并對模型輸出結(jié)果進(jìn)行排序,得到最終檢索結(jié)果。
如需購買、轉(zhuǎn)讓、實施、許可或投資類似專利技術(shù),可聯(lián)系本專利的申請人或?qū)@麢?quán)人西安電子科技大學(xué),其通訊地址為:710071 陜西省西安市太白南路2號;或者聯(lián)系龍圖騰網(wǎng)官方客服,聯(lián)系龍圖騰網(wǎng)可撥打電話0551-65771310或微信搜索“龍圖騰網(wǎng)”。
1、本報告根據(jù)公開、合法渠道獲得相關(guān)數(shù)據(jù)和信息,力求客觀、公正,但并不保證數(shù)據(jù)的最終完整性和準(zhǔn)確性。
2、報告中的分析和結(jié)論僅反映本公司于發(fā)布本報告當(dāng)日的職業(yè)理解,僅供參考使用,不能作為本公司承擔(dān)任何法律責(zé)任的依據(jù)或者憑證。
- 曲阜信多達(dá)智能科技有限公司高新忠獲國家專利權(quán)
- 三菱電機(jī)株式會社谷原康友獲國家專利權(quán)
- 應(yīng)用材料公司M·嘉德瑞獲國家專利權(quán)
- 現(xiàn)代自動車株式會社李吉雨獲國家專利權(quán)
- 禮新醫(yī)藥科技(上海)有限公司李潤生獲國家專利權(quán)
- 韋伯斯特生物官能(以色列)有限公司Z.扎旦獲國家專利權(quán)
- 蘇州浩辰軟件股份有限公司王偉獲國家專利權(quán)
- 華盛頓大學(xué)羅伯特·A·蘭根獲國家專利權(quán)
- LG電子株式會社金范埈獲國家專利權(quán)
- 青島海爾特種電冰柜有限公司王光玉獲國家專利權(quán)