北京卓視智通科技有限責(zé)任公司吳柯維獲國家專利權(quán)
買專利賣專利找龍圖騰,真高效! 查專利查商標(biāo)用IPTOP,全免費(fèi)!專利年費(fèi)監(jiān)控用IP管家,真方便!
龍圖騰網(wǎng)獲悉北京卓視智通科技有限責(zé)任公司申請(qǐng)的專利一種視頻理解方法、系統(tǒng)、電子設(shè)備和存儲(chǔ)介質(zhì)獲國家發(fā)明授權(quán)專利權(quán),本發(fā)明授權(quán)專利權(quán)由國家知識(shí)產(chǎn)權(quán)局授予,授權(quán)公告號(hào)為:CN118823630B 。
龍圖騰網(wǎng)通過國家知識(shí)產(chǎn)權(quán)局官網(wǎng)在2025-08-22發(fā)布的發(fā)明授權(quán)授權(quán)公告中獲悉:該發(fā)明授權(quán)的專利申請(qǐng)?zhí)?專利號(hào)為:202410800187.7,技術(shù)領(lǐng)域涉及:G06V20/40;該發(fā)明授權(quán)一種視頻理解方法、系統(tǒng)、電子設(shè)備和存儲(chǔ)介質(zhì)是由吳柯維;何曉罡;朱小平;苑熒熒;延瑾瑜設(shè)計(jì)研發(fā)完成,并于2024-06-20向國家知識(shí)產(chǎn)權(quán)局提交的專利申請(qǐng)。
本一種視頻理解方法、系統(tǒng)、電子設(shè)備和存儲(chǔ)介質(zhì)在說明書摘要公布了:本發(fā)明涉及多模態(tài)大模型技術(shù)領(lǐng)域,具體公開一種視頻理解方法、系統(tǒng)、電子設(shè)備和存儲(chǔ)介質(zhì),包括:按照預(yù)設(shè)抽幀間隔對(duì)視頻進(jìn)行抽幀,得到多個(gè)視頻幀并編碼,得到多個(gè)初始編碼特征;計(jì)算每兩個(gè)時(shí)間相鄰的初始編碼特征的余弦相似度,并將余弦相似度不大于第一閾值的初始編碼特征確定為目標(biāo)編碼特征;當(dāng)目標(biāo)編碼特征的數(shù)量不小于第二閾值時(shí),構(gòu)建初始時(shí)序編碼特征并壓縮,得到目標(biāo)時(shí)序編碼特征;對(duì)目標(biāo)時(shí)序編碼特征進(jìn)行映射,得到映射編碼特征,并將映射編碼特征與目標(biāo)視頻的問題文本token序列輸入至訓(xùn)練好的大語言模型,得到回答文本。本發(fā)明能夠有效提取視頻的重要變化信息,避免了信息丟失,從而提升了大語言模型對(duì)于視頻理解的準(zhǔn)確率與效率。
本發(fā)明授權(quán)一種視頻理解方法、系統(tǒng)、電子設(shè)備和存儲(chǔ)介質(zhì)在權(quán)利要求書中公布了:1.一種視頻理解方法,其特征在于,包括: 按照預(yù)設(shè)抽幀間隔,對(duì)目標(biāo)視頻進(jìn)行抽幀,得到多個(gè)目標(biāo)視頻幀并分別進(jìn)行編碼,得到多個(gè)初始視頻幀編碼特征;其中,多個(gè)初始視頻幀編碼特征的特征序列為F_allt,t≤N,N表示初始視頻幀編碼特征的數(shù)量,t為初始視頻幀編碼特征的幀索引,F(xiàn)_allt為按時(shí)間軸排序所得到的第t個(gè)初始視頻幀編碼特征; 計(jì)算每兩個(gè)時(shí)間相鄰的初始視頻幀編碼特征之間的余弦相似度,并將余弦相似度不大于第一閾值的兩個(gè)時(shí)間相鄰的初始視頻幀編碼特征確定為目標(biāo)視頻幀編碼特征;其中,目標(biāo)視頻幀編碼特征的特征序列滿足公式:cosine_similarityFh,Fh+1≤th_f;h為目標(biāo)視頻幀編碼特征的幀索引,F(xiàn)h與Fh+1為兩個(gè)時(shí)間相鄰的目標(biāo)視頻幀編碼特征,th_f為第一閾值,cosine_similarityFh,Fh+1表示Fh與Fh+1之間的余弦相似度; 當(dāng)目標(biāo)視頻幀編碼特征的數(shù)量不小于第二閾值時(shí),構(gòu)建表征所有目標(biāo)視頻幀編碼特征的初始時(shí)序編碼特征并進(jìn)行特征壓縮,得到目標(biāo)時(shí)序編碼特征;其中,利用時(shí)空注意力模型,構(gòu)建表征所有目標(biāo)視頻幀編碼特征的初始時(shí)序編碼特征,并利用所述時(shí)空注意力模型,對(duì)所述初始時(shí)序編碼特征進(jìn)行特征壓縮,得到固定長度的所述目標(biāo)時(shí)序編碼特征Nt代表固定的輸出長度,257*1024是時(shí)空注意力模型指定的輸出尺寸; 對(duì)所述目標(biāo)時(shí)序編碼特征進(jìn)行映射,得到映射編碼特征,并將所述映射編碼特征與所述目標(biāo)視頻對(duì)應(yīng)的問題文本的token序列輸入至訓(xùn)練好的大語言模型,得到所述問題文本對(duì)應(yīng)的回答文本;其中,利用投影層,對(duì)所述目標(biāo)時(shí)序編碼特征進(jìn)行映射,得到所述映射編碼特征;將目標(biāo)時(shí)序編碼特征Fv投影到大語言模型的embedding空間,經(jīng)過投影層后的輸出為映射編碼特征Fvo;設(shè)大語言模型的embedding空間的維度為D,則應(yīng)有:DimFvo[-1]=D;DimFvo是獲取Fvo的維度,[-1]是獲取最后一個(gè)維度;公式代表Fvo的最后一個(gè)維度應(yīng)等于embedding空間的維度;利用分詞器將問題文本中的句子分成一串token,每個(gè)token表示一個(gè)字或詞; 所述大語言模型的訓(xùn)練過程為: 獲取每個(gè)訓(xùn)練視頻的映射編碼特征與訓(xùn)練問題文本的token序列,并將任一訓(xùn)練視頻的映射編碼特征與訓(xùn)練問題文本的token序列輸入至所述大語言模型,得到該訓(xùn)練視頻的訓(xùn)練問題文本對(duì)應(yīng)的訓(xùn)練回答文本,并根據(jù)該訓(xùn)練視頻的訓(xùn)練回答文本與真實(shí)回答文本之間的差異,得到該訓(xùn)練視頻的損失值,直至得到每個(gè)訓(xùn)練視頻的損失值; 根據(jù)每個(gè)訓(xùn)練視頻的損失值,對(duì)所述大語言模型進(jìn)行參數(shù)優(yōu)化,得到優(yōu)化后的大語言模型,并將所述優(yōu)化后的大語言模型作為所述大語言模型并返回執(zhí)行將任一訓(xùn)練視頻的映射編碼特征與訓(xùn)練問題文本的token序列輸入至所述大語言模型的步驟,直至滿足迭代優(yōu)化條件時(shí),將所述優(yōu)化后的大語言模型確定為所述訓(xùn)練好的大語言模型;其中,所述大語言模型的損失函數(shù)的定義為:N為至少包含真實(shí)回答文本的輸入序列的長度,V為詞匯表的大小;yij取0或者1,當(dāng)輸入序列的第i個(gè)單詞是詞匯表的第j個(gè)單詞時(shí),其值為1,否則為0;是根據(jù)大語言模型的訓(xùn)練回答文本所確定的預(yù)測概率,即大語言模型對(duì)第i個(gè)位置是詞匯表中第j個(gè)單詞的預(yù)測概率。
如需購買、轉(zhuǎn)讓、實(shí)施、許可或投資類似專利技術(shù),可聯(lián)系本專利的申請(qǐng)人或?qū)@麢?quán)人北京卓視智通科技有限責(zé)任公司,其通訊地址為:100085 北京市海淀區(qū)西三旗昌臨813號(hào)10號(hào)樓1層1002;或者聯(lián)系龍圖騰網(wǎng)官方客服,聯(lián)系龍圖騰網(wǎng)可撥打電話0551-65771310或微信搜索“龍圖騰網(wǎng)”。
1、本報(bào)告根據(jù)公開、合法渠道獲得相關(guān)數(shù)據(jù)和信息,力求客觀、公正,但并不保證數(shù)據(jù)的最終完整性和準(zhǔn)確性。
2、報(bào)告中的分析和結(jié)論僅反映本公司于發(fā)布本報(bào)告當(dāng)日的職業(yè)理解,僅供參考使用,不能作為本公司承擔(dān)任何法律責(zé)任的依據(jù)或者憑證。
- 中煤能源研究院有限責(zé)任公司申斌學(xué)獲國家專利權(quán)
- 云米互聯(lián)科技(廣東)有限公司陳小平獲國家專利權(quán)
- 華為技術(shù)有限公司胡丹獲國家專利權(quán)
- 廣東萬和新電氣股份有限公司盧楚鵬獲國家專利權(quán)
- 新唐科技日本株式會(huì)社中西和幸獲國家專利權(quán)
- 杭州唯強(qiáng)醫(yī)療科技有限公司請(qǐng)求不公布姓名獲國家專利權(quán)
- 珠海凌達(dá)壓縮機(jī)有限公司孫萬杰獲國家專利權(quán)
- 云米互聯(lián)科技(廣東)有限公司陳小平獲國家專利權(quán)
- 安徽寒武紀(jì)信息科技有限公司請(qǐng)求不公布姓名獲國家專利權(quán)
- 三星電子株式會(huì)社鄭仁朝獲國家專利權(quán)


熱門推薦
- 深圳硅基傳感科技有限公司趙瑜獲國家專利權(quán)
- 東莞榮興五金制品有限公司江航武獲國家專利權(quán)
- 云米互聯(lián)科技(廣東)有限公司陳小平獲國家專利權(quán)
- 現(xiàn)代自動(dòng)車株式會(huì)社嚴(yán)基旭獲國家專利權(quán)
- 杭州唯強(qiáng)醫(yī)療科技有限公司請(qǐng)求不公布姓名獲國家專利權(quán)
- 阿里巴巴集團(tuán)控股有限公司魏振吉獲國家專利權(quán)
- 菲利普莫里斯生產(chǎn)公司O·福爾薩獲國家專利權(quán)
- 高通股份有限公司R.霍米斯獲國家專利權(quán)
- 桂林創(chuàng)源金剛石有限公司宋京新獲國家專利權(quán)
- 華為技術(shù)有限公司陳培培獲國家專利權(quán)