中國(guó)科學(xué)技術(shù)大學(xué)黃隆焯獲國(guó)家專利權(quán)
買專利賣專利找龍圖騰,真高效! 查專利查商標(biāo)用IPTOP,全免費(fèi)!專利年費(fèi)監(jiān)控用IP管家,真方便!
龍圖騰網(wǎng)獲悉中國(guó)科學(xué)技術(shù)大學(xué)申請(qǐng)的專利一種基于微調(diào)預(yù)訓(xùn)練大模型的音視頻事件定位方法獲國(guó)家發(fā)明授權(quán)專利權(quán),本發(fā)明授權(quán)專利權(quán)由國(guó)家知識(shí)產(chǎn)權(quán)局授予,授權(quán)公告號(hào)為:CN119475244B 。
龍圖騰網(wǎng)通過國(guó)家知識(shí)產(chǎn)權(quán)局官網(wǎng)在2025-09-02發(fā)布的發(fā)明授權(quán)授權(quán)公告中獲悉:該發(fā)明授權(quán)的專利申請(qǐng)?zhí)?專利號(hào)為:202411691581.8,技術(shù)領(lǐng)域涉及:G06F18/25;該發(fā)明授權(quán)一種基于微調(diào)預(yù)訓(xùn)練大模型的音視頻事件定位方法是由黃隆焯;查正軍;傅雪陽(yáng)設(shè)計(jì)研發(fā)完成,并于2024-11-25向國(guó)家知識(shí)產(chǎn)權(quán)局提交的專利申請(qǐng)。
本一種基于微調(diào)預(yù)訓(xùn)練大模型的音視頻事件定位方法在說明書摘要公布了:本發(fā)明公開了一種基于微調(diào)預(yù)訓(xùn)練大模型的音視頻事件定位方法,包括:1獲取視頻數(shù)據(jù),并將視頻畫面幀數(shù)據(jù)和音頻數(shù)據(jù)分離;2通過預(yù)訓(xùn)練大模型的編碼層分別對(duì)幀數(shù)據(jù)和音頻數(shù)據(jù)進(jìn)行特征提取;3通過查詢提示詞聚合單一模態(tài)內(nèi)的特征,提取事件特征;4通過全局提示詞提供下游任務(wù)的上下文信息,將音頻特征和視頻幀特征進(jìn)行融合;5構(gòu)建事件定位模塊,將得到的特征轉(zhuǎn)換為視頻事件分類以及定位結(jié)果。本發(fā)明通過引入可學(xué)習(xí)的提示詞,將預(yù)訓(xùn)練大模型的能力遷移到音視頻事件定位任務(wù)中,從而在極低的可訓(xùn)練參數(shù)量條件下完成音視頻事件定位任務(wù)。
本發(fā)明授權(quán)一種基于微調(diào)預(yù)訓(xùn)練大模型的音視頻事件定位方法在權(quán)利要求書中公布了:1.一種基于微調(diào)預(yù)訓(xùn)練大模型的音視頻事件定位方法,其特征在于,是按如下步驟進(jìn)行: 步驟1、獲取一條真實(shí)的視頻數(shù)據(jù)V并劃分為T個(gè)互不重合的音視頻片段,記為{V’t,A’t|t=1,2,…,T},其中,V’t表示第t個(gè)視頻片段,A’t表示V’t對(duì)應(yīng)的音頻片段; 采樣第t個(gè)視頻片段V’t中的一幀圖像,記為第t幀圖像Vt; 將A’t轉(zhuǎn)化為第t個(gè)二維音頻頻譜圖At; 獲取V的事件類別標(biāo)簽和定位標(biāo)簽,其中,其中,表示V是否屬于第k個(gè)音視頻事件類別的標(biāo)簽,且;C表示音視頻片段的事件類別數(shù)量;表示V’t和A’t是否屬于事件片段的定位標(biāo)簽; 步驟2、構(gòu)建預(yù)訓(xùn)練大模型,包括:一個(gè)特征編碼層和N個(gè)transformer層; 步驟2.1、所述特征編碼層通過卷積層將Vt分為n個(gè)互不重合的圖像塊,并將每個(gè)圖像塊展平后再拼接,得到Vt的視覺模態(tài)特征表示; 所述特征編碼層通過所述卷積層對(duì)At進(jìn)行處理,得到At的音頻模態(tài)特征表示; 步驟2.2、N個(gè)transformer層對(duì)音視頻模態(tài)特征集{}進(jìn)行處理,得到V的視覺模態(tài)特征表示序列和音頻模態(tài)特征表示序列; 步驟2.2.1、初始化i=1; 步驟2.2.2、隨機(jī)初始化第i個(gè)transformer層中用于視覺模態(tài)的待學(xué)習(xí)的查詢提示詞,從而利用式1得到第i個(gè)transformer層輸出的第t個(gè)中間視覺模態(tài)特征表示及Vt中與音視頻事件相關(guān)的事件線索; 1 式1中,表示第i個(gè)transformer層,表示第i-1個(gè)transformer層輸出的Vt的視覺模態(tài)特征表示,當(dāng)i=1時(shí),令=,表示特征數(shù)量維度上的拼接操作; 步驟2.2.3、隨機(jī)初始化第i個(gè)transformer層中用于音頻模態(tài)的待學(xué)習(xí)的查詢提示詞,從而利用式2得到第i個(gè)transformer層輸出的第t個(gè)中間音頻模態(tài)特征表示及At中與音視頻事件相關(guān)的事件線索; 2 式2中,表示第i-1個(gè)transformer層輸出的At的音頻模態(tài)特征表示,當(dāng)i=1時(shí),令=; 步驟2.2.4、隨機(jī)初始化第i個(gè)transformer層中用于視覺模態(tài)的待學(xué)習(xí)的全局提示詞,從而利用式3得到第i個(gè)transformer層輸出的Vt的視覺模態(tài)特征表示、音頻模態(tài)的中間查詢提示詞、視覺模態(tài)的中間全局提示詞; 3 步驟2.2.5、隨機(jī)初始化第i個(gè)transformer層中用于音頻模態(tài)的待學(xué)習(xí)的全局提示詞,從而利用式4得到第i個(gè)transformer層輸出的At的音頻模態(tài)特征表示、視覺模態(tài)的中間查詢提示詞、音頻模態(tài)的中間全局提示詞; 4 步驟2.2.6、將i+1賦值給i后,返回步驟2.2.2順序執(zhí)行,直到iN為止,從而得到Vt的第N個(gè)視覺模態(tài)特征表示和At的第N個(gè)音頻模態(tài)特征表示,進(jìn)而得到V的視覺模態(tài)特征表示序列和音頻模態(tài)特征表示序列,其中,N表示transformer層的總層數(shù); 步驟3構(gòu)建事件定位模塊,包括,視頻事件類別分類器和事件相關(guān)性預(yù)測(cè)器,并分別對(duì)和在特征維度上拼接后的融合特征進(jìn)行轉(zhuǎn)換,相應(yīng)得到V的事件類別預(yù)測(cè)標(biāo)簽以及事件片段的定位預(yù)測(cè)標(biāo)簽: 步驟4、基于和,和構(gòu)建反向傳播的總損失函數(shù)L: 步驟4.1、利用式8得到視頻事件類別分類器的交叉熵?fù)p失函數(shù)值: 8 式8中,表示中屬于第k個(gè)音視頻事件類別的概率; 步驟4.2、利用式9得到事件相關(guān)性預(yù)測(cè)器的二分類交叉熵?fù)p失函數(shù)值: 9 式9中,表示中的第t個(gè)音視頻片段V’t和A’t是否屬于事件片段的預(yù)測(cè)概率; 步驟4.3、利用式10得到總損失函數(shù)L: 10 式10中,為平衡參數(shù); 步驟5基于真實(shí)的視頻事件標(biāo)簽對(duì)待學(xué)習(xí)的查詢提示詞和全局提示詞以及事件定位模塊進(jìn)行訓(xùn)練,并計(jì)算總損失函數(shù)L,同時(shí)使用自適應(yīng)矩估計(jì)優(yōu)化方法以學(xué)習(xí)率來更新參數(shù),直至L收斂為止,從而得到最優(yōu)的音視頻事件定位模型,用于對(duì)輸入的音視頻進(jìn)行處理,得到視頻中的事件定位結(jié)果。
如需購(gòu)買、轉(zhuǎn)讓、實(shí)施、許可或投資類似專利技術(shù),可聯(lián)系本專利的申請(qǐng)人或?qū)@麢?quán)人中國(guó)科學(xué)技術(shù)大學(xué),其通訊地址為:230026 安徽省合肥市包河區(qū)金寨路96號(hào);或者聯(lián)系龍圖騰網(wǎng)官方客服,聯(lián)系龍圖騰網(wǎng)可撥打電話0551-65771310或微信搜索“龍圖騰網(wǎng)”。
1、本報(bào)告根據(jù)公開、合法渠道獲得相關(guān)數(shù)據(jù)和信息,力求客觀、公正,但并不保證數(shù)據(jù)的最終完整性和準(zhǔn)確性。
2、報(bào)告中的分析和結(jié)論僅反映本公司于發(fā)布本報(bào)告當(dāng)日的職業(yè)理解,僅供參考使用,不能作為本公司承擔(dān)任何法律責(zé)任的依據(jù)或者憑證。
- 北京京東尚科信息技術(shù)有限公司岳可心獲國(guó)家專利權(quán)
- 中國(guó)電力科學(xué)研究院有限公司曲春輝獲國(guó)家專利權(quán)
- 三星電機(jī)株式會(huì)社柳浩植獲國(guó)家專利權(quán)
- 福瑞斯恩系統(tǒng)S·巴朗德拉斯獲國(guó)家專利權(quán)
- 北京京東尚科信息技術(shù)有限公司陳力獲國(guó)家專利權(quán)
- 阿里巴巴集團(tuán)控股有限公司陳鶴森獲國(guó)家專利權(quán)
- 日東電工株式會(huì)社鈴木立也獲國(guó)家專利權(quán)
- 三星電子株式會(huì)社金志永獲國(guó)家專利權(quán)
- 黑拉有限責(zé)任兩合公司A·W·布朗獲國(guó)家專利權(quán)
- 江蘇奧素液芯生物技術(shù)有限公司張春杰獲國(guó)家專利權(quán)


熱門推薦
- 康寧公司安托萬(wàn)·D·萊蘇弗勒獲國(guó)家專利權(quán)
- 三星顯示有限公司金頭煥獲國(guó)家專利權(quán)
- 中國(guó)電力科學(xué)研究院有限公司蘇志鋼獲國(guó)家專利權(quán)
- 華為技術(shù)有限公司會(huì)·林·川獲國(guó)家專利權(quán)
- 華為技術(shù)有限公司勞大鵬獲國(guó)家專利權(quán)
- 恩智浦美國(guó)有限公司伊利·A·馬盧夫獲國(guó)家專利權(quán)
- 北京百度網(wǎng)訊科技有限公司羅雪峰獲國(guó)家專利權(quán)
- 朱小平獲國(guó)家專利權(quán)
- 艾曲迪微系統(tǒng)股份有限公司米田聰獲國(guó)家專利權(quán)
- 天津宇博電氣設(shè)備有限公司劉寶金獲國(guó)家專利權(quán)