南京大學(xué)任桐煒獲國(guó)家專(zhuān)利權(quán)
買(mǎi)專(zhuān)利賣(mài)專(zhuān)利找龍圖騰,真高效! 查專(zhuān)利查商標(biāo)用IPTOP,全免費(fèi)!專(zhuān)利年費(fèi)監(jiān)控用IP管家,真方便!
龍圖騰網(wǎng)獲悉南京大學(xué)申請(qǐng)的專(zhuān)利一種基于多模態(tài)特征的視頻實(shí)體關(guān)系及交互識(shí)別方法獲國(guó)家發(fā)明授權(quán)專(zhuān)利權(quán),本發(fā)明授權(quán)專(zhuān)利權(quán)由國(guó)家知識(shí)產(chǎn)權(quán)局授予,授權(quán)公告號(hào)為:CN113936236B 。
龍圖騰網(wǎng)通過(guò)國(guó)家知識(shí)產(chǎn)權(quán)局官網(wǎng)在2025-08-26發(fā)布的發(fā)明授權(quán)授權(quán)公告中獲悉:該發(fā)明授權(quán)的專(zhuān)利申請(qǐng)?zhí)?專(zhuān)利號(hào)為:202111116334.1,技術(shù)領(lǐng)域涉及:G06V20/40;該發(fā)明授權(quán)一種基于多模態(tài)特征的視頻實(shí)體關(guān)系及交互識(shí)別方法是由任桐煒;武港山;張貝貝;于凡;高妍欣設(shè)計(jì)研發(fā)完成,并于2021-09-23向國(guó)家知識(shí)產(chǎn)權(quán)局提交的專(zhuān)利申請(qǐng)。
本一種基于多模態(tài)特征的視頻實(shí)體關(guān)系及交互識(shí)別方法在說(shuō)明書(shū)摘要公布了:一種基于多模態(tài)特征的視頻實(shí)體關(guān)系及交互識(shí)別方法,對(duì)影片中實(shí)體之間的交互進(jìn)行預(yù)測(cè)識(shí)別:對(duì)影片根據(jù)場(chǎng)景劃分為中片段,對(duì)中片段分別向上聚合為長(zhǎng)片段,向下分割為短片段,對(duì)于每個(gè)中片段,將提取的實(shí)體特征、實(shí)體對(duì)特征、視頻片段特征、音頻特征和文字特征進(jìn)行拼接作為該片段的融合特征,取平均作為長(zhǎng)片段的特征預(yù)測(cè)長(zhǎng)片段中的實(shí)體關(guān)系,并將該平均特征連接到每一個(gè)中片段特征,用于預(yù)測(cè)對(duì)應(yīng)的中片段中的實(shí)體之間的互動(dòng),實(shí)體關(guān)系和實(shí)體互動(dòng)同時(shí)進(jìn)行預(yù)測(cè),并聯(lián)合訓(xùn)練對(duì)應(yīng)的識(shí)別網(wǎng)絡(luò)。本發(fā)明將長(zhǎng)視頻分為三種長(zhǎng)度的視頻,對(duì)長(zhǎng)片段預(yù)測(cè)實(shí)體關(guān)系,對(duì)中片段預(yù)測(cè)實(shí)體交互和場(chǎng)景狀態(tài),對(duì)短片段預(yù)測(cè)實(shí)體交互,構(gòu)建出實(shí)體關(guān)系圖和互動(dòng)圖。
本發(fā)明授權(quán)一種基于多模態(tài)特征的視頻實(shí)體關(guān)系及交互識(shí)別方法在權(quán)利要求書(shū)中公布了:1.一種基于多模態(tài)特征的視頻實(shí)體關(guān)系及交互識(shí)別方法,其特征是對(duì)影片利用識(shí)別、跟蹤手段提取出視覺(jué)特征,結(jié)合音頻和臺(tái)詞特征,對(duì)影片中實(shí)體之間的交互進(jìn)行預(yù)測(cè)識(shí)別:對(duì)影片根據(jù)場(chǎng)景劃分為中等長(zhǎng)度視頻片段,稱(chēng)為中片段,首先根據(jù)場(chǎng)景、視覺(jué)和聲音模型對(duì)中片段分別向上聚合為長(zhǎng)片段,以及根據(jù)場(chǎng)景的鏡頭向下分割為短片段,同時(shí)根據(jù)指定的人物截圖和場(chǎng)景截圖對(duì)中、短片段中的人物和場(chǎng)景進(jìn)行識(shí)別和跟蹤,提取中片段中對(duì)應(yīng)的實(shí)體特征,對(duì)中片段中同時(shí)出現(xiàn)的兩個(gè)實(shí)體提取實(shí)體對(duì)特征,并導(dǎo)出對(duì)應(yīng)中片段的音頻和文字特征,對(duì)于每個(gè)中片段,將提取的實(shí)體特征、實(shí)體對(duì)特征、視頻片段特征、音頻特征和文字特征進(jìn)行拼接作為該片段的融合特征,然后將構(gòu)成一個(gè)長(zhǎng)片段的多個(gè)中片段的特征取平均,作為長(zhǎng)片段的特征預(yù)測(cè)長(zhǎng)片段中的實(shí)體關(guān)系,并將該平均特征連接到每一個(gè)中片段特征,用于預(yù)測(cè)對(duì)應(yīng)的中片段中的實(shí)體之間的互動(dòng),實(shí)體關(guān)系和實(shí)體互動(dòng)同時(shí)進(jìn)行預(yù)測(cè),并聯(lián)合訓(xùn)練對(duì)應(yīng)的識(shí)別網(wǎng)絡(luò); 由短片段直接預(yù)測(cè)人物的互動(dòng),用于提供中片段實(shí)體互動(dòng)的時(shí)序; 對(duì)長(zhǎng)片段的視頻、音頻和文字特征進(jìn)行拼接,組成場(chǎng)景特征,再根據(jù)已知的場(chǎng)景標(biāo)簽,訓(xùn)練用來(lái)預(yù)測(cè)該視頻的場(chǎng)景信息的模型; 建立識(shí)別網(wǎng)絡(luò)用于識(shí)別視頻中的實(shí)體關(guān)系圖、實(shí)體交互圖以及場(chǎng)景信息,識(shí)別網(wǎng)絡(luò)的輸入包括待識(shí)別影片的中片段,以及指定的場(chǎng)景截圖、場(chǎng)景名稱(chēng)、人物截圖及對(duì)應(yīng)的人物名稱(chēng),輸出為對(duì)應(yīng)場(chǎng)景和人物間的關(guān)系圖、互動(dòng)圖以及相應(yīng)的場(chǎng)景信息;使用多模態(tài)特征聯(lián)合訓(xùn)練識(shí)別網(wǎng)絡(luò),包括以下步驟: 1基于多模態(tài)特征,將輸入的中片段語(yǔ)義聚合為長(zhǎng)片段,同時(shí)根據(jù)場(chǎng)景的鏡頭分割為多個(gè)短片段,每個(gè)短片段對(duì)應(yīng)一個(gè)場(chǎng)景的鏡頭; 2根據(jù)給定的場(chǎng)景截圖,在步驟1得到的每個(gè)短中長(zhǎng)片段中采用SURF特征匹配將場(chǎng)景截圖與幀進(jìn)行匹配,選取匹配點(diǎn)總數(shù)最高的場(chǎng)景為視頻段所對(duì)應(yīng)的場(chǎng)景,場(chǎng)景的軌跡在時(shí)間上為整個(gè)片段,在空間上是片段中每個(gè)幀的畫(huà)面區(qū)域; 3根據(jù)給定的人物截圖,在步驟1得到的每個(gè)短中長(zhǎng)片段中采用人體跟蹤方法和人臉檢測(cè)識(shí)別方法進(jìn)行人物的識(shí)別和跟蹤,并且通過(guò)SURF特征匹配將人物截圖與幀進(jìn)行匹配作為人臉識(shí)別的補(bǔ)充,得到人物實(shí)體包圍框及其在幕中的軌跡; 4對(duì)步驟1得到的每個(gè)短中長(zhǎng)片段進(jìn)行平均采樣得到一組關(guān)鍵幀,然后輸入預(yù)訓(xùn)練的C3D網(wǎng)絡(luò)計(jì)算得到視頻特征; 5在步驟1得到的每個(gè)短中長(zhǎng)片段中對(duì)音頻提取梅爾頻率倒譜系數(shù)MFCC和對(duì)數(shù)梅爾能量LMFE特征,并計(jì)算MFCC特征和LMFE特征的一階差分和二階差分,得到聲音特征; 6對(duì)輸入視頻自動(dòng)生成字幕,并根據(jù)時(shí)間軸對(duì)應(yīng)到步驟1得到的每個(gè)短中長(zhǎng)片段中,采用BERT網(wǎng)絡(luò)生成幕的文字特征; 7根據(jù)步驟2和步驟3中的場(chǎng)景軌跡和人物實(shí)體包圍框軌跡通過(guò)預(yù)訓(xùn)練的C3D網(wǎng)絡(luò)計(jì)算實(shí)體的視覺(jué)特征,得到實(shí)體特征,并根據(jù)每?jī)蓚€(gè)實(shí)體的聯(lián)合包圍框軌跡同樣計(jì)算實(shí)體對(duì)的視覺(jué)特征,得到實(shí)體對(duì)特征; 8對(duì)中片段中的每個(gè)實(shí)體對(duì)相關(guān)的視頻特征、聲音特征、文字特征、實(shí)體的視覺(jué)特征和實(shí)體對(duì)的視覺(jué)特征連接起來(lái)作為該實(shí)體對(duì)的互動(dòng)特征; 9將組成一個(gè)長(zhǎng)片段的所有中片段中的同一實(shí)體對(duì)通過(guò)8獲得的所有互動(dòng)特征取平均,作為該實(shí)體對(duì)的關(guān)系特征,然后該實(shí)體對(duì)的關(guān)系特征與每一個(gè)互動(dòng)特征連接作為最終的互動(dòng)特征; 10對(duì)中片段的視頻特征、聲音特征、文字特征連接起來(lái)作為該中片段的場(chǎng)景特征; 11將8、9和10得到的關(guān)系特征、互動(dòng)特征和場(chǎng)景特征轉(zhuǎn)換到語(yǔ)義空間,結(jié)合由BERT模型對(duì)關(guān)系謂語(yǔ)、互動(dòng)謂語(yǔ)和場(chǎng)景狀態(tài)生成的語(yǔ)義特征,通過(guò)小樣本學(xué)習(xí)結(jié)合零樣本學(xué)習(xí)的方式,進(jìn)行同時(shí)預(yù)測(cè),聯(lián)合學(xué)習(xí)長(zhǎng)片段上該實(shí)體對(duì)之間的關(guān)系和中片段上該實(shí)體對(duì)之間的互動(dòng)關(guān)系以及中片段的場(chǎng)景狀態(tài); 12根據(jù)步驟11預(yù)測(cè)的實(shí)體關(guān)系互動(dòng)場(chǎng)景狀態(tài),取與預(yù)定義的關(guān)系類(lèi)別互動(dòng)類(lèi)別場(chǎng)景狀態(tài)類(lèi)別相似性度量大于0的為關(guān)系互動(dòng)場(chǎng)景狀態(tài)候選,構(gòu)建初步的實(shí)體關(guān)系圖和互動(dòng)圖,以及場(chǎng)景狀態(tài)圖; 13在步驟12的基礎(chǔ)上,根據(jù)實(shí)體的類(lèi)型、名稱(chēng)、關(guān)系的類(lèi)型調(diào)整關(guān)系預(yù)測(cè)概率,補(bǔ)充實(shí)體間的關(guān)系; 14根據(jù)步驟13構(gòu)建的長(zhǎng)片段實(shí)體關(guān)系圖填充視頻知識(shí)圖,得到整個(gè)視頻上的實(shí)體關(guān)系圖,用于回答實(shí)體之間的關(guān)系和查找兩個(gè)實(shí)體之間的關(guān)系路徑;再根據(jù)步驟12構(gòu)建的實(shí)體互動(dòng)圖和場(chǎng)景狀態(tài)圖,得到中片段上的實(shí)體互動(dòng)情況以及場(chǎng)景狀態(tài),直接回答實(shí)體之間的互動(dòng)問(wèn)題以及場(chǎng)景識(shí)別問(wèn)題; 15對(duì)短視頻段中的每個(gè)實(shí)體對(duì)相關(guān)的視頻特征、聲音特征、文字特征、實(shí)體的視覺(jué)特征和實(shí)體對(duì)的視覺(jué)特征連接起來(lái)作為該實(shí)體對(duì)的互動(dòng)特征; 16將15得到的互動(dòng)特征轉(zhuǎn)換到語(yǔ)義空間,結(jié)合由BERT模型對(duì)互動(dòng)謂語(yǔ)生成的語(yǔ)義特征,通過(guò)小樣本學(xué)習(xí)結(jié)合零樣本學(xué)習(xí)的方式,預(yù)測(cè)短視頻段上該實(shí)體對(duì)之間的互動(dòng)關(guān)系; 17根據(jù)步驟16預(yù)測(cè)的實(shí)體互動(dòng),仿照步驟12和13得到最后的短視頻段實(shí)體互動(dòng)圖,將組成同一個(gè)中片段的所有短視頻段中的實(shí)體互動(dòng)按時(shí)間先后進(jìn)行排序,用于回答實(shí)體互動(dòng)順序問(wèn)題。
如需購(gòu)買(mǎi)、轉(zhuǎn)讓、實(shí)施、許可或投資類(lèi)似專(zhuān)利技術(shù),可聯(lián)系本專(zhuān)利的申請(qǐng)人或?qū)@麢?quán)人南京大學(xué),其通訊地址為:210093 江蘇省南京市鼓樓區(qū)漢口路22號(hào);或者聯(lián)系龍圖騰網(wǎng)官方客服,聯(lián)系龍圖騰網(wǎng)可撥打電話0551-65771310或微信搜索“龍圖騰網(wǎng)”。
1、本報(bào)告根據(jù)公開(kāi)、合法渠道獲得相關(guān)數(shù)據(jù)和信息,力求客觀、公正,但并不保證數(shù)據(jù)的最終完整性和準(zhǔn)確性。
2、報(bào)告中的分析和結(jié)論僅反映本公司于發(fā)布本報(bào)告當(dāng)日的職業(yè)理解,僅供參考使用,不能作為本公司承擔(dān)任何法律責(zé)任的依據(jù)或者憑證。
- 騰訊科技(深圳)有限公司陳丕敏獲國(guó)家專(zhuān)利權(quán)
- 華為技術(shù)有限公司陳東國(guó)獲國(guó)家專(zhuān)利權(quán)
- 中鐵上海工程局集團(tuán)華海工程有限公司王孝樂(lè)獲國(guó)家專(zhuān)利權(quán)
- 財(cái)付通支付科技有限公司巫曉杰獲國(guó)家專(zhuān)利權(quán)
- 福州高意光學(xué)有限公司賈旭獲國(guó)家專(zhuān)利權(quán)
- 上海蓋浦生物科技有限公司胡輝獲國(guó)家專(zhuān)利權(quán)
- 華為技術(shù)有限公司陳二凱獲國(guó)家專(zhuān)利權(quán)
- 山東聚亨源環(huán)保科技有限公司張正均獲國(guó)家專(zhuān)利權(quán)
- 三菱電機(jī)株式會(huì)社埴岡翔太獲國(guó)家專(zhuān)利權(quán)
- 香港科技大學(xué)穆罕默德·奧斯曼·布塔獲國(guó)家專(zhuān)利權(quán)


熱門(mén)推薦
- 高通股份有限公司周志兵獲國(guó)家專(zhuān)利權(quán)
- 日亞化學(xué)工業(yè)株式會(huì)社若松大獲國(guó)家專(zhuān)利權(quán)
- 上海夏凱建筑科技有限公司謝強(qiáng)獲國(guó)家專(zhuān)利權(quán)
- 安徽普惠住能磁業(yè)科技有限公司孫威獲國(guó)家專(zhuān)利權(quán)
- 昌微系統(tǒng)科技(上海)有限公司承曉園獲國(guó)家專(zhuān)利權(quán)
- 騰訊科技(深圳)有限公司李茂材獲國(guó)家專(zhuān)利權(quán)
- 華為技術(shù)有限公司張立斌獲國(guó)家專(zhuān)利權(quán)
- 華為技術(shù)有限公司吳曄獲國(guó)家專(zhuān)利權(quán)
- 北京南風(fēng)科創(chuàng)應(yīng)用技術(shù)有限公司方勵(lì)獲國(guó)家專(zhuān)利權(quán)
- 東京毅力科創(chuàng)株式會(huì)社岡澤智樹(shù)獲國(guó)家專(zhuān)利權(quán)