當(dāng)前位置 : 首頁(yè) > 專(zhuān)利喜報(bào) > 南京大學(xué)任桐煒獲國(guó)家專(zhuān)利權(quán)

南京大學(xué)任桐煒獲國(guó)家專(zhuān)利權(quán)

買(mǎi)專(zhuān)利賣(mài)專(zhuān)利找龍圖騰，真高效！查專(zhuān)利查商標(biāo)用IPTOP,全免費(fèi)！專(zhuān)利年費(fèi)監(jiān)控用IP管家,真方便！

龍圖騰網(wǎng)獲悉南京大學(xué)申請(qǐng)的專(zhuān)利一種基于多模態(tài)特征的視頻實(shí)體關(guān)系及交互識(shí)別方法獲國(guó)家發(fā)明授權(quán)專(zhuān)利權(quán)，本發(fā)明授權(quán)專(zhuān)利權(quán)由國(guó)家知識(shí)產(chǎn)權(quán)局授予，授權(quán)公告號(hào)為：CN113936236B 。

龍圖騰網(wǎng)通過(guò)國(guó)家知識(shí)產(chǎn)權(quán)局官網(wǎng)在2025-08-26發(fā)布的發(fā)明授權(quán)授權(quán)公告中獲悉：該發(fā)明授權(quán)的專(zhuān)利申請(qǐng)?zhí)?專(zhuān)利號(hào)為：202111116334.1，技術(shù)領(lǐng)域涉及：G06V20/40；該發(fā)明授權(quán)一種基于多模態(tài)特征的視頻實(shí)體關(guān)系及交互識(shí)別方法是由任桐煒;武港山;張貝貝;于凡;高妍欣設(shè)計(jì)研發(fā)完成，并于2021-09-23向國(guó)家知識(shí)產(chǎn)權(quán)局提交的專(zhuān)利申請(qǐng)。

本一種基于多模態(tài)特征的視頻實(shí)體關(guān)系及交互識(shí)別方法在說(shuō)明書(shū)摘要公布了：一種基于多模態(tài)特征的視頻實(shí)體關(guān)系及交互識(shí)別方法，對(duì)影片中實(shí)體之間的交互進(jìn)行預(yù)測(cè)識(shí)別：對(duì)影片根據(jù)場(chǎng)景劃分為中片段，對(duì)中片段分別向上聚合為長(zhǎng)片段，向下分割為短片段，對(duì)于每個(gè)中片段，將提取的實(shí)體特征、實(shí)體對(duì)特征、視頻片段特征、音頻特征和文字特征進(jìn)行拼接作為該片段的融合特征，取平均作為長(zhǎng)片段的特征預(yù)測(cè)長(zhǎng)片段中的實(shí)體關(guān)系，并將該平均特征連接到每一個(gè)中片段特征，用于預(yù)測(cè)對(duì)應(yīng)的中片段中的實(shí)體之間的互動(dòng)，實(shí)體關(guān)系和實(shí)體互動(dòng)同時(shí)進(jìn)行預(yù)測(cè)，并聯(lián)合訓(xùn)練對(duì)應(yīng)的識(shí)別網(wǎng)絡(luò)。本發(fā)明將長(zhǎng)視頻分為三種長(zhǎng)度的視頻，對(duì)長(zhǎng)片段預(yù)測(cè)實(shí)體關(guān)系，對(duì)中片段預(yù)測(cè)實(shí)體交互和場(chǎng)景狀態(tài)，對(duì)短片段預(yù)測(cè)實(shí)體交互，構(gòu)建出實(shí)體關(guān)系圖和互動(dòng)圖。

本發(fā)明授權(quán)一種基于多模態(tài)特征的視頻實(shí)體關(guān)系及交互識(shí)別方法在權(quán)利要求書(shū)中公布了：1.一種基于多模態(tài)特征的視頻實(shí)體關(guān)系及交互識(shí)別方法，其特征是對(duì)影片利用識(shí)別、跟蹤手段提取出視覺(jué)特征，結(jié)合音頻和臺(tái)詞特征，對(duì)影片中實(shí)體之間的交互進(jìn)行預(yù)測(cè)識(shí)別：對(duì)影片根據(jù)場(chǎng)景劃分為中等長(zhǎng)度視頻片段，稱(chēng)為中片段，首先根據(jù)場(chǎng)景、視覺(jué)和聲音模型對(duì)中片段分別向上聚合為長(zhǎng)片段，以及根據(jù)場(chǎng)景的鏡頭向下分割為短片段，同時(shí)根據(jù)指定的人物截圖和場(chǎng)景截圖對(duì)中、短片段中的人物和場(chǎng)景進(jìn)行識(shí)別和跟蹤，提取中片段中對(duì)應(yīng)的實(shí)體特征，對(duì)中片段中同時(shí)出現(xiàn)的兩個(gè)實(shí)體提取實(shí)體對(duì)特征，并導(dǎo)出對(duì)應(yīng)中片段的音頻和文字特征，對(duì)于每個(gè)中片段，將提取的實(shí)體特征、實(shí)體對(duì)特征、視頻片段特征、音頻特征和文字特征進(jìn)行拼接作為該片段的融合特征，然后將構(gòu)成一個(gè)長(zhǎng)片段的多個(gè)中片段的特征取平均，作為長(zhǎng)片段的特征預(yù)測(cè)長(zhǎng)片段中的實(shí)體關(guān)系，并將該平均特征連接到每一個(gè)中片段特征，用于預(yù)測(cè)對(duì)應(yīng)的中片段中的實(shí)體之間的互動(dòng)，實(shí)體關(guān)系和實(shí)體互動(dòng)同時(shí)進(jìn)行預(yù)測(cè)，并聯(lián)合訓(xùn)練對(duì)應(yīng)的識(shí)別網(wǎng)絡(luò)；由短片段直接預(yù)測(cè)人物的互動(dòng)，用于提供中片段實(shí)體互動(dòng)的時(shí)序；對(duì)長(zhǎng)片段的視頻、音頻和文字特征進(jìn)行拼接，組成場(chǎng)景特征，再根據(jù)已知的場(chǎng)景標(biāo)簽，訓(xùn)練用來(lái)預(yù)測(cè)該視頻的場(chǎng)景信息的模型；建立識(shí)別網(wǎng)絡(luò)用于識(shí)別視頻中的實(shí)體關(guān)系圖、實(shí)體交互圖以及場(chǎng)景信息，識(shí)別網(wǎng)絡(luò)的輸入包括待識(shí)別影片的中片段，以及指定的場(chǎng)景截圖、場(chǎng)景名稱(chēng)、人物截圖及對(duì)應(yīng)的人物名稱(chēng)，輸出為對(duì)應(yīng)場(chǎng)景和人物間的關(guān)系圖、互動(dòng)圖以及相應(yīng)的場(chǎng)景信息；使用多模態(tài)特征聯(lián)合訓(xùn)練識(shí)別網(wǎng)絡(luò)，包括以下步驟： 1基于多模態(tài)特征，將輸入的中片段語(yǔ)義聚合為長(zhǎng)片段，同時(shí)根據(jù)場(chǎng)景的鏡頭分割為多個(gè)短片段，每個(gè)短片段對(duì)應(yīng)一個(gè)場(chǎng)景的鏡頭； 2根據(jù)給定的場(chǎng)景截圖，在步驟1得到的每個(gè)短中長(zhǎng)片段中采用SURF特征匹配將場(chǎng)景截圖與幀進(jìn)行匹配，選取匹配點(diǎn)總數(shù)最高的場(chǎng)景為視頻段所對(duì)應(yīng)的場(chǎng)景，場(chǎng)景的軌跡在時(shí)間上為整個(gè)片段，在空間上是片段中每個(gè)幀的畫(huà)面區(qū)域； 3根據(jù)給定的人物截圖，在步驟1得到的每個(gè)短中長(zhǎng)片段中采用人體跟蹤方法和人臉檢測(cè)識(shí)別方法進(jìn)行人物的識(shí)別和跟蹤，并且通過(guò)SURF特征匹配將人物截圖與幀進(jìn)行匹配作為人臉識(shí)別的補(bǔ)充，得到人物實(shí)體包圍框及其在幕中的軌跡； 4對(duì)步驟1得到的每個(gè)短中長(zhǎng)片段進(jìn)行平均采樣得到一組關(guān)鍵幀，然后輸入預(yù)訓(xùn)練的C3D網(wǎng)絡(luò)計(jì)算得到視頻特征； 5在步驟1得到的每個(gè)短中長(zhǎng)片段中對(duì)音頻提取梅爾頻率倒譜系數(shù)MFCC和對(duì)數(shù)梅爾能量LMFE特征，并計(jì)算MFCC特征和LMFE特征的一階差分和二階差分，得到聲音特征； 6對(duì)輸入視頻自動(dòng)生成字幕，并根據(jù)時(shí)間軸對(duì)應(yīng)到步驟1得到的每個(gè)短中長(zhǎng)片段中，采用BERT網(wǎng)絡(luò)生成幕的文字特征； 7根據(jù)步驟2和步驟3中的場(chǎng)景軌跡和人物實(shí)體包圍框軌跡通過(guò)預(yù)訓(xùn)練的C3D網(wǎng)絡(luò)計(jì)算實(shí)體的視覺(jué)特征，得到實(shí)體特征，并根據(jù)每?jī)蓚€(gè)實(shí)體的聯(lián)合包圍框軌跡同樣計(jì)算實(shí)體對(duì)的視覺(jué)特征，得到實(shí)體對(duì)特征； 8對(duì)中片段中的每個(gè)實(shí)體對(duì)相關(guān)的視頻特征、聲音特征、文字特征、實(shí)體的視覺(jué)特征和實(shí)體對(duì)的視覺(jué)特征連接起來(lái)作為該實(shí)體對(duì)的互動(dòng)特征； 9將組成一個(gè)長(zhǎng)片段的所有中片段中的同一實(shí)體對(duì)通過(guò)8獲得的所有互動(dòng)特征取平均，作為該實(shí)體對(duì)的關(guān)系特征，然后該實(shí)體對(duì)的關(guān)系特征與每一個(gè)互動(dòng)特征連接作為最終的互動(dòng)特征； 10對(duì)中片段的視頻特征、聲音特征、文字特征連接起來(lái)作為該中片段的場(chǎng)景特征； 11將8、9和10得到的關(guān)系特征、互動(dòng)特征和場(chǎng)景特征轉(zhuǎn)換到語(yǔ)義空間，結(jié)合由BERT模型對(duì)關(guān)系謂語(yǔ)、互動(dòng)謂語(yǔ)和場(chǎng)景狀態(tài)生成的語(yǔ)義特征，通過(guò)小樣本學(xué)習(xí)結(jié)合零樣本學(xué)習(xí)的方式，進(jìn)行同時(shí)預(yù)測(cè)，聯(lián)合學(xué)習(xí)長(zhǎng)片段上該實(shí)體對(duì)之間的關(guān)系和中片段上該實(shí)體對(duì)之間的互動(dòng)關(guān)系以及中片段的場(chǎng)景狀態(tài)； 12根據(jù)步驟11預(yù)測(cè)的實(shí)體關(guān)系互動(dòng)場(chǎng)景狀態(tài)，取與預(yù)定義的關(guān)系類(lèi)別互動(dòng)類(lèi)別場(chǎng)景狀態(tài)類(lèi)別相似性度量大于0的為關(guān)系互動(dòng)場(chǎng)景狀態(tài)候選，構(gòu)建初步的實(shí)體關(guān)系圖和互動(dòng)圖，以及場(chǎng)景狀態(tài)圖； 13在步驟12的基礎(chǔ)上，根據(jù)實(shí)體的類(lèi)型、名稱(chēng)、關(guān)系的類(lèi)型調(diào)整關(guān)系預(yù)測(cè)概率，補(bǔ)充實(shí)體間的關(guān)系； 14根據(jù)步驟13構(gòu)建的長(zhǎng)片段實(shí)體關(guān)系圖填充視頻知識(shí)圖，得到整個(gè)視頻上的實(shí)體關(guān)系圖，用于回答實(shí)體之間的關(guān)系和查找兩個(gè)實(shí)體之間的關(guān)系路徑；再根據(jù)步驟12構(gòu)建的實(shí)體互動(dòng)圖和場(chǎng)景狀態(tài)圖，得到中片段上的實(shí)體互動(dòng)情況以及場(chǎng)景狀態(tài)，直接回答實(shí)體之間的互動(dòng)問(wèn)題以及場(chǎng)景識(shí)別問(wèn)題； 15對(duì)短視頻段中的每個(gè)實(shí)體對(duì)相關(guān)的視頻特征、聲音特征、文字特征、實(shí)體的視覺(jué)特征和實(shí)體對(duì)的視覺(jué)特征連接起來(lái)作為該實(shí)體對(duì)的互動(dòng)特征； 16將15得到的互動(dòng)特征轉(zhuǎn)換到語(yǔ)義空間，結(jié)合由BERT模型對(duì)互動(dòng)謂語(yǔ)生成的語(yǔ)義特征，通過(guò)小樣本學(xué)習(xí)結(jié)合零樣本學(xué)習(xí)的方式，預(yù)測(cè)短視頻段上該實(shí)體對(duì)之間的互動(dòng)關(guān)系； 17根據(jù)步驟16預(yù)測(cè)的實(shí)體互動(dòng)，仿照步驟12和13得到最后的短視頻段實(shí)體互動(dòng)圖，將組成同一個(gè)中片段的所有短視頻段中的實(shí)體互動(dòng)按時(shí)間先后進(jìn)行排序，用于回答實(shí)體互動(dòng)順序問(wèn)題。

如需購(gòu)買(mǎi)、轉(zhuǎn)讓、實(shí)施、許可或投資類(lèi)似專(zhuān)利技術(shù)，可聯(lián)系本專(zhuān)利的申請(qǐng)人或?qū)＠麢?quán)人南京大學(xué)，其通訊地址為：210093 江蘇省南京市鼓樓區(qū)漢口路22號(hào)；或者聯(lián)系龍圖騰網(wǎng)官方客服，聯(lián)系龍圖騰網(wǎng)可撥打電話0551-65771310或微信搜索“龍圖騰網(wǎng)”。

免責(zé)聲明
1、本報(bào)告根據(jù)公開(kāi)、合法渠道獲得相關(guān)數(shù)據(jù)和信息，力求客觀、公正，但并不保證數(shù)據(jù)的最終完整性和準(zhǔn)確性。
2、報(bào)告中的分析和結(jié)論僅反映本公司于發(fā)布本報(bào)告當(dāng)日的職業(yè)理解，僅供參考使用，不能作為本公司承擔(dān)任何法律責(zé)任的依據(jù)或者憑證。

相關(guān)閱讀

龍圖騰網(wǎng)&IPTOP

設(shè)置信息完成注冊(cè)

手機(jī)號(hào)綁定多個(gè)賬號(hào)

南京大學(xué)任桐煒獲國(guó)家專(zhuān)利權(quán)

熱門(mén)推薦

專(zhuān)利交易買(mǎi)賣(mài)與高校科技成果轉(zhuǎn)化平臺(tái)

專(zhuān)利交易

快速入口

知產(chǎn)工具

關(guān)于我們

咨詢(xún)服務(wù)