南京醫(yī)科大學(xué)向文濤獲國家專利權(quán)
買專利賣專利找龍圖騰,真高效! 查專利查商標(biāo)用IPTOP,全免費(fèi)!專利年費(fèi)監(jiān)控用IP管家,真方便!
龍圖騰網(wǎng)獲悉南京醫(yī)科大學(xué)申請的專利一種基于適配器融合的音視頻雙模態(tài)情感識別方法及系統(tǒng)獲國家發(fā)明授權(quán)專利權(quán),本發(fā)明授權(quán)專利權(quán)由國家知識產(chǎn)權(quán)局授予,授權(quán)公告號為:CN120411863B 。
龍圖騰網(wǎng)通過國家知識產(chǎn)權(quán)局官網(wǎng)在2025-08-26發(fā)布的發(fā)明授權(quán)授權(quán)公告中獲悉:該發(fā)明授權(quán)的專利申請?zhí)?專利號為:202510907472.3,技術(shù)領(lǐng)域涉及:G06V20/40;該發(fā)明授權(quán)一種基于適配器融合的音視頻雙模態(tài)情感識別方法及系統(tǒng)是由向文濤;李建清;楊淳沨;楊博慧;劉賓;朱松盛;李杰設(shè)計(jì)研發(fā)完成,并于2025-07-02向國家知識產(chǎn)權(quán)局提交的專利申請。
本一種基于適配器融合的音視頻雙模態(tài)情感識別方法及系統(tǒng)在說明書摘要公布了:本發(fā)明涉及人工智能與情感計(jì)算技術(shù)領(lǐng)域,具體涉及一種基于適配器融合的音視頻雙模態(tài)情感識別方法及系統(tǒng);該方法包括:獲取視頻幀序列和音頻信號,并進(jìn)行預(yù)處理;構(gòu)建情感識別模型;基于雙模態(tài)特征提取模塊依次嵌入空間適配器和全局適配器,依次得到對應(yīng)模態(tài)增強(qiáng)后的空間特征和全局特征;基于全局特征生成對應(yīng)模態(tài)的中間表示,根據(jù)中間表示進(jìn)行特征融合,分別得到對應(yīng)模態(tài)的融合特征;拼接融合特征,進(jìn)行時(shí)序特征的提取,得到最終特征;將最終特征輸入至分類器中,得到預(yù)測情緒類別,采用損失函數(shù)對情感識別模型進(jìn)行訓(xùn)練,確定最優(yōu)的情感識別模型;將待識別的視頻幀序列和音頻信號輸入至情感識別模型,輸出識別結(jié)果。
本發(fā)明授權(quán)一種基于適配器融合的音視頻雙模態(tài)情感識別方法及系統(tǒng)在權(quán)利要求書中公布了:1.一種基于適配器融合的音視頻雙模態(tài)情感識別方法,其特征在于,所述方法包括: 獲取視頻幀序列和音頻信號,并進(jìn)行預(yù)處理; 構(gòu)建情感識別模型,所述情感識別模型包括雙模態(tài)特征提取模塊、雙模態(tài)融合適配器結(jié)構(gòu)、跨模態(tài)時(shí)序建模模塊和分類器; 基于雙模態(tài)特征提取模塊依次嵌入空間適配器和全局適配器,輸入預(yù)處理后的視頻幀序列和音頻信號依次進(jìn)行處理,并依次得到對應(yīng)模態(tài)增強(qiáng)后的空間特征和全局特征,包括: 所述雙模態(tài)特征提取模塊采用Transformer編碼器為特征提取器,并在Transformer編碼器后依次嵌入空間適配器和全局適配器; 將預(yù)處理后的視頻幀序列和音頻信號輸入至Transformer編碼器中,分別得到對應(yīng)模態(tài)的輸出特征; 基于輸出特征進(jìn)行歸一化處理后,采用空間適配器依次進(jìn)行降維、非線性激活和升維處理,分別得到對應(yīng)模態(tài)增強(qiáng)后的空間特征,包括: 基于歸一化處理后的輸出特征采用空間適配器得到對應(yīng)模態(tài)的初始空間特征,對應(yīng)的計(jì)算公式為: ; 其中,表示視頻幀序列對應(yīng)的初始空間特征;表示音頻信號對應(yīng)的初始空間特征;表示當(dāng)前Transformer編碼器;表示相鄰上一塊Transformer編碼器;表示空間適配器;表示視頻幀序列對應(yīng)的歸一化處理后的輸出特征;表示音頻信號對應(yīng)的歸一化處理后的輸出特征; 通過空間適配器對歸一化處理后的輸出特征依次進(jìn)行降維、非線性激活和升維處理,并結(jié)合輸出特征,分別得到對應(yīng)模態(tài)增強(qiáng)后的空間特征,對應(yīng)的計(jì)算公式為: ; ; 其中,表示視頻幀序列對應(yīng)的增強(qiáng)后的空間特征;表示音頻信號對應(yīng)的增強(qiáng)后的空間特征;、分別表示視頻幀序列和音頻信號對應(yīng)的輸出特征;表示雙模態(tài)特征提取模塊中的MHSA操作; 基于空間特征進(jìn)行歸一化處理后,采用全局適配器進(jìn)行處理,分別得到對應(yīng)模態(tài)增強(qiáng)后的全局特征; 基于全局特征通過雙模態(tài)融合適配器結(jié)構(gòu)生成對應(yīng)模態(tài)的中間表示,根據(jù)中間表示進(jìn)行特征融合,分別得到對應(yīng)模態(tài)的融合特征; 拼接融合特征,并輸入跨模態(tài)時(shí)序建模模塊中進(jìn)行時(shí)序特征的提取,得到最終特征; 將最終特征輸入至分類器中,得到預(yù)測情緒類別,并采用損失函數(shù)對情感識別模型進(jìn)行訓(xùn)練,調(diào)整情感識別模型參數(shù),確定最優(yōu)的情感識別模型; 獲取待識別的視頻幀序列和音頻信號,并輸入至最優(yōu)的情感識別模型,輸出識別結(jié)果。
如需購買、轉(zhuǎn)讓、實(shí)施、許可或投資類似專利技術(shù),可聯(lián)系本專利的申請人或?qū)@麢?quán)人南京醫(yī)科大學(xué),其通訊地址為:211166 江蘇省南京市江寧區(qū)龍眠大道101號;或者聯(lián)系龍圖騰網(wǎng)官方客服,聯(lián)系龍圖騰網(wǎng)可撥打電話0551-65771310或微信搜索“龍圖騰網(wǎng)”。
1、本報(bào)告根據(jù)公開、合法渠道獲得相關(guān)數(shù)據(jù)和信息,力求客觀、公正,但并不保證數(shù)據(jù)的最終完整性和準(zhǔn)確性。
2、報(bào)告中的分析和結(jié)論僅反映本公司于發(fā)布本報(bào)告當(dāng)日的職業(yè)理解,僅供參考使用,不能作為本公司承擔(dān)任何法律責(zé)任的依據(jù)或者憑證。