江西師范大學雷震春獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網獲悉江西師范大學申請的專利一種基于多尺度殘差注意力網絡的聲音場景分類方法獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN114373476B 。
龍圖騰網通過國家知識產權局官網在2025-09-19發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202210028342.9,技術領域涉及:G10L25/03;該發明授權一種基于多尺度殘差注意力網絡的聲音場景分類方法是由雷震春;周勇設計研發完成,并于2022-01-11向國家知識產權局提交的專利申請。
本一種基于多尺度殘差注意力網絡的聲音場景分類方法在說明書摘要公布了:本發明提供一種基于多尺度殘差注意力網絡的聲音場景分類方法,包括將采集到的音頻數據進行特征提取,提取出對數梅爾頻譜圖及其一階差分和二階差分作為輸入特征;構建多尺度殘差注意力網絡,將提取到的對數梅爾頻譜圖輸入到網絡中進行訓練建立分類模型;采用mixup方法增強數據多樣性;采用焦點損失關注分類困難的樣本;獲取新的聲音場景語音,利用分類模型對語音進行聲音場景分類,得到聲音場景分類結果。本發明采用對數梅爾頻譜圖及其一階和二階差分,使用多尺度殘差注意力網絡模型來對聲音場景進行分類,能夠挖掘更多豐富全面的特征信息,從而提高聲音場景分類性能。
本發明授權一種基于多尺度殘差注意力網絡的聲音場景分類方法在權利要求書中公布了:1.一種基于多尺度殘差注意力網絡的聲音場景分類方法,其特征在于,包括以下步驟: 步驟1:采集音頻數據進行特征提取,提取出對數梅爾頻譜圖及其一階差分和二階差分作為輸入特征; 步驟2:構建多尺度殘差注意力網絡,將輸入特征輸入到網絡中進行訓練建立分類模型; 步驟3:采用mixup方法對音頻數據進行處理,獲得數據樣本; 步驟4:將所述數據樣本輸入所述分類模型進行分類,采用焦點損失關注分類困難的樣本,優化分類模型; 步驟5:獲取新的聲音場景語音,輸入優化后的分類模型進行聲音場景分類,得到聲音場景分類結果; 所述步驟1中進行特征提取的具體過程為: 步驟1.1:對所采集到的語音數據進行預加重處理; 步驟1.2:將預加重后的語音數據進行分幀,分成若干幀語音信號; 步驟1.3:采用漢寧窗函數對每幀語音信號進行加窗處理,得到短時加窗的語音信號; 步驟1.4:將短時加窗的語音信號進行傅里葉變換將其從時域轉換到頻域,獲得頻域信號; 步驟1.5:將得到的頻域信號通過梅爾濾波器,得到梅爾頻譜圖; 步驟1.6:對梅爾頻譜圖取對數得到對數梅爾頻譜圖; 步驟1.7:對對數梅爾頻譜圖求其一階差分和二階差分,再將對數梅爾頻譜圖及其一階差分、二階差分堆疊起來,得到最終的輸入特征; 所述步驟2的具體過程為: 步驟2.1:將輸入特征分為高頻部分和低頻部分; 步驟2.2:分別將高頻部分與低頻部分輸入多尺度殘差注意力網絡的通道注意力模塊,根據特征的重要性分配不同的權重,生成新的特征;所述步驟2.2中經過通道注意力模塊生成新的特征的具體過程包括: 步驟2.2.1:將高頻部分輸入特征和低頻部分輸入特征分別進行最大池化和平均池化操作,得到兩個特征圖; 步驟2.2.2:將池化處理得到的兩個特征圖分別送入多層感知機中,獲得兩個感知結果; 步驟2.2.3:將經過多層感知機得到的兩個感知結果進行相加,獲得結果; 步驟2.2.4:將相加之后的結果經過sigmoid激活操作,獲得輸入特征的權重參數; 步驟2.2.5:最后將權重參數與輸入特征進行乘積運算,生成新的特征; 步驟2.3:將新的特征輸入到多尺度殘差注意力網絡的多尺度殘差模塊,提取不同精度與不同深度的特征信息,獲得高頻部分特征圖和低頻部分特征圖;所述步驟2.3中新的特征依次通過批處理歸一化層以及卷積層,經過兩次由兩個1×1、兩個3×3和兩個5×5的卷積核組成的殘差塊Residual01,再經過三次由兩個1×1、兩個3×3和兩個5×5的卷積核、最大池化、平均池化和零填充組成的殘差塊Residual02以及殘差塊Residual01構成的組合塊,從而獲得高頻部分特征圖和低頻部分特征圖; 步驟2.4:將高頻部分特征圖和低頻部分特征圖在頻率維度上拼接起來,獲得全部特征; 步驟2.5:全部特征依次經過由批處理歸一化層、修正線性單元以及1×1卷積層組成的卷積塊,由BN層以及1×1卷積層組成的卷積塊,批處理歸一化層,全局平均池化層,以及softmax層進行分類,獲得分類模型。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人江西師范大學,其通訊地址為:330000 江西省南昌市紫陽大道99號;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。