中國電子科技集團公司第二十八研究所湯聞易獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網獲悉中國電子科技集團公司第二十八研究所申請的專利一種基于雙模型動態觸發的語音流切分方法獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN120260546B 。
龍圖騰網通過國家知識產權局官網在2025-09-23發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202510726884.7,技術領域涉及:G10L15/04;該發明授權一種基于雙模型動態觸發的語音流切分方法是由湯聞易;劉澤原;張陽;徐珂;丁輝;張明偉;唐敏敏;張翔;田靖;王凱設計研發完成,并于2025-06-03向國家知識產權局提交的專利申請。
本一種基于雙模型動態觸發的語音流切分方法在說明書摘要公布了:本發明公開了一種基于雙模型動態觸發的語音流切分方法,包括如下步驟:步驟1:構建多路語音流的數據流緩沖管理機制,為每個語音流建立獨立處理通道,將積累到閾值時長的語音數據組成待處理語音集合;步驟2:通過快速切分模型篩選分析并處理待處理語音集合,選出符合條件的語音片段輸出到高精度切分模型;步驟3:根據快速切分模型的篩選結果,將不符合條件數據與數據流緩沖中的數據進行拼接,調整語音片段對應緩沖區的閾值時長;步驟4:使用高精度切分模型處理經過快速切分模型篩選的語音片段;步驟5:根據處理結果將切分后的音頻片段輸出到語音識別等其他系統中,將剩余數據與數據流緩沖中的數據進行拼接,并更新對應緩沖區的閾值時長。
本發明授權一種基于雙模型動態觸發的語音流切分方法在權利要求書中公布了:1.一種基于雙模型動態觸發的語音流切分方法,其特征在于,包括如下步驟: 步驟1:構建多路語音流的數據流緩沖管理機制,為每個語音流建立獨立處理通道,將積累到閾值時長的語音數據組成待處理語音集合; 步驟2:通過快速切分模型篩選分析并處理待處理語音集合,選出符合條件的語音片段輸出到高精度切分模型; 步驟3:根據快速切分模型的篩選結果,將不符合條件數據與數據流緩沖中的數據進行拼接,調整語音片段對應緩沖區的閾值時長; 步驟4:使用高精度切分模型處理經過快速切分模型篩選的語音片段; 步驟5:根據處理結果將切分后的音頻片段輸出到語音識別系統中,將剩余數據與數據流緩沖中的數據進行拼接,并更新對應緩沖區的閾值時長; 步驟2中所述的快速切分模型篩選,具體為: 步驟2-1:檢查待處理語音集合中是否為空,如果為空則等待下一次檢查,否則執行步驟2-2; 步驟2-2:從待處理語音集合中選擇第k個語音流的語音片段,將其最后last_second秒的數據通過滑動窗口將數據分成num_frame幀,提取每一幀的頻譜特征,輸入快速切分模型,得到每一幀是否是靜音幀的概率列表,統計概率列表中判斷該語音片段是否符合條件; 步驟2-2中所述的快速切分模型為基于一維卷積神經網絡的輕量級二分類模型,其網絡結構包含: 輸入層:接收×M維的MFCC特征矩陣,其中M為梅爾濾波器個數; 一維卷積層:使用32個寬度為5、步長為1的卷積核,沿時間軸進行一維卷積,輸出維度為×32; 最大池化層:池化窗口大小為2,步長為2,輸出維度為×32; 扁平層:將特征圖展平為1維向量; 全連接層:通過個神經元的全連接層,激活函數為ReLU; 輸出層:經Sigmoid激活函數輸出單節點概率值,表示輸入幀每一幀不為靜音幀的概率; 步驟4中所述的高精度切分模型的網絡結構如下: 輸入層:接收整段語音的MFCC特征序列,維度為T×M,其中T為整段語音經過幀長30ms幀移為10ms的滑動窗口后獲得的幀數,M為梅爾濾波器個數; 兩個雙向LSTM層:包含128個隱藏單元的雙向LSTM層,輸出維度為T×256; 全連接層:通過64個神經元的全連接層,激活函數為ReLU; 輸出層:經Sigmoid激活函數輸出T維概率序列,表示各時間幀不為靜音幀的概率; 邊界決策模塊:當概率值大于0.7且為局部最大值時判定為切分點。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人中國電子科技集團公司第二十八研究所,其通訊地址為:210007 江蘇省南京市秦淮區苜蓿園東街1號;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。