北京三快在線科技有限公司邢原博獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網獲悉北京三快在線科技有限公司申請的專利一種語音活動檢測方法、存儲介質及電子設備獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN115171735B 。
龍圖騰網通過國家知識產權局官網在2025-08-22發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202210771781.9,技術領域涉及:G10L25/78;該發明授權一種語音活動檢測方法、存儲介質及電子設備是由邢原博;張宇飛;黃辰設計研發完成,并于2022-06-30向國家知識產權局提交的專利申請。
本一種語音活動檢測方法、存儲介質及電子設備在說明書摘要公布了:本說明書公開了一種語音活動檢測方法、存儲介質及電子設備,本說明書實施例將待識別音頻的音頻特征輸入語音活動檢測模型,得到語音活動檢測模型輸出的識別結果,再根據待識別音頻對應的識別場景類型,確定分類參數,最后根據語音活動檢測模型輸出的識別結果以及分類參數,對待識別音頻進行最終的識別,從而只需部署一個通用的語音活動檢測模型即可,而不需要針對不同的識別場景分別部署相應的語音活動檢測模型,可有效降低模型部署和迭代升級的成本。
本發明授權一種語音活動檢測方法、存儲介質及電子設備在權利要求書中公布了:1.一種語音活動檢測方法,其特征在于,包括: 獲取待識別音頻; 從所述待識別音頻的各音頻幀中提取音頻特征; 將各音頻幀的音頻特征輸入預先訓練的語音活動檢測模型,得到所述語音活動檢測模型輸出的各音頻幀為語音段的概率; 根據所述待識別音頻對應的識別場景類型,確定分類參數; 根據所述語音活動檢測模型輸出的各音頻幀為語音段的概率以及所述分類參數,識別各音頻幀是否為語音段; 所述獲取待識別音頻,具體包括: 獲取流式輸入的待識別音頻;或者,獲取非流式輸入的待識別音頻; 所述將各音頻幀的音頻特征輸入預先訓練的語音活動檢測模型,具體包括: 當所述待識別音頻為流式輸入的音頻時,將所述待識別音頻中的各音頻幀的音頻特征以流式輸入的方式輸入預先訓練的語音活動檢測模型; 當所述待識別音頻為非流式輸入的音頻時,將所述待識別音頻中的各音頻幀的音頻特征以非流式輸入的方式輸入預先訓練的語音活動檢測模型; 所述獲取待識別音頻,還具體包括: 接收識別請求,并獲取所述識別請求對應的待識別音頻; 所述根據所述待識別音頻對應的識別場景類型,確定分類參數,具體包括: 根據所述識別請求,確定所述待識別音頻對應的識別場景類型; 根據所述待識別音頻對應的識別場景類型,確定所述識別場景類型對應的概率閾值、平滑處理參數; 所述根據所述語音活動檢測模型輸出的各音頻幀為語音段的概率以及所述分類參數,識別各音頻幀是否為語音段,具體包括: 針對每個音頻幀,根據所述語音活動檢測模型輸出的該音頻幀為語音段的概率以及預先確定的概率閾值,識別該音頻幀是否為語音段; 根據所述平滑處理參數以及所述待識別音頻中各音頻幀的識別結果,對各音頻幀的識別結果進行平滑處理。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人北京三快在線科技有限公司,其通訊地址為:100080 北京市海淀區北四環西路9號2106-030;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。