平安科技(深圳)有限公司凌天東獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網獲悉平安科技(深圳)有限公司申請的專利基于語速調整的語音切分方法、裝置、計算機設備及介質獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN114783423B 。
龍圖騰網通過國家知識產權局官網在2025-08-26發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202210551746.6,技術領域涉及:G10L15/04;該發明授權基于語速調整的語音切分方法、裝置、計算機設備及介質是由凌天東;王健宗;程寧設計研發完成,并于2022-05-18向國家知識產權局提交的專利申請。
本基于語速調整的語音切分方法、裝置、計算機設備及介質在說明書摘要公布了:本申請實施例屬于人工智能技術領域,涉及一種基于語速調整的語音切分方法,包括對獲取的待處理語音數據進行分幀處理,得到語音幀;將語音幀輸入訓練完成的語音切分模型,基于語音切分模型的當前切分參數對當前時刻的待處理語音數據進行語音切分,得到當前語音片段;根據當前語音片段的語速調整當前切分參數,得到下一時刻切分參數;基于下一時刻切分參數,對下一時刻的待處理語音數據進行語音切分,直到待處理語音數據切分完成,輸出目標語音片段。本申請還提供一種基于語速調整的語音切分裝置、計算機設備及存儲介質。此外,本申請還涉及區塊鏈技術,待處理語音數據可存儲于區塊鏈中。本申請可以動態修改語音切分端點。
本發明授權基于語速調整的語音切分方法、裝置、計算機設備及介質在權利要求書中公布了:1.一種基于語速調整的語音切分方法,其特征在于,包括下述步驟: 獲取待處理語音數據,并對所述待處理語音數據進行分幀處理,得到語音幀; 將所述語音幀輸入訓練完成的語音切分模型,基于所述語音切分模型的當前切分參數對當前時刻的所述待處理語音數據進行語音切分,得到當前語音片段,所述語音切分模型至少包括特征提取層、識別切分層和輸出層; 根據所述當前語音片段的語速調整所述當前切分參數,得到下一時刻切分參數; 基于所述下一時刻切分參數,通過所述語音切分模型對下一時刻的所述待處理語音數據進行語音切分,直到所述待處理語音數據切分完成,輸出目標語音片段; 其中,所述基于所述語音切分模型的當前切分參數對當前時刻的所述待處理語音數據進行語音切分,得到當前語音片段的步驟包括: 通過所述特征提取層提取當前時刻所述待處理語音數據的語音幀的語音特征; 將所述語音特征輸出至所述識別切分層,基于所述當前切分參數和所述語音特征確定語音切分端點,根據所述語音切分端點生成待識別語音幀序列; 將所述待識別語音幀序列輸入所述輸出層,輸出當前語音片段; 其中,所述語音切分模型還包括參數調整層,所述根據所述當前語音片段的語速調整所述當前切分參數,得到下一時刻切分參數的步驟包括: 通過所述參數調整層計算所述當前語音片段對應的當前語速; 根據所述當前語速調整所述當前切分參數為下一時刻切分參數; 其中,所述當前切分參數為當前靜默時長參數,所述根據所述當前語速調整所述當前切分參數為下一時刻切分參數的步驟包括: 比較所述當前語速與預設語速,得到比較結果,所述預設語速為上一時刻語速或者語音切分模型訓練完成、根據靜默時長參數得到的語速; 若比較結果落入預設范圍內,將所述當前靜默時長參數作為下一時刻切分參數; 若比較結果不在預設范圍內,則根據所述當前語速調整所述當前靜默時長參數,得到下一時刻切分參數。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人平安科技(深圳)有限公司,其通訊地址為:518000 廣東省深圳市福田區福田街道福安社區益田路5033號平安金融中心23樓;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。