北京中科智加科技有限公司陳瑋獲國家專利權(quán)
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監(jiān)控用IP管家,真方便!
龍圖騰網(wǎng)獲悉北京中科智加科技有限公司申請的專利一種文本順滑的語音識別方法、系統(tǒng)及存儲介質(zhì)獲國家發(fā)明授權(quán)專利權(quán),本發(fā)明授權(quán)專利權(quán)由國家知識產(chǎn)權(quán)局授予,授權(quán)公告號為:CN114708868B 。
龍圖騰網(wǎng)通過國家知識產(chǎn)權(quán)局官網(wǎng)在2025-09-19發(fā)布的發(fā)明授權(quán)授權(quán)公告中獲悉:該發(fā)明授權(quán)的專利申請?zhí)?專利號為:202210262971.8,技術(shù)領(lǐng)域涉及:G10L15/26;該發(fā)明授權(quán)一種文本順滑的語音識別方法、系統(tǒng)及存儲介質(zhì)是由陳瑋;馮少輝;張建業(yè)設(shè)計研發(fā)完成,并于2022-03-17向國家知識產(chǎn)權(quán)局提交的專利申請。
本一種文本順滑的語音識別方法、系統(tǒng)及存儲介質(zhì)在說明書摘要公布了:本發(fā)明涉及一種文本順滑的語音識別方法、系統(tǒng)及存儲介質(zhì),屬于語音識別技術(shù)領(lǐng)域;解決了語音識別后輸出的口語轉(zhuǎn)寫文本閱讀性不強和忠誠度不高的問題;本發(fā)明的文本順滑的語音識別方法包括:獲取待識別語音;將待識別語音轉(zhuǎn)換為待順滑文本;將轉(zhuǎn)換得到的待順滑文本利用文本順滑模型得到識別后的順滑文本;其中,文本順滑模型用于輸出當前不順滑文本的不順滑有序標簽以及當前不順滑文本對應(yīng)的順滑文本;不順滑有序標簽通過不順滑標簽預(yù)測任務(wù)采用CRF方法預(yù)測得到;順滑文本通過順滑文本生成任務(wù)采用集束搜索方法搜索得到;本發(fā)明的語音識別方法解決了現(xiàn)有語音識別技術(shù)中識別結(jié)果不夠準確,可讀性不強,難以滿足復(fù)雜場景的需求的問題。
本發(fā)明授權(quán)一種文本順滑的語音識別方法、系統(tǒng)及存儲介質(zhì)在權(quán)利要求書中公布了:1.一種文本順滑的語音識別方法,其特征在于,包括以下步驟: 獲取待識別語音; 將所述待識別語音轉(zhuǎn)換為待順滑文本; 將轉(zhuǎn)換得到的所述待順滑文本利用文本順滑模型得到識別后的順滑文本;其中,所述文本順滑模型用于輸出當前不順滑文本的不順滑有序標簽以及當前所述不順滑文本對應(yīng)的順滑文本;所述不順滑有序標簽通過不順滑標簽預(yù)測任務(wù)采用CRF方法預(yù)測得到;所述順滑文本通過順滑文本生成任務(wù)采用集束搜索方法搜索得到; 所述文本順滑模型使用T5-base的預(yù)訓(xùn)練模型作為初始模型進行模型訓(xùn)練得到,包括輸入層、編碼器-解碼器層和輸出層;所述文本順滑模型的原始文本詞表使用T5-base開源預(yù)訓(xùn)練模型的詞表,并在該詞表最后追加特殊詞rm作為目標文本的詞表,所述特殊詞rm用于填充目標序列中不順滑的空缺位;所述輸入層使用E′V+1×D替代EV×D表示詞嵌入特征,其中V、D分別為不順滑文本的詞表大小和詞嵌入的特征維度; 所述模型訓(xùn)練包括:通過構(gòu)造包含偽標簽的不順滑語料對和構(gòu)造不包含標簽的擴充語料對樣本進行擴充,得到擴充后的訓(xùn)練樣本集合;所述構(gòu)造包含偽標簽的不順滑語料對,包括:構(gòu)造只包含“Filter”類別的語料對、構(gòu)造只包含“Restart”類別的語料對和構(gòu)造同時包含“Filter”和“Restart”類別的語料對;構(gòu)造包含偽標簽的不順滑語料對的方法還包括:根據(jù)SWBD數(shù)據(jù)集,統(tǒng)計口語語氣詞詞頻表,選取概率大于0.7的語氣詞,隨機插入原語句中某個分詞后的位置;利用訓(xùn)練樣本中的翻譯語料,將原始語句分詞,隨機選取分詞后的詞組進行重復(fù),插入選擇重復(fù)的詞后面; 利用所述訓(xùn)練樣本集合對所述初始模型進行訓(xùn)練,并使用損失函數(shù)進行梯度更新,得到所述文本順滑模型;所述模型訓(xùn)練過程中,引入Coverage機制,包括:所述解碼器在注意力計算過程中,將當前時間步之前的注意力分數(shù)求和,得到覆蓋特征向量ct;將ct作為計算注意力的輸入;所述解碼器采用下述公式計算帶覆蓋機制的注意力分布: 其中,v、Wh、Ws、wc、b為可學(xué)習(xí)的參數(shù);為覆蓋特征向量,hi為編碼器隱狀態(tài),st為解碼器狀態(tài); 所述模型訓(xùn)練過程中,還引入Copy機制,將解碼器每步生成的單詞概率分布與拷貝原文的單詞概率看做一個混合模型,利用注意力得分作為拷貝單詞的概率。
如需購買、轉(zhuǎn)讓、實施、許可或投資類似專利技術(shù),可聯(lián)系本專利的申請人或?qū)@麢?quán)人北京中科智加科技有限公司,其通訊地址為:100083 北京市海淀區(qū)學(xué)院路51號10層1010、1011室;或者聯(lián)系龍圖騰網(wǎng)官方客服,聯(lián)系龍圖騰網(wǎng)可撥打電話0551-65771310或微信搜索“龍圖騰網(wǎng)”。
1、本報告根據(jù)公開、合法渠道獲得相關(guān)數(shù)據(jù)和信息,力求客觀、公正,但并不保證數(shù)據(jù)的最終完整性和準確性。
2、報告中的分析和結(jié)論僅反映本公司于發(fā)布本報告當日的職業(yè)理解,僅供參考使用,不能作為本公司承擔(dān)任何法律責(zé)任的依據(jù)或者憑證。