京東科技控股股份有限公司付立獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網獲悉京東科技控股股份有限公司申請的專利語音識別訓練集的生成方法及裝置獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN115312032B 。
龍圖騰網通過國家知識產權局官網在2025-09-12發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202110514350.X,技術領域涉及:G10L15/04;該發明授權語音識別訓練集的生成方法及裝置是由付立設計研發完成,并于2021-05-08向國家知識產權局提交的專利申請。
本語音識別訓練集的生成方法及裝置在說明書摘要公布了:本申請公開了一種語音識別訓練集的生成方法及裝置。方法的一具體實施方式包括:獲取待處理音頻和待處理視頻,其中,待處理視頻中包括對應于待處理音頻的文本信息;識別待處理音頻,得到音頻文本;識別待處理視頻中的文本信息,得到視頻文本;基于音頻文本與視頻文本的一致性,以待處理音頻為語音樣本,以視頻文本為標簽,得到語音識別訓練集。本申請提供了一種語音識別訓練集的自動獲取方法,提高了構建語音識別訓練集的靈活性和效率。
本發明授權語音識別訓練集的生成方法及裝置在權利要求書中公布了:1.一種語音識別訓練集的生成方法,包括: 獲取待處理音頻和待處理視頻,其中,所述待處理視頻中包括對應于所述待處理音頻的文本信息; 識別所述待處理音頻,得到音頻文本; 識別所述待處理視頻中的文本信息,得到視頻文本; 基于所述音頻文本與所述視頻文本的一致性,以所述待處理音頻為語音樣本,以所述視頻文本為標簽,得到所述語音識別訓練集,包括: 對于所述待處理視頻中的每個視頻幀序列,執行如下操作: 對于該視頻幀序列中包括文本信息的每個視頻幀,確定該視頻幀對應的多個待拼接文本,將所述多個待拼接文本與該視頻幀中的至少一個視頻幀文本進行拼接,得到多個拼接后文本,并基于所述多個拼接后文本與目標音頻片段文本之間的編輯距離,從所述多個拼接后文本選取出預設數量個拼接后文本,作為該視頻幀的下一視頻幀對應的多個待拼接文本,直至得到并將最后一個視頻幀對應的多個待拼接文本確定為該視頻幀序列對應的多個視頻幀序列文本,其中,所述目標音頻片段文本為所述待處理音頻中對應于該視頻幀序列的音頻片段對應的音頻片段文本; 根據所述多個視頻幀序列文本中的每個視頻幀序列文本與所述目標音頻片段文本之間的編輯距離,確定目標視頻幀序列文本; 以及還包括: 以所述待處理音頻中的每個音頻片段為語音樣本,以該音頻片段對應的目標視頻幀序列文本為標簽,得到所述語音識別訓練集。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人京東科技控股股份有限公司,其通訊地址為:100176 北京市大興區經濟技術開發區科創十一街18號C座2層221室;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。