北京帝派智能科技有限公司易中華獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網獲悉北京帝派智能科技有限公司申請的專利多模態訓練數據構建方法、裝置及多模態大模型構建方法獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN119763556B 。
龍圖騰網通過國家知識產權局官網在2025-09-26發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202411992626.5,技術領域涉及:G10L15/06;該發明授權多模態訓練數據構建方法、裝置及多模態大模型構建方法是由易中華設計研發完成,并于2024-12-31向國家知識產權局提交的專利申請。
本多模態訓練數據構建方法、裝置及多模態大模型構建方法在說明書摘要公布了:本申請提供一種多模態訓練數據構建方法、裝置及多模態大模型構建方法,該多模態訓練數據構建方法包括:獲取多個語音序列及每一語音序列對應的文本序列;其中,語音序列是由對語音數據進行特征提取得到的特征基元構成的,或者,語音序列是由對語音數據進行分割得到的音頻基元構成的,文本序列是由對語音數據對應的文本數據進行分割得到的文本基元構成的;針對每一語音序列,按順序將其對應的各個文本基元,插入其包括的特征基元或音頻基元之間,得到多模態訓練數據;集合所有多模態訓練數據,形成訓練數據集。這樣,可以建立起短時語音與文本數據之間的映射關系,從而增強模型對跨模態信息的理解和處理能力,進而提升實時語音識別的效果。
本發明授權多模態訓練數據構建方法、裝置及多模態大模型構建方法在權利要求書中公布了:1.一種多模態訓練數據構建方法,其特征在于,應用于實時語音識別的多模態大模型; 所述方法包括: 獲取多個語音序列及每一所述語音序列對應的文本序列;其中,所述語音序列是由對語音數據進行特征提取得到的特征基元構成的,或者,所述語音序列是由對所述語音數據進行分割得到的音頻基元構成的,所述文本序列是由對所述語音數據對應的文本數據進行分割得到的文本基元構成的,每個文本基元為所述文本數據中的一個字符、詞語或句子; 針對每一所述語音序列,按順序將其對應的各個所述文本基元,插入其包括的所述特征基元或所述音頻基元之間,得到多模態訓練數據;所述多模態訓練數據包括訓練輸入樣本及訓練輸出樣本; 所述針對每一所述語音序列,按順序將其對應的各個所述文本基元,插入其包括的所述特征基元或所述音頻基元之間,得到多模態訓練數據,包括: 在所述語音序列的起始位置添加開始標記,并將各個所述文本基元插入其對應的插入位置之后,形成所述訓練輸入樣本;所述插入位置是文本基元的在所述語音序列中對應的發音結束位置之后的D幀,D≥0; 將所述訓練輸入樣本偏移一幀,形成所述訓練輸出樣本,以使所述訓練輸出樣本的第二幀與所述訓練輸入樣本的第一幀對齊; 集合所有所述多模態訓練數據,形成訓練數據集;經所述訓練數據集訓練的所述多模態大模型在預測時,基于當前幀以及當前幀之前的各幀數據進行預測。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人北京帝派智能科技有限公司,其通訊地址為:100080 北京市海淀區海淀大街34號8層820室;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。