華中師范大學李書慜獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網獲悉華中師范大學申請的專利基于多模態注意力交互學習的唇語識別模型、方法及裝置獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN117173783B 。
龍圖騰網通過國家知識產權局官網在2025-08-22發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202311079636.5,技術領域涉及:G06V40/20;該發明授權基于多模態注意力交互學習的唇語識別模型、方法及裝置是由李書慜;汪凌云;唐余;鈕門;謝偉;孫昊設計研發完成,并于2023-08-25向國家知識產權局提交的專利申請。
本基于多模態注意力交互學習的唇語識別模型、方法及裝置在說明書摘要公布了:本發明提供基于多模態注意力交互學習的唇語識別模型、方法及裝置,能夠最小化損壞流對預測的影響,減少計算復雜度,提高確性和處理效率。模型包括:音頻前端處理模塊;視頻前端處理模塊;音頻損壞建模模塊,輸出為損壞建模后的音頻特征和音頻可靠性信息;視頻損壞建模模塊,輸出為損壞建模后的視頻特征和視頻可靠性信息;多模態壓縮擴展模塊,將音頻損壞建模模塊和視頻損壞建模模塊的輸出結果作為輸入,然后基于多頭注意力機制計算得到與各模態特征系列瓶頸向量的輸入特征,接著基于特征壓縮公式進行特征壓縮,得到相應模態瓶頸向量的輸出特征;再對瓶頸向量的輸出特征,按照特征擴展公式進行特征擴展整合,得到整合后的增強特征;預測識別模塊。
本發明授權基于多模態注意力交互學習的唇語識別模型、方法及裝置在權利要求書中公布了:1.基于多模態注意力交互學習的唇語識別模型,其特征在于,包括: 音頻前端處理模塊,對原始輸入音頻進行預處理并提取音頻特征,輸出提取的音頻特征以及預處理后的音頻; 視頻前端處理模塊,對原始輸入視頻進行預處理并提取視頻特征,輸出提取的視頻特征以及預處理后的視頻; 音頻損壞建模模塊,基于音頻前端處理模塊輸出的音頻特征以及預處理后的音頻,將模糊和加性噪聲插入預處理后的音頻中,并按照一定概率進行噪聲污染,模擬可能出現的音頻噪聲,用于模型學習訓練,得到音頻損壞模型,模型輸出為損壞建模后的音頻特征和音頻可靠性信息;該音頻可靠性信息能夠指示每個音頻幀的損壞程度; 視頻損壞建模模塊,基于視頻前端處理模塊輸出的視頻特征以及預處理后的視頻,將遮擋補丁和噪聲插入預處理后的視頻中,遮擋補丁以口唇為中心,模擬口型不清晰和口唇被遮擋的情況,用于模型學習訓練,得到視頻損壞模型,模型輸出為損壞建模后的視頻特征和視頻可靠性信息;該視頻可靠性信息指示每個視頻幀的損壞程度; 多模態壓縮擴展模塊,將音頻損壞建模模塊和視頻損壞建模模塊的輸出結果作為輸入數據,使用視覺特征作為查詢,使用音頻特征作為鍵和值,采用編碼器得到每一幀音頻特征和每一幀視頻特征的權重;然后基于多頭注意力機制,將各音頻特征及權重輸入到音頻單模態編碼器中進行特征壓縮自注意力計算得到與各音頻特征對應的系列音頻瓶頸向量的輸入特征,并將各視頻特征及其權重輸入到視頻單模態編碼器中進行特征壓縮得到與各視頻特征對應的系列視頻瓶頸向量的輸入特征;接著,基于特征壓縮公式,分別對音頻和視頻兩種模態的瓶頸向量的輸入特征進行特征壓縮,得到相應模態瓶頸向量的輸出特征;再對瓶頸向量的輸出特征,采用跨模態編碼器,按照特征擴展公式進行特征擴展整合,得到整合后的增強特征; 特征壓縮公式為: 特征擴展公式為: 式中,zi’表示瓶頸向量i的輸出特征,zi表示瓶頸向量i的輸入特征,xi’表示經過特征擴展整合后的第i個增強特征向量,xi表示相應模態損壞建模模塊輸出的第i個特征,wz表示用于特征壓縮和擴展的權重,Nv表示特征向量的數量;wq表示查詢權重;wk表示鍵權重; 預測識別模塊,將多模態壓縮擴展模塊輸出的結果xi’作為輸入數據,使用解碼器和屏蔽語言建模MLM進行詞匯預測,從而將xi’轉換為文本輸出。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人華中師范大學,其通訊地址為:430079 湖北省武漢市洪山區珞瑜路152號;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。