河北大學崔振超獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網獲悉河北大學申請的專利基于改進Transformer模型的手語視頻生成方法獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN115393948B 。
龍圖騰網通過國家知識產權局官網在2025-09-19發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202210821012.5,技術領域涉及:G06V40/20;該發明授權基于改進Transformer模型的手語視頻生成方法是由崔振超;陳子昂;齊靜設計研發完成,并于2022-07-13向國家知識產權局提交的專利申請。
本基于改進Transformer模型的手語視頻生成方法在說明書摘要公布了:本發明提供了一種基于改進Transformer模型的手語視頻生成方法以及裝置。本發明中方法首先提取手語視頻中的骨骼姿態序列,去除冗余信息以減少計算量。另外,考慮到時空信息對生成手語視頻精度的重要性,設計富語義嵌入模塊將位置和速度信息編碼到相同的高維空間中作為模型的輸入,提高關節運動的協調性,以提高特征表述的精確性。最后,構建呈金字塔結構的編碼器?解碼器模型。編碼器接受一個口語句子作為輸入,并將序列中的信息編碼為中間表示。然后解碼器以半自回歸的方式解碼中間表示為目標手語姿態序列。通過本發明能夠有效提高語義信息利用率和動作整體表達能力,由此明顯提升手語視頻生成的準確度和速度。
本發明授權基于改進Transformer模型的手語視頻生成方法在權利要求書中公布了:1.一種基于改進Transformer模型的手語視頻生成方法,其特征是,包括以下步驟: a、采用openpose提取目標手語視頻中的目標手語姿態的二維骨骼序列,截取上身的8個關節點以及左右手的各21個關節點,進行模型訓練;將表示手語姿態的二維數據提升為三維數據,通過觀察三維數據的分布,對異常和錯誤關節處的骨架信息進行數據清洗后,形成目標手語姿態序列; b、把口語句子和目標手語姿態序列輸入到編碼器-解碼器模型中,對編碼器-解碼器模型進行訓練,以建立口語句子與目標手語姿態序列二者之間的映射關系;映射關系建立后即構成訓練好的手語視頻生成網絡模型; c、利用訓練好的手語視頻生成網絡模型對輸入的口語句子進行處理,其輸出即為每一時刻所對應手語的概率分布,最終實現端到端地將口語句子翻譯成以人體骨骼與圖形格式表達的個性化的手語視頻; 編碼器-解碼器模型包括帶手語長度預測的文本特征編碼器以及結合富語義嵌入層的金字塔半自回歸解碼器; 步驟b中,編碼器-解碼器模型的訓練方式是,將口語句子輸入到文本特征編碼器中學習語義特征并傳遞給金字塔半自回歸解碼器,在編碼器的最后一層添加卷積神經網絡和softmax分類器,進行手語長度預測;把目標手語姿態序列輸入到金字塔半自回歸解碼器中,用以提取時空特征,通過引入Relaxedmasked-attention機制,以半自回歸方式解碼目標手語序列;經模型訓練,建立口語句子與手語動作間的映射關系; 步驟b中,時空特征的提取是將時間維度與空間位移上的手語信息編碼到相同的空間中作為模型的輸入;金字塔半自回歸解碼器對目標手語姿態序列進行分組,各組之間保持級聯特性,每個組內并行生成目標幀; 富語義嵌入層使用兩層全連接網絡FC和ReLU激活函數將位置和速度信息映射到同一向量空間。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人河北大學,其通訊地址為:071002 河北省保定市五四東路180號;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。