杭州電子科技大學曹九穩獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網獲悉杭州電子科技大學申請的專利一種基于圖像全局信息查詢解碼的文本識別方法獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN119540960B 。
龍圖騰網通過國家知識產權局官網在2025-09-26發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202411664385.1,技術領域涉及:G06V30/18;該發明授權一種基于圖像全局信息查詢解碼的文本識別方法是由曹九穩;徐婉澎;劉德康設計研發完成,并于2024-11-20向國家知識產權局提交的專利申請。
本一種基于圖像全局信息查詢解碼的文本識別方法在說明書摘要公布了:本發明公開了一種基于圖像全局信息查詢解碼的文本識別方法。該方法通過引入全局圖像信息作為解碼器解碼條件,在所有時間步中共享,并通過自注意力機制實現對共享的全局圖像信息的自適應變換,進而在交叉注意力層中檢索每個時間步對應的字符級特征;同時,提出了一系列的編碼約束組件,緩解了構建的文本識別器在多語言識別中面臨的全局圖像特征質量不一致問題。本發明在多語言文本圖像識別中文、英文和多場景文本圖像識別自然場景、網絡文本等任務中顯示出有效性和通用性,取得了顯著的非規則文本圖像識別性能提升。
本發明授權一種基于圖像全局信息查詢解碼的文本識別方法在權利要求書中公布了:1.一種基于圖像全局信息查詢解碼的文本識別方法,其特征在于,包括如下步驟: 步驟1:使用圖像特征提取器編碼輸入的文本圖像為對應的圖像特征其中H,W分別為文本圖像的高和寬,“3”為圖像通道數,d,h,w分別為圖像特征的通道數,高度和寬度;進一步對FI執行全局平均池化計算得到圖像全局特征對FI執行展平操作得到圖像視覺標記其中m=h×w; 步驟2:使用預設的三種特征編碼約束組件變換F為不同的輸出形式,通過額外的訓練目標使得F包含足夠的圖像全局信息;所述的預設的三種特征編碼約束組件包括面向語言知識約束的雙向圖像-文本全局對齊模塊,面向全局結構約束的長度預測器模塊和面向全局語義約束的無序字符預測器模塊; 步驟3:復制T份F得到全解碼時間步共享的圖像全局信息查詢解碼矩陣其中T為預設的最大解碼時間步;將Fq與Fv作為輸入,通過由多頭自注意力層、多頭交叉注意力層、前向傳播層構成的解碼模塊,得到表示矩陣其中表示第t個字符對應的特征表示; 步驟4:通過T個時間步共享的線性分類器映射Fr為分類輸出其中C表示預設的字符類別數量;進而根據Ocls和X對應的識別標簽計算交叉熵損失其中yt表示第t個時間步的期望字符類別; 步驟5:通過計算面向語言知識約束的圖像全局特征編碼約束損失面向全局結構約束的圖像全局特征編碼約束損失和面向全局語義約束的圖像全局特征編碼約束損失進一步優化全局圖像信息;再結合線性組合和得到最終損失,使用反向傳播更新非自回歸文本識別NASTR模型參數;所述的非自回歸文本識別NASTR模型,由步驟1至步驟4中所述的圖像特征提取器、特征編碼約束組件、解碼模塊和線性分類器組成; 步驟6:通過訓練好的非自回歸文本識別NASTR模型實現文本識別。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人杭州電子科技大學,其通訊地址為:310018 浙江省杭州市錢塘區白楊街道2號大街1158號;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。