上海致宇信息技術有限公司劉澤旭獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網獲悉上海致宇信息技術有限公司申請的專利一種基于深度學習的文檔圖像二值化方法及系統獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN120411982B 。
龍圖騰網通過國家知識產權局官網在2025-08-29發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202510907399.X,技術領域涉及:G06V30/162;該發明授權一種基于深度學習的文檔圖像二值化方法及系統是由劉澤旭;李華盛;楊詞慧;魏海波;鄒偉軍設計研發完成,并于2025-07-02向國家知識產權局提交的專利申請。
本一種基于深度學習的文檔圖像二值化方法及系統在說明書摘要公布了:本發明公開了一種基于深度學習的文檔圖像二值化方法及系統,所述方法包括:獲取二值化文檔圖像數據;構建由卷積切割提取模塊、Transformer編碼器模塊、Transformer解碼器模塊和級聯殘差上采樣模塊順序級聯構成的基于深度學習的文檔圖像二值化模型,通過將數據依次流經各模塊,實現特征提取、編碼、解碼與高分辨率二值化重建,以輸出二值化結果文檔圖像;將獲取的二值化文檔圖像數據輸入所述文檔圖像二值化模型,得到二值化結果文檔圖像。本發明提供的方法及系統,可針對不同場景下通過拍照或掃描獲取的文檔圖像進行高效處理,最終生成高精度的二值化文檔圖像。
本發明授權一種基于深度學習的文檔圖像二值化方法及系統在權利要求書中公布了:1.一種基于深度學習的文檔圖像二值化方法,其特征在于:所述方法包括: 獲取二值化文檔圖像數據; 對獲取的二值化文檔圖像數據進行標注生成標簽圖像;將所述二值化文檔圖像數據與對應標簽圖像組合,構建第一二值化文檔圖像數據集;對所述第一二值化文檔圖像數據集進行預處理,具體步驟包括: 步驟S11;設置迭代變量k,圖像迭代變量k的初始值設為1;設置圖像切割步長λ和隨機塊大小p,其中; 步驟S12;讀取第一二值化文檔圖像數據集中的第k張圖像和其對應的標簽圖像,令表示第一二值化文檔圖像數據集中的第k張圖像的高度,令表示第一二值化文檔圖像數據集中的第k張圖像的寬度; 步驟S13;設置縱向迭代變量h,縱向迭代變量h的初始值設置為1; 步驟S14;令表示縱向滑動切割的縱坐標,采用如下的公式計算: 步驟S15;縱向迭代變量h的值增加1,如果,則跳轉至步驟S15;否則,在第一二值化文檔圖像數據集中的第k張圖像和其對應的標簽圖像的下邊界向下擴充縱向填充區域M,得到寬為、高為的縱向填充圖像和其對應的縱向標簽填充圖像,縱向填充區域M的灰度值為255,其高度和寬度采用如下的公式計算: 步驟S16;設置橫向迭代變量w,橫向迭代變量w的初始值設置為1; 步驟S17;令表示橫向滑動切割的橫坐標,采用如下的公式計算: 步驟S18;橫向迭代變量w的值增加1,如果,則跳轉至步驟S18;否則,在縱向填充圖像和其對應的縱向標簽填充圖像的右邊界向右擴充橫向填充區域N,得到寬為、高為的填充圖像和其對應的標簽填充圖像,橫向填充區域N的灰度值為255,其高度和寬度采用如下的公式計算: 步驟S19;根據圖像切割步長λ對寬為、高為的填充圖像和其對應的標簽填充圖像進行切割,得到一組切割塊和一組其對應的標簽切割塊,切割塊和標簽切割塊分別包含張圖像,圖像大小為λ×λ; 步驟S110;根據隨機塊大小p對切割塊和其對應的標簽切割塊中的每一張圖像進行一次隨機塊提取,在大小為λ×λ的切割塊中隨機提取大小為p×p的提取塊,將所有提取到的提取塊及其標簽提取塊分別加入到提取塊和其對應的標簽提取塊; 步驟S111,將提取塊和標簽提取塊組合并加入到第二二值化文檔圖像數據集; 步驟S112,將迭代變量k的值增加1,如果k≤n,則跳轉至步驟S12; 構建由卷積切割提取模塊、Transformer編碼器模塊、Transformer解碼器模塊和級聯殘差上采樣模塊順序級聯構成的基于深度學習的文檔圖像二值化模型,通過將數據依次流經各模塊,實現特征提取、編碼、解碼與高分辨率二值化重建,以輸出二值化結果文檔圖像; 將待分割文檔圖像輸入所述文檔圖像二值化模型,得到二值化結果文檔圖像。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人上海致宇信息技術有限公司,其通訊地址為:200433 上海市楊浦區邯鄲路100號61號樓222室;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。