深圳愛莫科技有限公司楊恒獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網獲悉深圳愛莫科技有限公司申請的專利文檔內容識別的結構信息優化方法獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN120412002B 。
龍圖騰網通過國家知識產權局官網在2025-08-26發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202510918198.X,技術領域涉及:G06V30/414;該發明授權文檔內容識別的結構信息優化方法是由楊恒;龍濤;謝青芯設計研發完成,并于2025-07-03向國家知識產權局提交的專利申請。
本文檔內容識別的結構信息優化方法在說明書摘要公布了:本發明提供了文檔內容識別的結構信息優化方法,包括以下步驟:步驟一、獲取專賣許可證的圖片,基于深度學習模型提取圖片中所有文字區域的文本框及其坐標與內容。本發明通過K?Means空間聚類算法對文本框坐標動態聚類,配合列平移與滾動機制,解決了印刷設備誤差等導致的文字錯位問題,確保信息提取時字段與值的準確對應;借助PaddleOCR定制訓練提升文本檢測精度,結合Sentence?BERT構建語義匹配模型及語義連貫性校驗,解決了印刷缺失等導致的信息缺失問題,保障了信息管理及監管的準確性與效率;通過摒棄傳統固定位置方法,采用動態聚類與排序、語義+空間雙重匹配,適應不同版式和錯位場景,解決了現有技術難以處理印刷錯位的問題。
本發明授權文檔內容識別的結構信息優化方法在權利要求書中公布了:1.文檔內容識別的結構信息優化方法,其特征在于,包括以下步驟: 獲取專賣許可證的圖片,基于深度學習模型提取圖片中所有文字區域的文本框及其坐標與內容; 對提取的所有文本框進行處理,刪除屬于許可證名稱的文本框,并利用K-Means空間聚類算法,根據剩余文本框的坐標將其分配到左列和右列; 基于聚類后的每列文本框,根據其y值對文本框從上到下進行排序,獲得兩列有序排列的文本框及其文字內容; 在獲得的每列內部,對相鄰文本框的垂直距離進行判斷,若兩者y軸間距低于設定閾值,則將其文字內容合并為同一字段的連續部分; 基于Sentence-BERT,從現場采集的許可證圖片中提取字段對,構建語義匹配數據集,訓練獲得語義匹配模型; 將左右列作為字段名與值的配對組,計算字段名與候選值的語義相似度,選擇最高者為初始匹配; 若相似度超過閾值,以匹配行為錨點平移第二列,對齊匹配起點; 逐行匹配后續字段,若連續失敗則滾動第二列重新匹配,輸出成功匹配的字段對。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人深圳愛莫科技有限公司,其通訊地址為:518000 廣東省深圳市南山區西麗街道西麗社區打石一路深圳國際創新谷2棟A座2304;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。