齊魯工業大學(山東省科學院)姜樹明獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網獲悉齊魯工業大學(山東省科學院)申請的專利一種政府采購合同PDF文檔快速、批量提取方法獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN116775740B 。
龍圖騰網通過國家知識產權局官網在2025-08-26發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202310781766.7,技術領域涉及:G06F16/25;該發明授權一種政府采購合同PDF文檔快速、批量提取方法是由姜樹明;李巖;張瑩瑩設計研發完成,并于2023-06-29向國家知識產權局提交的專利申請。
本一種政府采購合同PDF文檔快速、批量提取方法在說明書摘要公布了:本發明涉及一種政府采購合同PDF文檔快速、批量提取方法,屬于涉及PDF文檔信息提取領域。通過改進python開源庫中的pdfplumber,提高提取的效率,并且融入正則表達式匹配,實現一種全自動提取解析模型,以解決提取內容存在大量空格且提取的內容雜亂無序的問題,實現精準匹配,快速準確、批量提取政府采購合同PDF文檔的具體內容。
本發明授權一種政府采購合同PDF文檔快速、批量提取方法在權利要求書中公布了:1.一種政府采購合同PDF文檔快速、批量提取方法,其特征在于,所述提取方法的具體步驟為: 步驟S101,讀取政府采購合同PDF文檔,解析PDF文檔頁碼,解析首頁文本元素,獲取合同采購類型; 步驟S102,根據不同的合同采購類型解析第二頁合同PDF的文本元素,運用不同的正則表達式匹配出合同的具體內容; 步驟S103,若步驟S102提取的文本元素中沒有合同的詳細內容,則提取合同PDF文檔的表格信息,在表格信息中提取合同文檔的詳細內容; 步驟S104,將提取的合同PDF文檔的詳細內容存入到數據庫中; 所述提取方法中PDF文檔解析采用python工具包pdfplumber,來獲取政府采購合同PDF文檔的所有元素; 所述提取方法改進python工具包的pdfplumber,添加find_table()方法,當導入PDF文件后,對表格進行查找,通過檢索每頁線段數量的方式,精準定位到表格所在頁; 步驟S103對表格數據進行提取的方法為: 步驟S1031,通過對pdfplumber中增加的find_table()方法,精準定位到表格所在頁面; 步驟S1032,解析文件的信息,對鎖定的頁面進行解析,將解析出的線段、線框等信息保存起來; 步驟S1033,處理線段,解析出的線段通過filter_edges()方法將異常線段進行過濾,再通過merge_edges()方法進行合并線段; 步驟S1034,尋找交叉點,通過edges_to_intersections()方法對每條線段的端點坐標進行判斷,返回線與線的交點,并以字典的數據類型保存; 步驟S1035,尋找表格,首先通過intersections_to_cells()方法將交點進行從左到右,從上到下的排序,并找到將每個交點作為左上角頂點的最小單元格,生成當前表格所包含的單元格;再通過cells_to_tables()方法把連通的單元格進行排序組合,生成表格對象; 步驟S1036,提取表格文字,Table類中的extract()方法可以通過單元格位置和字符位置判斷出位于單元格內的文字,并依據單元格的排列方式將其中的文字按照行的形式提取成嵌套列表的形式,將表格中的采購物品詳細信息保存到數據庫中。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人齊魯工業大學(山東省科學院),其通訊地址為:250013 山東省濟南市西部新城大學科技園;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。