云南電網有限責任公司信息中心徐敏獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網獲悉云南電網有限責任公司信息中心申請的專利一種基于碎片化文檔的元數據識別方法、存儲介質及系統獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN115168589B 。
龍圖騰網通過國家知識產權局官網在2025-08-26發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202210920763.2,技術領域涉及:G06F16/353;該發明授權一種基于碎片化文檔的元數據識別方法、存儲介質及系統是由徐敏;張建文;李輝;唐力;張冠豫設計研發完成,并于2022-08-02向國家知識產權局提交的專利申請。
本一種基于碎片化文檔的元數據識別方法、存儲介質及系統在說明書摘要公布了:本發明提供一種基于碎片化文檔的元數據識別方法、存儲介質及系統,該方法包括如下步驟:對預設文檔進行讀取,得到包含預設文檔中的全部元素的元素體迭代器;對元素體迭代器進行元素遍歷,識別出其所包含的全部元素當中的標題和表格,采用標題棧的數據結構來構建標題與表格之間的映射關系;基于預設的元模型對構建了映射關系的標題和表格進行關系元數據識別;識別表和字段的關系元數據,據此生成元數據更新腳本以更新元數據信息,如此則更新后的元數據信息包含了標題和表格之間的關系,使之完善。
本發明授權一種基于碎片化文檔的元數據識別方法、存儲介質及系統在權利要求書中公布了:1.一種基于碎片化文檔的元數據識別方法,其特征是,包括如下步驟: A.對預設文檔進行讀取,得到包含所述預設文檔中的全部元素的元素體迭代器; B.對所述元素體迭代器進行元素遍歷,識別出其所包含的全部元素當中的標題和表格,采用標題棧的數據結構來構建標題與表格之間的映射關系,具體包括如下步驟B1~B8: ——B1.建立當前標題并將其大綱級別初始化為0; ——B2.初始化標題棧; ——B3.對所述元素體迭代器進行元素遍歷訪問,若訪問到元素則進入下述步驟B4,若沒有訪問到元素則結束; ——B4.判斷當前元素實例是否為表格,若當前元素實例是表格則構建當前標題與表格之間的映射關系,然后令當前標題入標題棧,再返回上述步驟B3,若當前元素實例不是表格則進入下述步驟B5; ——B5.判斷當前元素實例是否為標題,若當前元素實例是標題則進入下述步驟B6,若當前元素實例不是標題則返回上述步驟B3; ——B6.獲取當前元素的大綱級別,判斷當前元素的大綱級別是否大于當前標題的大綱級別,若當前元素的大綱級別大于當前標題的大綱級別,則進入下述步驟B7,若當前元素的大綱級別不大于當前標題的大綱級別,則進入下述步驟B8; ——B7.令當前標題入標題棧,并以當前元素作為新的當前標題,然后返回上述步驟B3; ——B8.令標題棧中的棧頂標題出棧,然后判斷當前元素的大綱級別是否大于新出棧標題的大綱級別,若當前元素的大綱級別大于新出棧標題的大綱級別,則令出棧后的標題重新入標題棧,再以當前元素作為新的當前標題,然后返回上述步驟B3,若當前元素的大綱級別不大于新出棧標題的大綱級別,則重復執行步驟B8; C.基于預設的元模型對構建了映射關系的標題和表格進行關系元數據識別,具體包括如下步驟C1~C6: ——C1.遍歷訪問標題棧中的各個標題,根據遍歷訪問到的標題獲取與其構建了映射關系的表格; ——C2.對獲取到的表格,提取其第一行表格內容作為標題列表; ——C3.對每一個標題列表,計算其與預設的字段元模型中的字段元數據之間的文本相似度,獲取文本相似度達到預設程度的標題列表通過數量,計算該標題列表通過數量占標題列表總數的比例從而生成表格置信度,若表格置信度大于預設閾值則將當前的表格判斷為元數據表格,若置信度不大于預設閾值則將當前的表格判斷為非元數據表格; ——C4.根據元數據表格的各個標題列表得到元數據表格的字段元數據; ——C5.獲取與所述元數據表格構建了映射關系的標題,采用正則表達式將該標題解析成表元數據; ——C6.將所述步驟C5中得到的表元數據和所述步驟C4中得到的字段元數據合并,生成表和字段的關系元數據; D.識別表和字段的關系元數據,據此生成元數據更新腳本以更新元數據信息。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人云南電網有限責任公司信息中心,其通訊地址為:650214 云南省昆明市官渡區云大西路105號云電科技園;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。