云南電網有限責任公司信息中心唐力獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網獲悉云南電網有限責任公司信息中心申請的專利一種基于相似聚類和數據探索的數據標準生成方法、存儲介質及系統獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN115238071B 。
龍圖騰網通過國家知識產權局官網在2025-09-12發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202210854208.4,技術領域涉及:G06F16/355;該發明授權一種基于相似聚類和數據探索的數據標準生成方法、存儲介質及系統是由唐力;施勇;馬文;張建文;徐敏設計研發完成,并于2022-07-14向國家知識產權局提交的專利申請。
本一種基于相似聚類和數據探索的數據標準生成方法、存儲介質及系統在說明書摘要公布了:本發明提供一種基于相似聚類和數據探索的數據標準生成方法、存儲介質及系統,該方法包括如下步驟:從多源異構數據庫中采集提取數據對象相同的多個待標準化元數據;對每個待標準化元數據的數據信息進行標準化預處理得到多個元數據特征信息;根據元數據特征信息獲取各個待標準化元數據的數據類型,對數據類型相同的待標準化元數據進行相似聚類,生成多個元數據相似簇;剔除元數據數量小于第一預設值且各個元數據出現次數都小于第二預設值的元數據相似簇,據此生成可選數據標準;對剔除后保留下來的每個元數據相似簇,根據其數據類型采用預設的數據探索語句對元數據相似簇中的字段元數據進行探索生成相應的數據標準。
本發明授權一種基于相似聚類和數據探索的數據標準生成方法、存儲介質及系統在權利要求書中公布了:1.一種基于相似聚類和數據探索的數據標準生成方法,其特征是,包括如下步驟: A.從多源異構數據庫中采集多個結構類型不同的多源異構元數據,從中提取數據對象相同的多個待標準化元數據; B.對每個待標準化元數據,獲取其多條數據信息,分別對各條數據信息進行標準化預處理得到多個元數據特征信息; C.根據各個待標準化元數據各自的多個元數據特征信息,獲取各個待標準化元數據的數據類型,對數據類型相同的待標準化元數據進行相似聚類,生成多個元數據相似簇; D.根據各個元數據相似簇當中的元數據數量和各個元數據在應用系統中出現的次數,剔除元數據數量小于第一預設值且各個元數據出現次數都小于第二預設值的元數據相似簇; E.獲取剔除后保留下來的元數據相似簇的數據類型,據此生成可選數據標準; F.對剔除后保留下來的每個元數據相似簇,根據其數據類型采用預設的數據探索語句對可選數據標準進行探索得到數據特征,根據所述數據特征生成相應的數據標準; 所述步驟B中,所述待標準化元數據的數據類型包括字符類、數值類和日期類;所述步驟E中,根據字符類數據類型生成可選的文本類標準和編碼類標準,根據數值類數據類型生成可選的編碼類標準和數值類標準,根據日期類數據類型生成可選的日期類標準;所述步驟F中,根據字符類數據類型所采用的數據探索語句包括值分組統計和長度分組統計,根據數值類數據類型所采用的數據探索語句包括小數位判斷、值分組統計和四分位計算值域范圍,根據日期類數據類型所采用的數據探索語句包括采用日期類正則表達式識別日期格式。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人云南電網有限責任公司信息中心,其通訊地址為:650214 云南省昆明市官渡區云大西路105號云電科技園;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。