北京羽樂創新科技有限公司楊澤獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網獲悉北京羽樂創新科技有限公司申請的專利一種網頁商戶信息智能采集和解析的方法及系統獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN120086427B 。
龍圖騰網通過國家知識產權局官網在2025-08-29發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202510580124.X,技術領域涉及:G06F16/951;該發明授權一種網頁商戶信息智能采集和解析的方法及系統是由楊澤;李思萌設計研發完成,并于2025-05-07向國家知識產權局提交的專利申請。
本一種網頁商戶信息智能采集和解析的方法及系統在說明書摘要公布了:本發明公開了一種網頁商戶信息智能采集和解析的方法及系統,通過智能網頁抓取、智能字段識別、地址信息精確解析、智能商戶分組和自動頁面發現五個主要步驟實現商戶信息的自動化采集。本發明摒棄了傳統基于規則的提取方法,利用上下文語義分析和模式識別技術自動識別網頁中的商戶名稱、電話號碼和地址等信息,通過動態權重多維相似度計算方法實現字段的精準關聯分組,并利用自動頁面發現機制無需人工指定采集路徑即可持續發現和采集商戶信息。本發明突破了傳統方法需針對不同網站編寫特定規則、難以應對網頁結構變化、無法處理多商戶信息分組等技術瓶頸,適應各類網頁結構變化,大幅提高了商戶信息采集的自動化程度、準確性和效率。
本發明授權一種網頁商戶信息智能采集和解析的方法及系統在權利要求書中公布了:1.一種網頁商戶信息智能采集和解析的方法,其特征在于,包括: 根據商戶品牌名稱,對搜索引擎進行查詢訪問并解析搜索結果頁面中的鏈接,構建初始URL抓取隊列,采用瀏覽器自動化工具對所述初始URL抓取隊列中的鏈接進行網頁訪問,獲取網頁DOM結構數據流; 利用所述網頁DOM結構數據流,結合關鍵標識詞和文本段落的語義關聯,對網頁內容進行商戶名稱、電話號碼和地址的識別,生成候選字段集合; 對所述候選字段集合中的地址字段進行行政區劃識別和地址成分解析,輸出結構化地址數據; 針對所述候選字段集合,計算字段間的路徑相似度、視覺鄰近度和語義關聯度,通過非線性融合確定字段間關聯關系,生成結構化商戶信息; 當獲取新網頁的網頁DOM結構數據流,對所述新網頁的網頁DOM結構數據流中的鏈接進行文本內容和URL特征分析,識別包含商戶信息的目標鏈接,將所述目標鏈接加入所述初始URL抓取隊列,實現自動化信息采集; 其中,所述針對所述候選字段集合,計算字段間的路徑相似度、視覺鄰近度和語義關聯度,通過非線性融合確定字段間關聯關系,生成結構化商戶信息,包括: 基于所述候選字段集合,計算候選字段XPath路徑深度差異,生成路徑相似度特征; 基于所述候選字段集合,計算DOM元素坐標距離,生成視覺鄰近度特征; 基于所述候選字段集合,計算不同文本內容相關性,生成語義關聯度; 基于所述路徑相似度特征、所述視覺鄰近度特征和所述語義關聯度,執行徑向基函數融合,輸出字段間關聯關系。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人北京羽樂創新科技有限公司,其通訊地址為:102200 北京市昌平區中關村科技園區昌平園超前路5號4幢2層220B;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。