國家計算機網絡與信息安全管理中心周炎龍獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網獲悉國家計算機網絡與信息安全管理中心申請的專利基于數據不兼容和包外估計的反爬蟲數據估值方法及系統獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN120123814B 。
龍圖騰網通過國家知識產權局官網在2025-09-09發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202510176928.3,技術領域涉及:G06F18/24;該發明授權基于數據不兼容和包外估計的反爬蟲數據估值方法及系統是由周炎龍;焦煜祺;朱天;黃恬;戴光耀;張陽;于天鶴;郝劭辰;龍欣健;薛俊澤;吳瀟婷;楊亮;劉鑫設計研發完成,并于2025-02-18向國家知識產權局提交的專利申請。
本基于數據不兼容和包外估計的反爬蟲數據估值方法及系統在說明書摘要公布了:本發明提出了一種基于數據不兼容性和包外估計的反爬蟲數據估值方法及系統,涉及網絡安全技術領域。本發明的技術要點包括:利用噪聲數據和干凈數據之間存在的數據不兼容性,通過計算服務器訪問行為數據集的自擴展誤差將數據集劃分為有限且不相交的不兼容數據子集;利用不相交數據子集的兼容屬性,通過多輪投票從不兼容數據子集中識別干凈數據子集;基于干凈數據子集對訓練數據進行包外估計,進而進行反爬蟲數據估值。本發明能夠動態識別并移除訓練數據集中存在的噪聲數據,避免了噪聲數據對包外估計的不良影響,從而有效提升基于包外估計的反爬蟲數據估值方法對噪聲的魯棒性。本發明相比于傳統方法在處理反爬蟲數據估值時,表現出顯著的優越性。
本發明授權基于數據不兼容和包外估計的反爬蟲數據估值方法及系統在權利要求書中公布了:1.基于數據不兼容和包外估計的反爬蟲數據估值方法,其特征在于,包括: 獲取服務器訪問行為數據集,所述服務器訪問行為數據集包括爬蟲行為數據和正常訪問行為數據; 基于自擴展誤差將服務器訪問行為數據集劃分為互不相交的不兼容數據子集,包括:對服務器訪問行為數據集進行多輪循環采樣,在每一輪循環中縮小采樣大小,即下一輪采樣數據集Dm+1為本輪初始采樣數據集Dm減去本輪采樣獲得的不兼容數據子集D'm;直至采樣大小為0,服務器訪問行為數據集基于自擴展誤差被劃分為多個不兼容數據子集D1',...,DM';其中,對于每一輪循環采樣,采樣規則是: 式中,S表示本輪候選不兼容數據子集;Dm表示本輪初始數據集;St-1表示本輪第t-1次循環中采樣得到的數據子集;|St-1|表示數據子集St-1的數據量,β∈0,1表示一個固定大小的閾值,β|St-1|表示采樣大小;xj表示第j個行為數據,yj表示第j個行為數據的標簽;et-1xj,yj表示本輪第t-1次循環的自擴展誤差; 利用本輪第t次循環采樣得到的數據子集St訓練分類器ft,并利用分類器ft的損失函數更新自擴展誤差etxj,yj;所述自擴展誤差etxj,yj的更新公式為: etxj,yj=η·et-1xj,yj+1-η·lyj,ftxj 其中,ftxj表示分類器ft對第j個行為數據xj的預測標簽,η∈0,1表示軟更新的權重系數;l·,·表示分類器ft的損失函數;e0xj,yj=0; 每一輪循環采樣達到終止條件時停止本輪循環,得到本輪不兼容數據子集D'm; 基于不相交數據子集的兼容性定理,從不兼容數據子集中識別干凈數據子集; 基于干凈數據子集的包外估計對服務器訪問行為數據集中的訪問行為數據進行估值。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人國家計算機網絡與信息安全管理中心,其通訊地址為:100029 北京市朝陽區裕民路甲3號;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。