浙江邦盛科技股份有限公司;杭州邦??萍加邢薰纠瞵摣@國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網獲悉浙江邦盛科技股份有限公司;杭州邦睿科技有限公司申請的專利一種基于自監督表示學習的企業單位地址匹配方法及裝置獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN116303881B 。
龍圖騰網通過國家知識產權局官網在2025-09-12發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202211600260.3,技術領域涉及:G06F16/334;該發明授權一種基于自監督表示學習的企業單位地址匹配方法及裝置是由李瑩;金路;汪陳笑;陳盼盼;鄧靜設計研發完成,并于2022-12-13向國家知識產權局提交的專利申請。
本一種基于自監督表示學習的企業單位地址匹配方法及裝置在說明書摘要公布了:本發明公開了一種基于自監督表示學習的企業單位地址匹配方法及裝置,該方法首先根據具體應用場景規則制定正負樣本對,同時通過無監督和有監督結合的這兩種方式進行深度學習模型的訓練學習。通過兩種訓練方式的結合,可以在少量標注樣本的情況下,學習到特定場景下更具有區分度的語義表征,實現對企業單位地址的精準匹配;本發明方法主要分為三個部分:正負訓練樣本對的規則制定、無監督和有監督結合的模型訓練方式、基于自監督表示學習對單位地址的匹配。本發明方法可在少量標注樣本的情況下,學習特定場景下更具有區分度的語義表征,并且實現單位地址的精準匹配,同時在評價指標上優于近幾年最先進的模型。
本發明授權一種基于自監督表示學習的企業單位地址匹配方法及裝置在權利要求書中公布了:1.一種基于自監督表示學習的企業單位地址匹配方法,其特征在于,該方法包括以下步驟: (1)獲取單位地址匹配場景下的地址,將地址數據標注成地址token序列的方式對其進行構造; (2)初始化正樣本集合和負樣本集合,在地址token長度的范圍內初始化一個整數,遍歷地址token序列,隨機選取個位置對token進行修改,得到正負地址token樣本加入到對應的集合中,將所有的地址串和對應的標簽拼接,得到正樣本訓練集和負樣本訓練集; (3)構建文本匹配模型,該模型將輸入的文本進行編碼,獲取到經過編碼的字向量表征后,采用注意力模塊用代表著句向量的最后時間步的隱向量和字向量進行注意力操作,得到最終加權的句向量; (4)基于正樣本訓練集和負樣本訓練集對文本匹配模型通過有監督的學習方式進行訓練;然后再通過無監督的方式對文本匹配模型進行訓練,反向傳播優化自監督表示學習的損失函數,得到訓練后的文本匹配模型; 所述無監督的學習方式利用模型中的Dropoutmask,對每一個句子進行兩次前向傳播,得到兩個不同的embeddings向量,將同一個句子得到的向量對作為正樣本對,對于每一個向量,選取其他句子產生的embeddings向量作為負樣本,以此來訓練文本匹配模型; 自監督表示學習的損失函數L定義如下: 其中和是平衡權重,目的是希望增加有監督表示學習樣本部分的損失權重,讓其在表示學習中起到主導作用;為有監督過程的對比學習損失函數,為無監督過程的對比學習損失函數; (5)基于訓練好的文本匹配模型,直接將需要匹配的文本對,依次輸入到文本匹配模型中獲取文本的特征表達,采用相似度算法來計算文本匹配模型輸出的文本特征向量的相似度,將計算出的相似度和相似度閾值比較,得到企業單位地址匹配。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人浙江邦盛科技股份有限公司;杭州邦??萍加邢薰?/a>,其通訊地址為:310012 浙江省杭州市西湖區西斗門路3號天堂軟件園D幢17層ABCD座;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。