中國郵政儲蓄銀行股份有限公司孫悅獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網獲悉中國郵政儲蓄銀行股份有限公司申請的專利文本的聚類方法、文本的聚類裝置和文本聚類系統獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN116561319B 。
龍圖騰網通過國家知識產權局官網在2025-08-29發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202310666521.X,技術領域涉及:G06F16/35;該發明授權文本的聚類方法、文本的聚類裝置和文本聚類系統是由孫悅;李少波設計研發完成,并于2023-06-06向國家知識產權局提交的專利申請。
本文本的聚類方法、文本的聚類裝置和文本聚類系統在說明書摘要公布了:本申請提供了一種文本的聚類方法、文本的聚類裝置和文本聚類系統。該方案中,利用Word2vec模型與TF?IDF算法相結合的方式表示詞向量,增強不同文本之間的區分,既利用了詞向量的優點又加入了詞語對文本的影響,兩者結合表示的詞向量作為WMD算法的輸入,運用WMD算法作為文本聚類中相似度度量算法,提高文本聚類的準確性。
本發明授權文本的聚類方法、文本的聚類裝置和文本聚類系統在權利要求書中公布了:1.一種文本的聚類方法,其特征在于,包括: 獲取多個原始文本,對各所述原始文本進行預處理,得到多個目標文本,其中,所述預處理包括以下至少之一:分詞處理、去停用詞處理,所述目標文本中包括多個詞語; 采用Word2vec模型將各所述目標文本中的所述詞語轉換為詞向量,采用TF-IDF算法確定所述詞語的權重值,其中,所述權重值為所述詞語在所述目標文本中的重要程度; 根據第一目標文本中的多個第一詞向量以及各個所述第一詞向量對應的第一TF-IDF值,將所述第一目標文本進行TF-IDFWord2vec向量化表示,得到第一目標集合,其中,所述第一目標集合中包括多個第一目標詞向量和權重值,所述第一詞向量和所述第一TF-IDF值作為WMD算法的輸入;根據第二目標文本中的多個第二詞向量以及各個所述第二詞向量對應的第二TF-IDF值,將所述第二目標文本進行TF-IDFWord2vec向量化表示,得到第二目標集合,其中,所述第二目標集合中包括多個第二目標詞向量和權重值,所述第二詞向量和所述第二TF-IDF值作為所述WMD算法的輸入; 獲取語料庫,其中,所述語料庫中包括多個字典詞語;依次從所述語料庫中選取一個所述字典詞語,作為中心字典詞語;分別計算所述語料庫中非中心字典詞語與所述中心字典詞語之間的余弦距離A,其中,所述余弦距離A為所述語料庫中非中心字典詞語對應的詞向量與所述中心字典詞語對應的詞向量之間夾角的余弦值;將所述余弦距離A在目標范圍內的所述非中心字典詞語,存儲至所述中心字典詞語的不相關集合中,將所述余弦距離A不在所述目標范圍內的所述非中心字典詞語,存儲至所述中心字典詞語的相關集合中; 在所述第二目標集合中有部分所述第二目標詞向量在所述第一目標詞向量的所述相關集合中,有部分所述第二目標詞向量在所述第一目標詞向量的所述不相關集合中的情況下,計算在所述第一目標詞向量的所述相關集合中的所述第二目標詞向量的余弦距離B作為所述第二目標詞向量權重分配的轉移代價,使用TF-IDF值進行權重分配;計算在所述第一目標詞向量的所述不相關集合中的所述第二目標詞向量到所述第一目標詞向量的距離的第二平均值作為所述第二目標詞向量權重分配的轉移代價,使用TF-IDF值進行權重分配;計算第一數據和第二數據之和,得到所述第一目標文本和所述第二目標文本之間的WMD距離,所述第一數據為多個所述余弦距離B與所述第二目標詞向量權重乘積和的最小值,所述第二數據為所述第二平均值與所述第二目標詞向量權重乘積; 使用WMD算法計算所述第一目標文本和第二目標文本的相似度過程中,計算所述第一目標詞向量與所述第二目標詞向量之間的余弦距離作為轉移代價,使用TF-IDF值進行權重分配,使用轉移代價和分配權重的乘積和的最小值作為所述第一目標文本和所述第二目標文本的距離,所述距離為所述第一目標文本和所述第二目標文本的距離的相似度,并根據所述相似度對所述目標文本進行聚類。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人中國郵政儲蓄銀行股份有限公司,其通訊地址為:100032 北京市西城區金融大街3號;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。