中移(蘇州)軟件技術有限公司;中國移動通信集團有限公司王冶獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網獲悉中移(蘇州)軟件技術有限公司;中國移動通信集團有限公司申請的專利一種確定文本相似度的方法、裝置、設備及存儲介質獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN115374775B 。
龍圖騰網通過國家知識產權局官網在2025-09-05發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202110548240.5,技術領域涉及:G06F18/22;該發明授權一種確定文本相似度的方法、裝置、設備及存儲介質是由王冶設計研發完成,并于2021-05-19向國家知識產權局提交的專利申請。
本一種確定文本相似度的方法、裝置、設備及存儲介質在說明書摘要公布了:本申請實施例公開了一種確定文本相似度的方法、裝置、設備及存儲介質,該方法包括:對文本進行關鍵詞項提取和詞向量轉換,得到文本的詞向量集合;對文本的詞向量集合進行權重分層,得到至少兩層權重系數;根據文本的至少兩層權重系數對詞向量集合進行加權平均,得到文本向量;根據所述文本數據集中第一文本的文本向量和第二文本的文本向量確定所述第一文本和所述第二文本的相似度。如此,將關鍵詞項的詞向量進行分層,按一定規則分配權重,使得重要的關鍵詞項所在的層占據更大權重,反之權重越小,這樣對詞向量集合進行加權平均運算后得到的文本向量更準確,從而利用文本向量在計算文本相似度時能提高文本相似度的精確度。
本發明授權一種確定文本相似度的方法、裝置、設備及存儲介質在權利要求書中公布了:1.一種確定文本相似度的方法,其特征在于,所述方法包括: 獲取文本數據集;其中,所述文本數據集中包括至少兩個文本; 對所述文本數據集中的文本進行關鍵詞項提取和詞向量轉換,得到文本的詞向量集合; 對所述文本的詞向量集合進行權重分層處理,得到文本的至少兩層權重系數; 根據文本的所述至少兩層權重系數對所述詞向量集合進行加權平均運算,得到文本的文本向量; 根據所述文本數據集中第一文本的文本向量和第二文本的文本向量確定所述第一文本和所述第二文本的相似度; 其中,所述對所述文本的詞向量集合進行權重分層處理,得到文本的至少兩層權重系數,包括: 對所述文本數據集中每個文本的每個詞向量的第一權重值進行歸一化處理,得到每個詞向量的第二權重值; 利用所述文本數據集中每個文本的每個詞向量的第二權重值,構建文本-詞項權重矩陣; 將每個文本的詞向量集合進行N等分,得到N層詞向量子集合;其中,N取大于等于2的整數; 根據所述文本-詞項權重矩陣和預設的權重分層策略,得到每層詞向量子集合的權重系數;其中,所述權重分層策略包括:根據所述文本數據集中每個文本的第k個詞向量子集合中所有詞向量對應的第二權重值得到第k個詞向量子集合的權重系數;其中,k取大于等于1且小于等于N的整數。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人中移(蘇州)軟件技術有限公司;中國移動通信集團有限公司,其通訊地址為:215163 江蘇省蘇州市高新區昆侖山路58號1幢中移軟件園;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。