中移動信息技術有限公司;中國移動通信集團有限公司陳國獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網獲悉中移動信息技術有限公司;中國移動通信集團有限公司申請的專利文本查重方法、裝置、設備、存儲介質及計算機程序產品獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN119005162B 。
龍圖騰網通過國家知識產權局官網在2025-09-09發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202410875350.6,技術領域涉及:G06F40/194;該發明授權文本查重方法、裝置、設備、存儲介質及計算機程序產品是由陳國;張春;宋小璇;夏倩倩設計研發完成,并于2024-07-01向國家知識產權局提交的專利申請。
本文本查重方法、裝置、設備、存儲介質及計算機程序產品在說明書摘要公布了:本申請公開了一種文本查重方法、裝置、設備、存儲介質及計算機程序產品,涉及文本處理技術領域,公開了文本查重方法,包括:獲取待查重文本,并構建待查重文本對應的待查重文本矩陣;將待查重文本矩陣輸入預設的詞向量轉化神經網絡,得到待查重文本向量;獲取各個對比文本的對比文本向量;確定待查重文本向量與各個對比文本向量之間的文本向量相似度,并根據文本向量相似度確定待查重文本的查重結果。本申請中詞向量轉化神經網絡在訓練過程中可以學習到同一語義信息的不同語義表達方式,從而在文本向量中引入了語義信息,可以實現基于語義的文本查重,提高文本查重的準確性。
本發明授權文本查重方法、裝置、設備、存儲介質及計算機程序產品在權利要求書中公布了:1.一種文本查重方法,其特征在于,所述的方法包括: 獲取待查重文本,并構建所述待查重文本對應的待查重文本矩陣; 將所述待查重文本矩陣輸入預設的詞向量轉化神經網絡,得到待查重文本向量,其中,所述詞向量轉化神經網絡通過以訓練文本對應的第一文本矩陣為輸入數據,以第一文本向量為標簽訓練得到,所述第一文本向量為對特殊文本矩陣降維得到,所述特殊文本矩陣為基于文獻文本對所述第一文本矩陣進行重構得到,所述文獻文本與所述訓練文本的語義信息相同; 獲取各個對比文本的對比文本向量,其中,所述對比文本向量為將所述對比文本輸入所述詞向量轉化神經網絡得到; 確定所述待查重文本向量與各個所述對比文本向量之間的文本向量相似度,并根據所述文本向量相似度確定所述待查重文本的查重結果; 其中,所述方法還包括: 按照預設文本劃分規則將所述訓練文本劃分為多個第一句子字符串,并按照所述預設文本劃分規則將所述文獻文本劃分為多個第二句子字符串; 構建各個所述第一句子字符串各自對應的第一文本矩陣,并將各個所述第一文本矩陣分別分解為第一字典矩陣和第一稀疏矩陣,以及,構建各個所述第二句子字符串各自對應的第二文本矩陣,并將各個所述第二文本矩陣分別分解為第二字典矩陣和第二稀疏矩陣; 對于各個所述第一稀疏矩陣中任一目標稀疏矩陣,通過各個所述第二稀疏矩陣對所述目標稀疏矩陣進行重構,得到特征稀疏矩陣; 使用所述目標稀疏矩陣對應的第一字典矩陣和所述特征稀疏矩陣構建得到特殊文本矩陣,對所述特殊文本矩陣進行降維處理得到降維文本向量; 以所述目標稀疏矩陣對應的第一文本矩陣為輸入數據,以所述降維文本向量為訓練標簽,對待訓練的詞向量轉化神經網絡進行訓練,得到預設的詞向量轉化神經網絡。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人中移動信息技術有限公司;中國移動通信集團有限公司,其通訊地址為:102200 北京市昌平區未來科學城英才北三街16號院16號樓1006室;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。