深圳壹賬通智能科技有限公司鄒倩霞獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網獲悉深圳壹賬通智能科技有限公司申請的專利基于長文本的聚類方法與系統獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN114969330B 。
龍圖騰網通過國家知識產權局官網在2025-09-19發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202210505457.2,技術領域涉及:G06F16/35;該發明授權基于長文本的聚類方法與系統是由鄒倩霞設計研發完成,并于2022-05-10向國家知識產權局提交的專利申請。
本基于長文本的聚類方法與系統在說明書摘要公布了:本發明公開了一種基于長文本的聚類方法,包括:獲取待處理的長文本數據;分別對所述長文本數據進行分詞處理與分字處理,得到多個關鍵詞以及多個關鍵字;向量化所述多個關鍵詞以及與多個關鍵字,得到每個關鍵詞對應的目標詞向量以及與每個關鍵字的目標字向量;對得到的多個目標詞向量以及多個目標字向量進行拼接,得到拼接向量;對所述拼接向量進行特征選擇,得到目標隱層向量;對所述目標隱層向量進行特征提取,得到所述長文本數據的文本向量;基于預設的聚類算法對所述文本向量進行聚類處理,得到所述長文本數據對應的聚類結果。本發明用以解決現有技術中聚類不準確的問題。
本發明授權基于長文本的聚類方法與系統在權利要求書中公布了:1.一種基于長文本的聚類方法,其特征在于,包括: 獲取待處理的長文本數據; 分別對所述長文本數據進行分詞處理與分字處理,得到多個關鍵詞以及多個關鍵字; 向量化所述多個關鍵詞以及與多個關鍵字,得到每個關鍵詞對應的目標詞向量以及與每個關鍵字的目標字向量; 對得到的多個目標詞向量以及多個目標字向量進行拼接,得到拼接向量; 在開始時刻按順序輸入所述拼接向量到預設的LSTM模型中,其中,所述LSTM模型用于對所述拼接向量的第一向量進行壓縮,并將壓縮后得到的第一向量傳入下一時刻; 下一時刻所述LSTM模型的循環神經網絡接收上一時刻的壓縮后的第一向量和所述拼接向量的第二向量,將二者壓縮成新的向量傳入下一時刻; 在壓縮完所述拼接向量中的所有向量后得到每一時刻的隱層向量,將每一時刻的隱層向量進行拼接,得到目標隱層向量; 通過預設的編碼器對所述目標隱層向量進行特征編碼,得到編碼向量;所述預設的編碼器基于自注意力層為所述目標隱層向量中的預設信息賦予新的權重; 通過所述預設的解碼器中的解碼自注意力層基于權重對所述編碼向量進行解碼; 將解碼后的編碼向量重新組合,得到文本向量; 基于預設的聚類算法對所述文本向量進行聚類處理,得到所述長文本數據對應的聚類結果。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人深圳壹賬通智能科技有限公司,其通訊地址為:518000 廣東省深圳市前海深港合作區前灣一路1號A棟201室(入駐深圳市前海商務秘書有限公司);或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。