浙江大學劉興高獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監(jiān)控用IP管家,真方便!
龍圖騰網(wǎng)獲悉浙江大學申請的專利一種基于強編碼和中文分詞的中文文本分揀系統(tǒng)獲國家發(fā)明授權專利權,本發(fā)明授權專利權由國家知識產(chǎn)權局授予,授權公告號為:CN115391544B 。
龍圖騰網(wǎng)通過國家知識產(chǎn)權局官網(wǎng)在2025-09-05發(fā)布的發(fā)明授權授權公告中獲悉:該發(fā)明授權的專利申請?zhí)?專利號為:202211244693.X,技術領域涉及:G06F16/353;該發(fā)明授權一種基于強編碼和中文分詞的中文文本分揀系統(tǒng)是由劉興高;趙世強;張逸然;王文海;張志猛;張澤銀設計研發(fā)完成,并于2022-10-12向國家知識產(chǎn)權局提交的專利申請。
本一種基于強編碼和中文分詞的中文文本分揀系統(tǒng)在說明書摘要公布了:本發(fā)明公開了一種基于強編碼和中文分詞的中文文本分揀系統(tǒng),該系統(tǒng)基于強編碼模型和中文分詞數(shù)據(jù)實現(xiàn)中文文本分揀,首先獲取包含大量中文文本及對應標簽的數(shù)據(jù)庫,采用帶標簽的中文文本數(shù)據(jù)作為輸入,對中文文本進行分詞后再編碼成機器可識別格式,將該編碼后的句子輸入中文文本分揀模型進行模型訓練,得到訓練好的模型便可用于新獲取的中文文本自動分揀。本發(fā)明實現(xiàn)了自動化、高準確率的中文文本分揀,考慮了中文字詞的前后關系,克服了人工進行文本分揀效率低以及傳統(tǒng)方法準確率低的不足,可廣泛應用并有助于軍事情報分揀、新聞主題分類和電影評論分類等領域的智能化。
本發(fā)明授權一種基于強編碼和中文分詞的中文文本分揀系統(tǒng)在權利要求書中公布了:1.一種基于強編碼和中文分詞的中文文本分揀系統(tǒng),其特征在于:包含中文文本數(shù)據(jù)庫、預處理模塊、中文文本分揀建模模塊、中文文本自動分揀模塊、分揀結果輸出模塊; 其中,所述中文文本數(shù)據(jù)庫用以存放歷史的中文文本數(shù)據(jù)及新獲取的中文文本,同時該模塊實時更新新獲取的用于分揀的中文文本,完善數(shù)據(jù)庫內(nèi)容; 所述預處理模塊用以對中文文本數(shù)據(jù)進行處理,包括以下步驟: A對中文文本句子首先采用jieba分詞器將句子拆分為字和詞; B將這些中文的字和詞轉化數(shù)字形式,具體為:把所有字詞讀入一個列表,刪掉其中不符合現(xiàn)代文字結構的字詞,并統(tǒng)計每個出現(xiàn)的字詞的頻率,刪掉出現(xiàn)頻率2次的不常用字詞,最后,將列表中剩余的第i個字詞采用one-hot編碼得到wi=[0,0,...1,…0,0],其中除了第i個值為1,其余的值都為0,并通過下式得到每個字或詞對應的256維的一個表示向量xi xi=Wwi 其中,W為提前用數(shù)據(jù)庫中數(shù)據(jù)預訓練好的轉換矩陣;第i個字詞對應的位置pi也是一個256維的向量 最終的編碼值yi=xi+pi,其中編碼維數(shù)dmodel=256,c1,c2為位置調(diào)控系數(shù),值在0-1之間; 從數(shù)據(jù)庫中提取80%的數(shù)據(jù)作為訓練集,剩余數(shù)據(jù)作為驗證集,通過驗證集來查看模型的識別效果; 所述中文文本分揀建模模塊基于訓練集自動學習如何提取有效句子表示特征并進行分揀,具體為:將編碼后得到的訓練集中的中文文本和標簽輸入由6個transformer的encoder組成的模型中,訓練并更新模型參數(shù); 通過觀察模型在驗證集中的測試結果,來進一步修改selfattention中multi-head的個數(shù),從而對模型進行優(yōu)化;最終得到模型C; 所述中文文本自動分揀模塊模塊用于對預處理模塊處理后的待分揀的中文文本進行分揀,得到分揀結果; 所述分揀結果輸出模塊對識別得到的結果進行輸出。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯(lián)系本專利的申請人或專利權人浙江大學,其通訊地址為:310058 浙江省杭州市西湖區(qū)余杭塘路866號;或者聯(lián)系龍圖騰網(wǎng)官方客服,聯(lián)系龍圖騰網(wǎng)可撥打電話0551-65771310或微信搜索“龍圖騰網(wǎng)”。
1、本報告根據(jù)公開、合法渠道獲得相關數(shù)據(jù)和信息,力求客觀、公正,但并不保證數(shù)據(jù)的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發(fā)布本報告當日的職業(yè)理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據(jù)或者憑證。