西華大學吳越獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網獲悉西華大學申請的專利一種基于大模型的文本隱毒識別方法獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN119377952B 。
龍圖騰網通過國家知識產權局官網在2025-08-22發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202411309884.9,技術領域涉及:G06F21/56;該發明授權一種基于大模型的文本隱毒識別方法是由吳越;陳慧;廖明朗;袁雪;楊崧;陳鏡宇設計研發完成,并于2024-09-19向國家知識產權局提交的專利申請。
本一種基于大模型的文本隱毒識別方法在說明書摘要公布了:本發明提供了一種基于大模型的文本隱毒識別方法,涉及互聯網安全技術領域。該方法包括通過在RoBERTa模型的頂層添加一個由全連接層和softmax層組成的分類頭,構建文本隱毒檢測模型;從社交軟件中爬取評論文本數據并進行數據清洗和數據預處理,并經人工數據標注將評論文本數據分類為顯毒文本、隱毒文本或無毒文本;將經人工數據標注的評論文本數據輸入文本隱毒檢測模型,進行有監督學習;待識別的文本輸入經有監督學習的文本隱毒檢測模型,輸出識別的分類結果顯毒文本、隱毒文本或無毒文本。該方法可將輸入的文本分類為顯毒文本、隱毒文本和無毒文本,即實現對隱毒文本的有效識別。
本發明授權一種基于大模型的文本隱毒識別方法在權利要求書中公布了:1.一種基于大模型的文本隱毒識別方法,其特征在于,包括以下步驟: 步驟S1;構建文本隱毒檢測模型,具體為在RoBERTa模型的頂層添加一個由全連接層和softmax層組成的分類頭; 步驟S2:從社交軟件中爬取評論文本數據并進行數據清洗、數據預處理和人工數據標注; 人工數據標注具體為:通過分類標簽將評論文本數據分為顯毒文本、隱毒文本或無毒文本; 步驟S3:將經人工數據標注的評論文本數據輸入文本隱毒檢測模型,進行有監督學習; 步驟S4:將待識別的文本輸入經有監督學習的文本隱毒檢測模型,輸出識別的分類結果; 其中,分類結果包括顯毒文本、隱毒文本和無毒文本; 步驟S3之前,還包括通過GeniusAug模型對評論文本數據進行數據增強; GeniusAug模型包括依次連接的輸入層、特征提取層、雙向編碼層、草圖構建層、自回歸解碼層和輸出層; 數據增強過程如下: 輸入層:輸入評論文本數據d及對應的第一分類標簽; 特征提取層:提取評論文本數據d的n元語法[w1,w2,...,wm],n=1,2,3;其中,m為評論文本數據d的字詞數量; 雙向編碼層:編碼評論文本數據d、第一分類標簽和n元語法,獲取評論文本數據d的文本嵌入ed、n元語法[w1,w2,...,wm]的語法嵌入[v1,v2,...,vm]、第一分類標簽的標簽嵌入et; 對評論文本數據d,計算每一個n元語法與融合嵌入ef的相似度Si,公式如下: ef=λed+1-λet; 式中,λ為預設的融合權重,i為字詞序數; 選取相似度前A%的n元語法作為關鍵字詞; 草圖構建層:基于關鍵字詞,通過應用提取掩蔽投影過程構造草圖; 自回歸解碼層:通過預訓練的GENIUS模型,采用波束搜索方法,基于草圖生成新的文本數據; 輸出層:輸出新的文本數據。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人西華大學,其通訊地址為:610039 四川省成都市金牛區土橋金周路999號;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。