合肥大學許強獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網獲悉合肥大學申請的專利一種基于預訓練模型和圖卷積網絡的政府熱線文本層次分類方法獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN119938921B 。
龍圖騰網通過國家知識產權局官網在2025-09-23發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202510012174.8,技術領域涉及:G06F16/353;該發明授權一種基于預訓練模型和圖卷積網絡的政府熱線文本層次分類方法是由許強;滿家相;嵇圣硙設計研發完成,并于2025-01-06向國家知識產權局提交的專利申請。
本一種基于預訓練模型和圖卷積網絡的政府熱線文本層次分類方法在說明書摘要公布了:一種基于預訓練模型和圖卷積網絡的政府熱線文本層次分類方法,涉及智能文本分類技術領域。當前,深度學習方法在層次多標簽文本分類上展現出了更高的分類精度,然而大部分只是簡單將標簽當作監督信息,并沒有充分利用標簽與文本之間的相關性。為了更快速高效的對政府熱線文本進行層次分類,以便及時把市民遇到的問題交給相關部門進行處理,本發明提出的該模型將大規模預訓練模型與圖神經網絡相結合,有效利用了標簽的層次結構和文本語義信息,顯著提高了分類準確率和效率。模型在數據集上構建一個包含標簽、文檔和單詞的異構圖,并充分利用了兩個模型的優勢,為政府熱線文本的自動化分類提供了有效的解決方案。
本發明授權一種基于預訓練模型和圖卷積網絡的政府熱線文本層次分類方法在權利要求書中公布了:1.一種基于預訓練模型和圖卷積網絡的政府熱線文本層次分類方法,其特征在于,步驟如下: 步驟1、獲取數據集并處理 獲取政府熱線電話文本描述的數據集,對獲取到的數據集進行清洗,去除文本中的多余空格、特殊字符、無關符號確保文本內容的整潔和一致性,處理缺失值和異常值對異常值進行標記或刪除;使用中文分詞工具對清洗后的文本進行分詞處理,將文本拆分成單詞或詞組;將處理后的數據劃分為訓練集、驗證集和測試集,訓練集用于模型的訓練和優化,測試集用于評估模型的性能; 步驟2、構建異構圖 定義三種類型的節點:文檔節點、單詞節點和標簽節點;構建邊以及權重計算; 步驟3、模型初始化 在模型訓練開始前,首先使用數據集對ROBERTA模型進行微調獲得ROBERTA模型的權重參數,以加快模型訓練速度;節點表示初始化:使用預訓練的ROBERTA模型獲取文檔嵌入和單詞嵌入,作為節點表示的初始值; 步驟4、模型訓練 聯合訓練:同時訓練GCN模型和ROBERTA模型,利用GCN處理復雜結構的能力,結合ROBERTA的強大語義表示能力,提高分類的準確性和效率;在訓練期間,使用內存庫M來存儲所有文檔節點的輸入特征;即在每個訓練輪次的開始,首先使用ROBERTA模型計算所有文檔嵌入,并將它們存儲在M中;在每次選代訓練中從M采樣一個批次數據批次大小為16;然后將數據送入ROBERTA模塊得到新的嵌入表示,并更新到M中對應的文檔節點,再使用GCN模塊對整個圖進行訓練;損失函數優化:使用二元交叉損失函數,通過梯度下降優化算法,最小化損失函數,更新模型參數; 步驟5、預測與評估 預測階段:對測試集中的文本數據進行預測,將GCN的輸出視為文檔的最終表示,并使用softmax函數計算每個標簽的概率;在訓練過程中,也使用了ROBERTA模塊得到的文檔嵌入輸入到sotmax函數計算每個標簽的概率;最終每個標簽的預測概率是GCN和ROBERTA的預測線性插值;評估指標:使用Macro-F1和Micro-F1作為評估指標,對模型的性能進行評估,以反映模型的分類準確性和泛化能力。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人合肥大學,其通訊地址為:230601 安徽省合肥市經開區錦繡大道99號;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。