昆明理工大學余正濤獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網獲悉昆明理工大學申請的專利融合雙語敏感詞典和異構圖的漢泰跨語言敏感信息識別方法獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN115952794B 。
龍圖騰網通過國家知識產權局官網在2025-09-23發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202211373435.1,技術領域涉及:G06F40/284;該發明授權融合雙語敏感詞典和異構圖的漢泰跨語言敏感信息識別方法是由余正濤;朱栩冉;張亞飛設計研發完成,并于2022-11-04向國家知識產權局提交的專利申請。
本融合雙語敏感詞典和異構圖的漢泰跨語言敏感信息識別方法在說明書摘要公布了:本發明涉及融合雙語敏感詞典和異構圖的漢泰跨語言敏感信息識別方法,來解決漢泰敏感信息識別中雙語敏感詞難以對齊的問題。本發明首先,基于維基百科和社交媒體敏感數據構建漢泰雙語敏感詞典。然后,將文檔以及所含關鍵詞和敏感詞作為節點,雙語對齊、相似關系和不同詞性作為邊構建漢泰跨語言異構圖,增強文檔的敏感特征和雙語敏感特征對齊,并利用多語言預訓練模型對文檔節點和詞節點進行表征。最后通過多層圖卷積神經網絡對輸入文檔進行編碼,利用敏感信息分類器對文檔進行分類預測。實驗結果表明提出的模型在漢泰跨語言敏感信息識別任務上比通用的跨語言文本分類方法效果更好。
本發明授權融合雙語敏感詞典和異構圖的漢泰跨語言敏感信息識別方法在權利要求書中公布了:1.融合雙語敏感詞典和異構圖的漢泰跨語言敏感信息識別方法,其特征在于:所述方法包括首先基于維基百科和社交媒體敏感數據構建漢泰雙語敏感詞典;然后,將文檔以及所含關鍵詞和敏感詞作為節點,雙語對齊、相似關系和不同詞性作為邊構建漢泰跨語言異構圖,增強文檔的敏感特征和雙語敏感特征對齊,并利用多語言預訓練模型對文檔節點和詞節點進行表征;最后通過多層圖卷積神經網絡對輸入文檔進行編碼,利用敏感信息分類器對文檔進行分類預測; 所述構建漢泰跨語言異構圖包括: Step3.1:使用漢泰跨語言敏感信息文本數據集的文檔和文檔共現詞以及雙語敏感詞典的敏感詞作為節點構建漢泰跨語言異構圖結構,其中文檔與文檔、文檔和詞之間、敏感詞之間均有不同的關系種類,包含文檔與文檔之間的翻譯和相似關系,文檔和詞之間的詞性關系,敏感詞之間的詞性關系; Step3.2:文檔和文檔的邊:為了得到文檔中所含的語義信息,并使漢語文檔和泰語文檔更好的進行跨語言遷移學習,設置了兩種類型的文檔關系邊;首先是基于機器翻譯的偽平行語料之間的關系,將漢語文檔和泰語文檔之間構建了對應的翻譯邊;其次,將漢泰雙語文檔,通過多語言預訓練模型獲得文檔的向量表示之后,利用文檔向量,計算文檔之間的相似度; Step3.3:文檔和單詞的邊:通過使用構建的雙語敏感詞典協助分詞工具,對文檔中的單詞進行準確的切分,并使用POS-Tagger對單詞進行詞性標注,添加詞性標簽,將不同詞性的單詞通過詞性關系與共現文檔連接,構建不同類型的邊; Step3.4:單詞和單詞的邊:基于構建的雙語敏感詞表,對文檔中切分出來的敏感詞,將該敏感詞語義相似的雙語敏感詞作為詞節點,并通過詞節點之間的邊建立圖結構,增加文檔中的敏感信息權重,以及漢泰跨語言詞級對齊和聚合。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人昆明理工大學,其通訊地址為:650500 云南省昆明市呈貢區景明南路727號;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。