山東大學許信順獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網獲悉山東大學申請的專利基于共享知識挖掘的增量多語言文本識別方法及系統獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN120561293B 。
龍圖騰網通過國家知識產權局官網在2025-09-26發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202511061575.9,技術領域涉及:G06F16/35;該發明授權基于共享知識挖掘的增量多語言文本識別方法及系統是由許信順;劉曉倩;羅昕;陳振鐸設計研發完成,并于2025-07-31向國家知識產權局提交的專利申請。
本基于共享知識挖掘的增量多語言文本識別方法及系統在說明書摘要公布了:本發明公開基于共享知識挖掘的增量多語言文本識別方法及系統,涉及文本檢測識別技術領域,訓練得到特定于當前語言的特色識別器;將回放集和當前語言的數據集送入所有特色識別器,基于所有特色識別器的預測一致性,挖掘語言之間潛在的共享字符和共享單詞;基于共享字符和共享單詞,語言域判別器挖掘增量語言之間的依賴性關系,得到字符級別和單詞級別的所屬語言概率,并基于其對各個特色識別器的預測概率分布進行加權,得到關系加強后的字符級別和單詞級別概率分布;對關系加強后的單詞級別概率分布作argmax操作,選取概率最大值所對應的索引作為最終識別結果。可以減輕增量學習過程中對舊語言知識的遺忘,從而提高文本識別器的持續學習能力。
本發明授權基于共享知識挖掘的增量多語言文本識別方法及系統在權利要求書中公布了:1.基于共享知識挖掘的增量多語言文本識別方法,其特征在于,包括: 獲取當前語言的數據集,并基于所述數據集訓練一個特定于當前語言的特色識別器; 基于先前所有已處理語言的數據集構造回放集;獲取先前所有已處理語言的特色識別器并凍結參數;將回放集和當前語言的數據集送入所有特色識別器,得到預測結果;基于所有特色識別器的預測一致性,以自監督的方式挖掘語言之間潛在的共享字符和共享單詞; 基于所述共享字符和共享單詞,語言域判別器挖掘增量語言之間的依賴性關系,得到字符級別和單詞級別的所屬語言概率; 基于共享字符和共享單詞的所屬語言偽標簽,對于共享實例,利用多標簽的Max-margin損失對語言域判別器進行優化: 其中,表示多標簽的Max-margin損失,、表示索引,表示邊距超參數,表示共享字符的所屬語言偽標簽,表示共享單詞的所屬語言偽標簽,表示樣本在時刻字符屬于第種語言的概率,表示樣本在時刻字符屬于第種語言的概率,表示單詞屬于第種語言的概率,表示單詞屬于第種語言的概率; 對于新的實例,利用標準的交叉熵對語言域判別器進行優化: 其中,表示字符和單詞級別的交叉熵損失,表示語言域判別器,表示樣本,表示新字符的所屬語言標簽,表示新單詞的所屬語言標簽,表示字符級別的所屬語言概率,表示單詞級別的所述語言概率; 基于所述字符級別和單詞級別的所屬語言概率,對各個特色識別器的預測概率分布進行加權,得到關系加強后的字符級別和單詞級別概率分布; 對所述關系加強后的單詞級別概率分布作argmax操作,選取概率最大值所對應的索引作為最終識別結果。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人山東大學,其通訊地址為:250000 山東省濟南市高新區舜華路1500號;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。