廈門市美亞柏科信息股份有限公司涂自龍獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網獲悉廈門市美亞柏科信息股份有限公司申請的專利一種五元組實體關系抽取方法及裝置獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN114297400B 。
龍圖騰網通過國家知識產權局官網在2025-09-23發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202111485360.1,技術領域涉及:G06F16/36;該發明授權一種五元組實體關系抽取方法及裝置是由涂自龍;段思欣;許劍峰設計研發完成,并于2021-12-07向國家知識產權局提交的專利申請。
本一種五元組實體關系抽取方法及裝置在說明書摘要公布了:本發明公開一種五元組實體關系抽取方法,通過將文本語料進行實體關系標注得到標注數據,再將標注數據進行五元組化預處理,得到含有主體、主體類型、關系、客體和客體類形的五元組訓練數據集,而后再通過含有五元組的訓練數據集對深度學習模型進行訓練得到關系抽取模型,從而當需要抽取文本數據內的信息時,能夠通過關系抽取模型對文本數據進行抽取并得到對應的五元組數據,可以極大的提高實體關系抽取的召回率,同時也能保證較高的準確率,并且抽取出的數據更加多元化,從而提高文本關系提取的效果。
本發明授權一種五元組實體關系抽取方法及裝置在權利要求書中公布了:1.一種五元組實體關系抽取方法,其特征在于,包括步驟: 獲取文本語料; 對所述文本語料進行實體關系標注,得到標注數據; 對所述標注數據進行五元組化預處理,得到訓練數據集;所述五元組包括主體、主體類型、關系、客體和客體類型; 通過所述訓練數據集對深度學習模型進行訓練,得到關系抽取模型; 獲取待抽取文本數據; 根據所述關系抽取模型對所述待抽取文本數據進行抽取,得到所述待抽取文本的實體關系五元組; 通過所述訓練數據集對深度學習模型進行訓練,包括: 通過目標函數對所述訓練數據集進行訓練,所述目標函數為: ; 其中,Tj表示所述訓練數據集中第j個句子的五元組,Tj={s,st,r,o,ot};D表示所述訓練數據集,xj表示所述訓練數據集中第j個句子;s表示所述主體、st表示所述主體類型、r表示所述關系、o表示所述客體、ot表示所述客體類型;通過上述目標函數對訓練集進行訓練,從五元組的級別進行優化,能夠直接抽取實體關系五元組,并且通過s,st與r的映射函數來預測o,ot,通過級聯二元指針標注框架來解決重疊實體與關系五元組的問題; 通過損失函數對所述訓練數據集進行訓練,所述損失函數為: LOSS=Lsub_heads+Lsub_tails+Lsub_type_heads +Lsub_type_tails+Lobj_heads+Lobj_tails +Lobj_type_heads+Lobj_type_tails; 其中,sub表示所述主體,obj表示所述客體,heads表示首位置,tails表示尾位置,L為二元交叉熵損失函數: ; 所述通過所述訓練數據集對深度學習模型進行訓練,得到關系抽取模型之前,還包括: 對所述訓練數據集中帶有實體關系的語句進行數據增強,得到新關系語句; 將所述新關系語句添加至所述訓練數據集中; 所述對所述訓練數據集中帶有實體關系的語句進行數據增強,得到新關系語句包括: 將所述訓練數據集中多組帶有實體關系的語句進行組合合并,得到所述新關系語句; 所述對所述訓練數據集中帶有實體關系的語句進行數據增強,得到新關系語句還包括; 對多組所述帶有實體關系的語句或多組所述新關系語句中相同類型的實體進行替換; 對多組所述帶有實體關系的語句或多組所述新關系語句中的非實體部分進行同義詞替換; 所述將所述新關系語句添加至所述訓練數據集中包括; 設置閾值語句長度; 判斷所述新關系語句是否小于所述閾值語句長度,若是,則將所述新關系語句添加至所述訓練數據集中; 識別所述訓練數據集中的每一語句的所述主體和主體類型; 根據所述主體和主體類型識別每一所述語句中與所述主體和主體類型對應的所述關系以及所述客體和客體類型;通過先識別訓練數據集中的每一語句的主體和主體類型,再根據主體與主體類型識別與語句中與主體和主體類型對應的客體和客體類型,最后再根據識別到的主體和主體類型以及客體和客體類型識別所有主體和主體類型與客體和客體類型之間可能的關系,層層遞進識別; 通過多步長的動態學習率衰減對所述訓練數據集進行訓練優化。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人廈門市美亞柏科信息股份有限公司,其通訊地址為:361000 福建省廈門市軟件園二期觀日路12號美亞柏科大廈;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。