安徽大學;安徽省安慶市中級人民法院;北京華宇信息技術有限公司呂釗獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網獲悉安徽大學;安徽省安慶市中級人民法院;北京華宇信息技術有限公司申請的專利少樣本的司法庭審文件實體提取方法、系統及存儲介質獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN119647476B 。
龍圖騰網通過國家知識產權局官網在2025-09-26發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202411779498.6,技術領域涉及:G06F40/295;該發明授權少樣本的司法庭審文件實體提取方法、系統及存儲介質是由呂釗;楊越;程序;董學進;張磊;顏登程設計研發完成,并于2024-12-05向國家知識產權局提交的專利申請。
本少樣本的司法庭審文件實體提取方法、系統及存儲介質在說明書摘要公布了:本發明涉及一種少樣本的司法庭審文件實體提取方法、系統及存儲介質。少樣本的司法庭審文件實體提取方法包括將司法庭審文件以句子為單位輸入到語言處理模型中生成三個嵌入向量:上下文相關的嵌入特征向量單詞的詞性嵌入特征向量和模式特征嵌入特征向量三個嵌入向量集合成特征融合向量ti;將特征融合向量ti輸入到BiLSTM模型得到包含雙向序列信息的特征融合向量ti′,將特征融合向量ti′輸入到前饋神經網絡中進行BIEOU標簽預測。本發明采用數據增強技術擴充訓練數據集,將增強后的數據與原始數據混合,從而解決了司法庭審文件民事起訴狀中訓練樣本不足的問題。同時根據預測序列和實體類型序列能夠實現對司法文件中各類實體的精準識別。
本發明授權少樣本的司法庭審文件實體提取方法、系統及存儲介質在權利要求書中公布了:1.一種少樣本司法庭審文件中的實體提取方法,其特征在于,其在缺少訓練樣本的情況下對所有模型進行訓練,通過訓練好的各個模型對司法庭審文件中的實體和實體類型進行提取;其中,對模型進行訓練的方法包括以下步驟: 對訓練樣本進行數據增強生成增強數據;所述數據增強的方法包括:保留實體的類別標簽,并對實體和上下文進行掩碼,并生成增強數據;改變實體的類別標簽去掩碼預測實體和上下文,并生成增強數據;添加一個實體類別,進行實體和上下文的掩碼預測,并生成增強數據; 對生成的所述增強數據進行篩選:刪除實體類別與具體實體不符合的增強數據,保留實體類別與具體實體相符的增強數據; 將篩選后的所述增強數據與訓練樣本進行混合,共同作為模型的訓練樣本進行輸入; 對司法庭審文件中的實體和實體類型進行提取包括以下步驟: 司法庭審文件包括L個句子,每個句子包括M個單詞;以句子為單位輸入到語言處理模型中生成三個嵌入向量:上下文相關的嵌入特征向量單詞的詞性嵌入特征向量和模式特征嵌入特征向量三個嵌入向量集合成特征融合向量ti;其中,句子引入模式特征用于捕捉電話號、身份證號、家庭住址這些書寫有固定特征的內容的特定形式;將所述模式特征編碼后依次輸入CNN、BiLSTM模型中獲取 將特征融合向量ti輸入到BiLSTM模型得到包含雙向序列信息的特征融合向量ti′; 將特征融合向量ti′輸入到前饋神經網絡中進行BIEOU標簽預測,并生成所有句子中關于單詞BIEOU標簽的預測序列YL={y1,y2,…,yM},其中,YL表示句子的BIEOU標簽序列,yM表示句子中第M個單詞屬于的BIEOU標簽種類; 將特征融合向量ti′輸入到CRF模型中計算得到每個單詞的實體類型的可能概率分布,然后選擇概率最高的實體類型作為單詞的實體類型,生成每個句子中單詞的實體類型序列zL={z1,z2,…,zm},其中,zL表示句子的實體類型序列,zM表示句子中第M個單詞的實體類型; 根據預測序列YL={y1,y2,…,yM}提取司法庭審文件中所有句子的實體;根據實體類型序列zL={z1,z2,…,zM}提取實體的類型。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人安徽大學;安徽省安慶市中級人民法院;北京華宇信息技術有限公司,其通訊地址為:230601 安徽省合肥市經濟技術開發區九龍路111號;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。