佛山市規律未來智能科技有限公司吳見樂獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網獲悉佛山市規律未來智能科技有限公司申請的專利一種基于LLM的文檔結構化自動處理方法及系統獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN119782503B 。
龍圖騰網通過國家知識產權局官網在2025-08-29發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202411852020.1,技術領域涉及:G06F16/334;該發明授權一種基于LLM的文檔結構化自動處理方法及系統是由吳見樂;謝豐澤;何驍設計研發完成,并于2024-12-16向國家知識產權局提交的專利申請。
本一種基于LLM的文檔結構化自動處理方法及系統在說明書摘要公布了:本發明公開了一種基于LLM的文檔結構化自動處理方法及系統,涉及文檔處理技術領域,包括步驟:S1、文檔輸入和預處理:去除無序文本中的特殊字符、統一編碼格式,調整其語義密度;S2、去冗余和關鍵詞提取:去除無序文本中的重復信息,并提取第一關鍵詞;S3、語義抽取和結構化:根據第一關鍵詞逐句解析無序文本,抽取每一個句子對應的主要意義和相關語義信息,得到抽取結果,包括同一個句子的第二關鍵詞和句意;S4、語義棧構建和更新:根據抽取結果構建和更新語義棧,存儲語義單元;一個語義單元對應同一個抽取結果;S5、結構化輸出:將語義棧中的數據以預設格式輸出。本發明適用于多領域、多類型的復雜無序文檔的結構化處理。
本發明授權一種基于LLM的文檔結構化自動處理方法及系統在權利要求書中公布了:1.一種基于LLM的文檔結構化自動處理方法,其特征在于,包括如下步驟: S1、文檔輸入和預處理:所述文檔包括無序文本;所述預處理包括文本標準化處理和語義修復;所述文本標準化包括去除所述無序文本中的特殊字符和統一編碼格式;所述語義修復為調整所述無序文本的語義密度,擴充或刪減所述無序文本的段落; S2、去冗余和關鍵詞提取:去除所述無序文本中的重復信息;分析所述無序文本,提取所述無序文本的關鍵詞,記為第一關鍵詞; S3、語義抽取和結構化:利用預訓練的大型語言模型,根據所述第一關鍵詞,逐句解析所述無序文本,并抽取所述文本中每一個句子對應的主要意義和相關語義信息,得到抽取結果;所述抽取結果包括同一個句子的若干個關鍵詞,記為第二關鍵詞,還包括句意; S4、語義棧構建和更新:根據所述抽取結果構建和更新語義棧;所述語義棧存儲的數據為語義單元;一個所述語義單元對應同一個句子包含的所述第二關鍵詞和所述句意;不同所述語義單元之間為父子或同級的層級關系,或無層級關系; 更新所述語義棧前,還包括層級判斷操作; 所述層級判斷操作包括,計算所述語義單元的信息熵: 其中,HX表示所述語義單元的信息熵;X表示所述語義單元;N表示所述第二關鍵詞的數量;xi為第i個所述第二關鍵詞;pxi表示X的分量包括xi的概率; 所述信息熵的計算由BERT模型完成,計算過程為: 其中,|X|表示一個所述語義單元的所述第二關鍵詞的數量; V表示預設的詞匯表;|V|表示所述詞匯表中的詞的數量;vj表示所述詞匯表中的第j個詞;pxi=vj|X表示xi和vj相同的概率; 對于a表示所述語義棧已存儲的語義單元,b表示新的語義單元; 若HbHa,則b為a的子級; S5、結構化輸出:將所述語義棧中的數據以預設格式輸出。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人佛山市規律未來智能科技有限公司,其通訊地址為:528312 廣東省佛山市順德區陳村鎮廣隆工業區環鎮東路4號順智科創園7棟802-1室(住所申報);或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。