泰華智慧產業集團股份有限公司;山東華科仁杰信息咨詢有限公司米杰獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網獲悉泰華智慧產業集團股份有限公司;山東華科仁杰信息咨詢有限公司申請的專利一種基于大語言模型的工會經費代收信息提取方法及系統獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN120296799B 。
龍圖騰網通過國家知識產權局官網在2025-09-09發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202510780213.9,技術領域涉及:G06F21/62;該發明授權一種基于大語言模型的工會經費代收信息提取方法及系統是由米杰;扈海波;米穎;郝敬全;付高健;徐鵬;楊明明;趙連才;袁慧設計研發完成,并于2025-06-12向國家知識產權局提交的專利申請。
本一種基于大語言模型的工會經費代收信息提取方法及系統在說明書摘要公布了:本發明提供了一種基于大語言模型的工會經費代收信息提取方法及系統,屬于信息提取技術領域,包括:獲取經費數據文件并利用數據庫工具存儲,利用提取工具從經費數據文件中提取出經費文本;設計第一級提示詞,將所述第一級提示詞和主體信息輸入至預設的大語言模型,所述大語言模型在所述第一級提示詞的引導下輸出所述經費文本的關鍵信息;大語言模型在第二級提示詞的引導下輸出每個經費的經費類別編碼結果,能夠有效分析出少繳單位和未繳單位,需要根據單位性質確定繳費周期,然后根據繳費金額、繳費日期及單位的工資總額計算應繳金額,比對分析后獲取少繳單位、少繳金額和未繳單位,將名單推送給稅務系統進行提醒。
本發明授權一種基于大語言模型的工會經費代收信息提取方法及系統在權利要求書中公布了:1.一種基于大語言模型的工會經費代收信息提取方法,其特征在于,包括: 獲取經費數據文件并利用數據庫工具存儲,利用提取工具從經費數據文件中提取出經費文本;對于經費數據文件采用傳遞excel表的形式,在進行經費文本信息提取前,先要將excel表內文檔轉換成LA-DOM樹結構,再根據LA-DOM樹各節點的屬性和其子樹的統計信息進行噪聲節點判斷,最后實現主體信息提取; 設計第一級提示詞,將所述第一級提示詞和主體信息輸入至預設的大語言模型,所述大語言模型在所述第一級提示詞的引導下輸出所述經費文本的關鍵信息; 對于所述經費文本的關鍵信息中的每個經費,設計第二級提示詞,所述第二級提示詞包括經費名稱、對應的經費類別,將所述第二級提示詞輸入至所述大語言模型,所述大語言模型在所述第二級提示詞的引導下輸出每個經費的經費類別編碼結果; 節點生成過程根據標簽分類,將節點標簽生成LA-DOM節點,屬性標簽轉換為屬性值;待處理的excel表內文檔內容作為一個字符串傳入轉換程序,轉換程序對字符串從頭到尾進行掃描,遇到節點標簽的起始標簽,則生成節點,并添加到當前節點的子節點中,同時當前節點指針下移,以新生成的節點作為當前節點;當遇到節點標簽的結束標簽時,當前節點指針回溯,指向當前節點的父節點;當遇到屬性標簽時,作為節點屬性,與節點標簽其他屬性一起添加到當前節點中; 屬性棧在LA-DOM樹節點生成過程中產生,在LA-DOM樹建立完成時消毀,其作用是記錄各層節點的屬性,最后將屬性賦值給文本節點,作為后續分析工作的依據;屬性棧的生成規則為:遇到節點標簽的起始標簽,生成層次節點的同時,生成屬性元素,該屬性元素先復制屬性棧頂屬性,再將當前新的屬性添加到屬性元素中,最后屬性元素入棧;遇到節點標簽的結束標簽,當前節點指針回溯時,屬性棧頂元素也同時出棧;遇到文本節點時,將屬性棧的棧頂元素作為屬性賦值給文本節點,且不出棧;按此規律,當LA-DOM樹建立完成時,所有文本節點均按層次關系被添加了屬性值,且此時屬性棧為空; excel表內文檔轉換為LA-DOM樹算法流程:if起始標簽{if是節點標簽{生成新節點;提取標簽屬性,入屬性棧;將該節點添加為DOM樹當前節點的子樹;當前節點指向新節點};elseif是屬性標簽{記錄屬性,入屬性棧};else{無關標簽,直接跳過};elseif是結束標簽{if是節點標簽{屬性棧頂元素出棧;回溯查找配對開始標簽;if找到匹配開始標簽{標簽閉合;設置為當前節點}else{多余標簽,直接跳過}};else{不是節點標簽,直接跳過}};else{文本信息;生成文本節點;將屬性棧棧頂屬性添加到文本節點;將葉節點添加為DOM樹當前節點的子節點}; 在LA-DOM樹的節點中增加了直接非鏈接子葉節點數、直接非鏈接子葉節點字符數、直接鏈接子葉節點數、直接鏈接子葉節點字符數、總鏈接子節點數、總鏈接子節點字符數、總非鏈接子節點數、總非鏈接子節點字符數統計信息,以這些統計信息為判斷標準,進行噪聲節點標記; 節點中的統計信息命名如下:DLN:直接鏈接子節點數;DLT:直接鏈接子節點字符數;DUN:直接非鏈接子節點數;DUT:直接非鏈接子節點;TLN:總鏈接子節點數;TLT:總鏈接子節點字符數;TUN:總非鏈接子節點數;TUT:總非鏈接子節點字符數; 噪聲節點判斷規則設計如下: 1DUN=0DUT=0當直接非鏈接子節點數或非鏈接子節點字符數為0時,即當前節點下無非鏈接文本節點,則判斷為噪聲節點; 2DLT=DUT當直接鏈接子節點字符數大于直接非鏈接字符數,則判斷為噪聲節點,因為在經費文本主體部分,絕大部分文本是非鏈接文本; 3DLN*aDUN當直接鏈接子節點數大于直接非鏈接子節點數時,則判斷為噪聲節點;a為調整因子; 4DLTDLNDUTDUN直接鏈接子節點字符數與直接鏈接子節點數之比大于直接非鏈接子節點字符數與直接非鏈接子節點數之比時,則判斷為噪聲節點; 5DUTDUNthresholdDUTDUN的值小于某閾值時,則判斷為噪聲。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人泰華智慧產業集團股份有限公司;山東華科仁杰信息咨詢有限公司,其通訊地址為:250000 山東省濟南市歷下區和平路47號誠基中心22號-32號樓470;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。