浙江大學壽黎但獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網獲悉浙江大學申請的專利一種結合外部知識檢索增強大語言模型的數據匹配方法、設備、介質獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN119474262B 。
龍圖騰網通過國家知識產權局官網在2025-09-26發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202411333724.8,技術領域涉及:G06F16/332;該發明授權一種結合外部知識檢索增強大語言模型的數據匹配方法、設備、介質是由壽黎但;徐雍欽;陳珂;李環;駱歆遠;陳剛設計研發完成,并于2024-09-24向國家知識產權局提交的專利申請。
本一種結合外部知識檢索增強大語言模型的數據匹配方法、設備、介質在說明書摘要公布了:本發明公開了一種結合外部知識檢索增強大語言模型的數據匹配方法、設備、介質,包括:將數據匹配任務拆解為自然語言形式的規則集合;遍歷數據匹配數據集中的每一樣本;對于第i個樣本,獲取該樣本中與源數據庫相關的數據庫角色實體及其元數據;將數據庫角色實體作為索引,其對應的元數據作為值構建第一知識集;將該樣本輸入大語言模型以提取關鍵詞,檢索得到關鍵詞在外部領域知識庫中對應的實體,并獲取該實體的one?hop關系;將關鍵詞作為索引,其對應的one?hop關系作為值構建第二知識集;獲取壓縮后的in?context示例數據;基于規則集合、第一知識集、第二知識集、壓縮的in?context示例數據構建提示詞并輸入至大語言模型,得到數據匹配結果。
本發明授權一種結合外部知識檢索增強大語言模型的數據匹配方法、設備、介質在權利要求書中公布了:1.一種結合外部知識檢索增強大語言模型的數據匹配方法,其特征在于,所述方法包括: 將數據匹配任務拆解為自然語言形式的規則集合; 遍歷數據匹配數據集中的每一樣本;對于第i個樣本,獲取第i個樣本中與源數據庫相關的數據庫角色實體;遍歷數據匹配數據集中除了第i個樣本以外的樣本,以獲取第i個樣本對應的數據庫角色實體的元數據;將數據庫角色實體作為索引,其對應的元數據作為值從而構建第一知識集; 遍歷數據匹配數據集中的每一樣本;對于第i個樣本,將第i個樣本輸入大語言模型以提取關鍵詞;基于關鍵詞檢索外部領域知識庫,得到關鍵詞在外部領域知識庫中對應的實體,并在外部領域知識庫中檢索該實體的one-hop關系;將關鍵詞作為索引,其對應的one-hop關系作為值從而構建第二知識集; 從數據匹配數據集中選擇原始in-context示例數據,將原始in-context示例數據輸入大語言模型,獲取壓縮的in-context示例數據; 基于規則集合、第一知識集、第二知識集、壓縮的in-context示例數據構建提示; 將提示輸入至大語言模型,得到數據匹配結果; 其中,當數據匹配任務為模式匹配時,所述規則集合包括: 第一規則:第二規則、第三規則和第四規則必須依次檢查,直到得出結論; 第二規則:如果兩個模式的列在數據庫中數據類型不相同,則答案為否,否則檢查規則第三規則; 第三規則:如果兩個模式的表在語義上不相同,則答案為否,否則請檢查規則第四規則; 第四規則:如果兩個模式的列不指向同一個概念,則答案為否,否則答案為是; 當數據匹配任務為實體匹配時,所述規則集合包括: 第一規則:第二規則、第三規則和第四規則必須依次檢查,直到得出結論; 第二規則:如果第一實體是第二實體的縮寫或相反,則答案為是,否則檢查規則第三規則; 第三規則:如果第一實體是第二實體的別名或反之,則答案為是,否則檢查規則第四規則; 第四規則:如果第一實體和第二實體指的是同一個現實世界概念,則答案為是,否則則答案為否; 其中,基于規則集合、第一知識集、第二知識集、壓縮的in-context示例數據構建提示詞的過程包括: 初始化增強示例數據列表; 遍歷所有壓縮的in-context示例數據;對于第i個壓縮的in-context示例數據,基于規則集合生成推理以及答案;將推理以及答案拼接于第i個壓縮的in-context示例數據的末尾,得到第i個壓縮的in-context示例數據對應的增強示例數據,并添加至增強示例數據列表; 遍歷數據匹配數據集中的每一樣本;對于第i個樣本,第一知識集和第二知識集的總數為n,獲取第一知識集和第二知識集中第i個樣本對應的n個知識列表;對于某一知識列表,將任務指令、規則集合、增強示例數據列表、第i個樣本、當前知識列表進行拼接,得到第i個樣本當前知識列表對應的提示;遍歷每一知識列表,得到第i個樣本對應的n個提示。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人浙江大學,其通訊地址為:310058 浙江省杭州市西湖區余杭塘路866號;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。