廣東工業大學凌楓獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網獲悉廣東工業大學申請的專利基于大語言模型分類與原型集成的代碼搜索方法、系統及設備獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN119961381B 。
龍圖騰網通過國家知識產權局官網在2025-09-12發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202510438207.5,技術領域涉及:G06F16/33;該發明授權基于大語言模型分類與原型集成的代碼搜索方法、系統及設備是由凌楓;張凡龍設計研發完成,并于2025-04-09向國家知識產權局提交的專利申請。
本基于大語言模型分類與原型集成的代碼搜索方法、系統及設備在說明書摘要公布了:本發明公開了基于大語言模型分類與原型集成的代碼搜索方法、系統及設備,涉及代碼語義分析技術領域,步驟如下:S01、清洗待處理語料段并提取查詢源Token和代碼源Token,得到清洗后的“查詢?代碼”源Token對;S02、使用大語言模型對其進行分類;S03、將所述不同類別的“查詢?代碼”源Token對輸入到預訓練模型中進行模型訓練,得到不同類別的專家模型;S04、利用專家模型分別進行代碼搜索,得到初步搜索結果;S05、篩選初步搜索結果;S06、對所述篩選后的代碼搜索結果進行集成,得到最終的搜索結果。本發明采用上述方法、系統及設備,能夠有效地縮小查詢與代碼之間的語義差距,解決模棱兩可的查詢可能導致的語義模糊性的問題,從而提高代碼搜索的性能。
本發明授權基于大語言模型分類與原型集成的代碼搜索方法、系統及設備在權利要求書中公布了:1.基于大語言模型分類與原型集成的代碼搜索方法,其特征在于,步驟如下: S01、對含多個“查詢-代碼”對的待處理語料段進行數據清洗后提取查詢源Token和代碼源Token,得到清洗后的“查詢-代碼”源Token對; S02、使用大語言模型對所述“查詢-代碼”源Token對進行分類,得到不同類別的“查詢-代碼”源Token對; S03、將所述不同類別的“查詢-代碼”源Token對輸入到多個預訓練模型中,使用基于類別特性的多模態硬負樣本損失進行模型訓練,得到訓練好的不同類別的專家模型;所述基于類別特性的多模態硬負樣本損失包括焦點損失和三重多模態損失;所述基于類別特性的多模態硬負樣本損失的表達式為: , 式中,表示焦點損失,表示三重多模態損失,表示焦點損失的權重,表示三重損失的權重; S04、利用訓練好的不同類別的專家模型分別進行代碼搜索,得到初步搜索結果; S05、利用粗粒度大語言模型分類篩選模塊,對所述初步搜索結果進行篩選,得到篩選后的代碼搜索結果;所述粗粒度的大語言模型分類篩選模塊使用大語言模型對查詢與代碼分別預測一個類別,對預測得到相同類別的搜索結果賦予更高的置信度,相同類別的代碼和查詢應具有相對較高的相似性得分,不同類別的代碼和查詢應具有較低的相似性得分,相似性得分的表達式為: , 式中,表示第個查詢樣本,表示第個代碼樣本,表示當預測得到完全相同類別時添加的置信度系數,表示當預測得到的類別存在交集時添加的置信度系數,與分別表示由大模型預測得到的第個查詢樣本與第個代碼樣本的分類標簽; S06、利用細粒度多模態集成模塊,對所述篩選后的代碼搜索結果進行集成,得到最終的搜索結果;所述細粒度多模態集成模塊使用基于原型的集成方法對不同類別專家模型的初步搜索結果進行集成,其表達式為: , 式中,表示第個查詢樣本,表示第個代碼樣本,表示對第個類別專家進行篩選后的代碼搜索結果,表示集成方法; 集成方法的目的是根據輸入數據的特征準確選擇最佳專家,根據輸入查詢生成專家預測準確性的概率分布,最終輸出是所有專家輸出的加權和,其表達式為: , 式中,表示第個查詢的特征,表示第類查詢數據的原型,表示余弦相似度,表示由大模型預測得到的第個查詢樣本的分類標簽,表示當預測的類別與類別匹配時,添加的置信度系數; 其中,所述原型表示能捕捉一類數據的本質的具有代表性的特征向量;假設同一類別中的查詢樣本在訓練后會表現出相似的特征,將這些特征定義為原型,不同類別的特征具有不同的原型,某一類別的原型通過對訓練的該類別的所有特征取平均表示: , 式中,表示訓練類別中第個查詢的特征,表示訓練類別下查詢樣本的總數。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人廣東工業大學,其通訊地址為:510000 廣東省廣州市東風東路729號;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。