北京深勢(shì)科技有限公司蔡恒興獲國(guó)家專利權(quán)
買專利賣專利找龍圖騰,真高效! 查專利查商標(biāo)用IPTOP,全免費(fèi)!專利年費(fèi)監(jiān)控用IP管家,真方便!
龍圖騰網(wǎng)獲悉北京深勢(shì)科技有限公司申請(qǐng)的專利一種引入稠密向量檢索器的大語(yǔ)言模型的處理方法和裝置獲國(guó)家發(fā)明授權(quán)專利權(quán),本發(fā)明授權(quán)專利權(quán)由國(guó)家知識(shí)產(chǎn)權(quán)局授予,授權(quán)公告號(hào)為:CN119398193B 。
龍圖騰網(wǎng)通過(guò)國(guó)家知識(shí)產(chǎn)權(quán)局官網(wǎng)在2025-09-26發(fā)布的發(fā)明授權(quán)授權(quán)公告中獲悉:該發(fā)明授權(quán)的專利申請(qǐng)?zhí)?專利號(hào)為:202411486178.1,技術(shù)領(lǐng)域涉及:G06N20/00;該發(fā)明授權(quán)一種引入稠密向量檢索器的大語(yǔ)言模型的處理方法和裝置是由蔡恒興;李思杭;張林峰;孫偉杰設(shè)計(jì)研發(fā)完成,并于2024-10-23向國(guó)家知識(shí)產(chǎn)權(quán)局提交的專利申請(qǐng)。
本一種引入稠密向量檢索器的大語(yǔ)言模型的處理方法和裝置在說(shuō)明書摘要公布了:本發(fā)明實(shí)施例涉及一種引入稠密向量檢索器的大語(yǔ)言模型的處理方法和裝置,所述方法包括:將一類大語(yǔ)言模型作為第一大語(yǔ)言模型;基于第一大語(yǔ)言模型在對(duì)應(yīng)的定向NLP任務(wù)微調(diào)中使用的定向文本語(yǔ)料集初始化稠密向量數(shù)據(jù)庫(kù);在第一大語(yǔ)言模型中增加稠密向量檢索器和特征融合模塊構(gòu)成第二大語(yǔ)言模型并對(duì)其進(jìn)行訓(xùn)練;訓(xùn)練結(jié)束后由第二大語(yǔ)言模型以稠密向量數(shù)據(jù)庫(kù)為參考來(lái)處理定向NLP任務(wù);并定期更新稠密向量數(shù)據(jù)庫(kù),并定期基于最新的稠密向量數(shù)據(jù)庫(kù)對(duì)第二大語(yǔ)言模型進(jìn)行一次評(píng)估,并在當(dāng)次評(píng)估不合格時(shí)對(duì)第二大語(yǔ)言模型進(jìn)行一次微調(diào)。通過(guò)本發(fā)明既可以保證模型的時(shí)效性、又可以降低模型的維護(hù)成本、提高模型的經(jīng)濟(jì)價(jià)值。
本發(fā)明授權(quán)一種引入稠密向量檢索器的大語(yǔ)言模型的處理方法和裝置在權(quán)利要求書中公布了:1.一種引入稠密向量檢索器的大語(yǔ)言模型的處理方法,其特征在于,所述方法包括: 將一類基于Transformer模型架構(gòu)實(shí)現(xiàn)并已完成預(yù)訓(xùn)練和一類定向NLP任務(wù)微調(diào)的大語(yǔ)言模型作為對(duì)應(yīng)的第一大語(yǔ)言模型;所述定向NLP任務(wù)至少包括機(jī)器翻譯任務(wù)和智能問(wèn)答任務(wù); 將所述第一大語(yǔ)言模型在對(duì)應(yīng)的定向NLP任務(wù)微調(diào)中使用的定向文本語(yǔ)料集作為對(duì)應(yīng)的第一數(shù)據(jù)集;并基于所述第一數(shù)據(jù)集初始化對(duì)應(yīng)的稠密向量數(shù)據(jù)庫(kù); 在所述第一大語(yǔ)言模型中增加稠密向量檢索器和特征融合模塊構(gòu)成對(duì)應(yīng)的第二大語(yǔ)言模型;并基于所述第一數(shù)據(jù)集對(duì)所述第二大語(yǔ)言模型進(jìn)行模型訓(xùn)練; 模型訓(xùn)練結(jié)束后,由所述第二大語(yǔ)言模型以所述稠密向量數(shù)據(jù)庫(kù)為參考來(lái)處理所述定向NLP任務(wù);并定期對(duì)所述稠密向量數(shù)據(jù)庫(kù)進(jìn)行數(shù)據(jù)更新處理;并定期基于最新的所述稠密向量數(shù)據(jù)庫(kù)對(duì)所述第二大語(yǔ)言模型進(jìn)行一次任務(wù)處理性能評(píng)估得到對(duì)應(yīng)的當(dāng)次評(píng)估結(jié)果,并在所述當(dāng)次評(píng)估結(jié)果為不合格時(shí)基于所述稠密向量數(shù)據(jù)庫(kù)進(jìn)行模型訓(xùn)練數(shù)據(jù)集構(gòu)建得到對(duì)應(yīng)的第二數(shù)據(jù)集,并基于所述第二數(shù)據(jù)集對(duì)所述第二大語(yǔ)言模型進(jìn)行一次微調(diào),并在本次微調(diào)結(jié)束后繼續(xù)由所述第二大語(yǔ)言模型以所述稠密向量數(shù)據(jù)庫(kù)為參考來(lái)處理所述定向NLP任務(wù);所述當(dāng)次評(píng)估結(jié)果包括合格和不合格; 其中,所述定期對(duì)所述稠密向量數(shù)據(jù)庫(kù)進(jìn)行數(shù)據(jù)更新處理,具體包括: 步驟81,按預(yù)設(shè)的第一時(shí)間頻率定期通過(guò)多個(gè)大數(shù)據(jù)采集渠道對(duì)所述定向NLP任務(wù)的文本語(yǔ)料進(jìn)行大數(shù)據(jù)采集得到對(duì)應(yīng)的第一采集數(shù)據(jù)集;并基于人工或其他機(jī)器模型篩選方式對(duì)所述第一采集數(shù)據(jù)集的各個(gè)第一采集記錄進(jìn)行文本降噪、去重、合規(guī)性檢驗(yàn)和正確性檢驗(yàn)處理;并由所述第二大語(yǔ)言模型的預(yù)處理模塊、嵌入編碼模塊和特征提取模塊組成一個(gè)對(duì)應(yīng)的第二編碼器; 其中,所述多個(gè)大數(shù)據(jù)采集渠道至少包括公開的文本語(yǔ)料庫(kù)、公開的網(wǎng)絡(luò)文本資源、各領(lǐng)域公開的技術(shù)標(biāo)準(zhǔn)教材文獻(xiàn)雜志期刊論文資源;所述第一采集數(shù)據(jù)集包括多個(gè)所述第一采集記錄;所述第一采集記錄包括第一采集目標(biāo)文本和第一采集標(biāo)簽文本;所述定向NLP任務(wù)為機(jī)器翻譯任務(wù)時(shí),所述第一采集目標(biāo)文本和所述第一采集標(biāo)簽文本分別為對(duì)應(yīng)的翻譯目標(biāo)文本和釋義標(biāo)簽文本;所述定向NLP任務(wù)為智能問(wèn)答任務(wù)時(shí),所述第一采集目標(biāo)文本和所述第一采集標(biāo)簽文本分別為對(duì)應(yīng)的問(wèn)題目標(biāo)文本和答案標(biāo)簽文本; 步驟82,將所述第一采集數(shù)據(jù)集的第一個(gè)所述第一采集記錄作為對(duì)應(yīng)的當(dāng)前采集記錄; 步驟83,將所述當(dāng)前采集記錄的所述第一采集目標(biāo)文本和所述第一采集標(biāo)簽文本作為對(duì)應(yīng)的當(dāng)前采集目標(biāo)文本和當(dāng)前采集標(biāo)簽文本;并將所述當(dāng)前采集目標(biāo)文本和所述當(dāng)前采集標(biāo)簽文本分別輸入所述第二編碼器進(jìn)行對(duì)應(yīng)的文本預(yù)處理、嵌入編碼處理和特征提取處理得到對(duì)應(yīng)的當(dāng)前目標(biāo)文本特征向量和當(dāng)前標(biāo)簽文本特征向量;并按稠密向量格式對(duì)所述當(dāng)前目標(biāo)文本特征向量和所述當(dāng)前標(biāo)簽文本特征向量進(jìn)行稠密向量轉(zhuǎn)換得到對(duì)應(yīng)的當(dāng)前目標(biāo)文本稠密向量和當(dāng)前標(biāo)簽文本稠密向量; 步驟84,對(duì)所述稠密向量數(shù)據(jù)庫(kù)的第一向量數(shù)據(jù)庫(kù)中第一稠密向量字段與所述當(dāng)前目標(biāo)文本稠密向量的向量特征近似度最大的第一向量數(shù)據(jù)記錄進(jìn)行查詢并將查詢得到的所述第一向量數(shù)據(jù)記錄作為對(duì)應(yīng)的第一查詢記錄;并將所述第一查詢記錄的所述第一稠密向量字段與所述當(dāng)前目標(biāo)文本稠密向量的向量特征近似度作為對(duì)應(yīng)的第一目標(biāo)近似度;并將第一文本數(shù)據(jù)庫(kù)中第二向量標(biāo)識(shí)字段與所述第一查詢記錄的第一向量標(biāo)識(shí)字段匹配的第一文本數(shù)據(jù)記錄作為對(duì)應(yīng)的第二查詢記錄;并將所述第一向量數(shù)據(jù)庫(kù)中所述第一稠密向量字段與所述第二查詢記錄的第三向量標(biāo)識(shí)字段匹配的所述第一向量數(shù)據(jù)記錄記為對(duì)應(yīng)的第三查詢記錄;并對(duì)所述第三查詢記錄的所述第一稠密向量字段和所述當(dāng)前標(biāo)簽文本稠密向量的向量特征近似度進(jìn)行計(jì)算得到對(duì)應(yīng)的第一標(biāo)簽近似度; 步驟85,對(duì)所述第一目標(biāo)近似度和所述第一標(biāo)簽近似度進(jìn)行識(shí)別;若所述第一目標(biāo)近似度超過(guò)預(yù)設(shè)的第二近似度閾值且所述第一標(biāo)簽近似度未超過(guò)所述第二近似度閾值,則轉(zhuǎn)至步驟86;若所述第一目標(biāo)近似度未超過(guò)所述第二近似度閾值,則轉(zhuǎn)至步驟87;若所述第一目標(biāo)近似度和所述第一標(biāo)簽近似度都超過(guò)所述第二近似度閾值,則轉(zhuǎn)至步驟88; 其中,第二近似度閾值第一近似度閾值; 步驟86,將所述第二查詢記錄的第二文本字段更新為對(duì)應(yīng)的所述當(dāng)前采集標(biāo)簽文本;并將所述第二查詢記錄的第一更新字段更新為對(duì)應(yīng)的當(dāng)前時(shí)間;并將所述第三查詢記錄的所述第一稠密向量字段更新為對(duì)應(yīng)的所述當(dāng)前標(biāo)簽文本稠密向量;并轉(zhuǎn)至步驟88; 步驟87,在所述第一向量數(shù)據(jù)庫(kù)中新增兩個(gè)所述第一向量數(shù)據(jù)記錄作為對(duì)應(yīng)的第一新增記錄和第二新增記錄;并在所述第一文本數(shù)據(jù)庫(kù)新增一個(gè)所述第一文本數(shù)據(jù)記錄作為對(duì)應(yīng)的第三新增記錄;并為第一、第二、第三新增記錄各自分配一個(gè)唯一的記錄標(biāo)識(shí)作為對(duì)應(yīng)的第一新增標(biāo)識(shí)、第二新增標(biāo)識(shí)和第三新增標(biāo)識(shí);并將當(dāng)前時(shí)間作為對(duì)應(yīng)的第一新增時(shí)間;并將所述第一新增記錄的所述第一向量標(biāo)識(shí)字段和所述第一稠密向量字段設(shè)為對(duì)應(yīng)的所述第一新增標(biāo)識(shí)和所述當(dāng)前目標(biāo)文本稠密向量;并將所述第二新增記錄的所述第一向量標(biāo)識(shí)字段和所述第一稠密向量字段設(shè)為對(duì)應(yīng)的所述第二新增標(biāo)識(shí)和所述當(dāng)前標(biāo)簽文本稠密向量;并將所述第三新增記錄的第一文本標(biāo)識(shí)字段、第一文本字段、所述第二文本字段、所述第二向量標(biāo)識(shí)字段、所述第三向量標(biāo)識(shí)字段和所述第一更新字段設(shè)為對(duì)應(yīng)的所述第三新增標(biāo)識(shí)、所述當(dāng)前采集目標(biāo)文本、所述當(dāng)前采集標(biāo)簽文本、所述第一新增標(biāo)識(shí)、所述第二新增標(biāo)識(shí)和所述第一新增時(shí)間; 步驟88,對(duì)所述當(dāng)前采集記錄是否為所述第一采集數(shù)據(jù)集的最后一個(gè)所述第一采集記錄進(jìn)行識(shí)別;若否,則將所述第一采集數(shù)據(jù)集的下一個(gè)所述第一采集記錄提取出來(lái)作為新的所述當(dāng)前采集記錄并返回步驟83;若是,則確認(rèn)本次數(shù)據(jù)更新處理結(jié)束。
如需購(gòu)買、轉(zhuǎn)讓、實(shí)施、許可或投資類似專利技術(shù),可聯(lián)系本專利的申請(qǐng)人或?qū)@麢?quán)人北京深勢(shì)科技有限公司,其通訊地址為:100089 北京市海淀區(qū)海淀大街3號(hào)1幢11層1101;或者聯(lián)系龍圖騰網(wǎng)官方客服,聯(lián)系龍圖騰網(wǎng)可撥打電話0551-65771310或微信搜索“龍圖騰網(wǎng)”。
1、本報(bào)告根據(jù)公開、合法渠道獲得相關(guān)數(shù)據(jù)和信息,力求客觀、公正,但并不保證數(shù)據(jù)的最終完整性和準(zhǔn)確性。
2、報(bào)告中的分析和結(jié)論僅反映本公司于發(fā)布本報(bào)告當(dāng)日的職業(yè)理解,僅供參考使用,不能作為本公司承擔(dān)任何法律責(zé)任的依據(jù)或者憑證。
- 考特克斯·特克斯羅恩有限公司及兩合公司克里斯·戴維斯獲國(guó)家專利權(quán)
- 中交第二公路勘察設(shè)計(jì)研究院有限公司席明軍獲國(guó)家專利權(quán)
- 廣州科語(yǔ)機(jī)器人有限公司蔡理莊獲國(guó)家專利權(quán)
- 北京京誠(chéng)科林環(huán)保科技有限公司李睿獲國(guó)家專利權(quán)
- 浙江科技學(xué)院陳聰獲國(guó)家專利權(quán)
- 華為技術(shù)有限公司尤索·海斯卡寧獲國(guó)家專利權(quán)
- 廣東電網(wǎng)有限責(zé)任公司譚家祺獲國(guó)家專利權(quán)
- 浙江中寶自控元件有限公司王林煒獲國(guó)家專利權(quán)
- 三菱電機(jī)株式會(huì)社藏堀貴大獲國(guó)家專利權(quán)
- 賽默飛世爾科學(xué)股份有限公司T·博薩利亞獲國(guó)家專利權(quán)


熱門推薦
- 心臟起搏器股份公司安琪獲國(guó)家專利權(quán)
- 深圳市博孚機(jī)電有限公司王金友獲國(guó)家專利權(quán)
- 科濟(jì)生物醫(yī)藥(上海)有限公司李宗海獲國(guó)家專利權(quán)
- 蘋果公司張羽書獲國(guó)家專利權(quán)
- 廣東旗米兄弟智能科技有限公司蒲虹均獲國(guó)家專利權(quán)
- 株式會(huì)社島津制作所山口真一獲國(guó)家專利權(quán)
- 海信冰箱有限公司張樹棟獲國(guó)家專利權(quán)
- 惠州市兆光光電科技有限公司朱天保獲國(guó)家專利權(quán)
- 華為技術(shù)有限公司喬貝·普萊姆·納拉揚(yáng)獲國(guó)家專利權(quán)
- 瑞儀(廣州)光電子器件有限公司洪僡嬅獲國(guó)家專利權(quán)