信聯科技(南京)有限公司;北京信聯數安科技有限公司李明柱獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網獲悉信聯科技(南京)有限公司;北京信聯數安科技有限公司申請的專利一種用于大語言模型的提示注入攻擊測試用例獲得方法獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN120470583B 。
龍圖騰網通過國家知識產權局官網在2025-09-16發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202510970344.3,技術領域涉及:G06F21/55;該發明授權一種用于大語言模型的提示注入攻擊測試用例獲得方法是由李明柱;張勝;柴秀楠設計研發完成,并于2025-07-15向國家知識產權局提交的專利申請。
本一種用于大語言模型的提示注入攻擊測試用例獲得方法在說明書摘要公布了:本發明涉及一種用于大語言模型的提示注入攻擊測試用例獲得方法,結合條件變分自編碼器cVAE和馬爾可夫鏈,通過數據生成和上下文建模,逐步暴露惡意指令,模擬現實中的多輪對話攻擊,獲得大語言模型測試用例,對大語言模型實現多輪對話攻擊,挑戰大語言模型的防御能力;并且所設計方案引入隱蔽性技術、角色扮演攻擊、狀態轉移等技術,提升了攻擊的復雜度和隱蔽性,具備自動化、隱蔽性更強、覆蓋廣、可批量測試等核心優勢,能夠更真實、更全面地評估大語言模型的安全防御能力,并發現現有防御機制的不足之處,推動對多輪提示注入攻擊的研究和安全防御機制的改進。
本發明授權一種用于大語言模型的提示注入攻擊測試用例獲得方法在權利要求書中公布了:1.一種用于大語言模型的提示注入攻擊測試用例獲得方法,其特征在于:執行如下步驟A至步驟D,訓練獲得用于生成提示注入攻擊測試用例的目標大語言模型; 步驟A.基于預設各惡意樣本指令,以及各惡意樣本指令分別對應的預設惡意行為標簽,分別針對各惡意樣本指令,應用能夠響應惡意指令的大語言模型,針對惡意樣本指令進行拆解,獲得惡意樣本指令所對應彼此獨立的各個非惡意拆解指令,然后進入步驟B; 步驟B.分別針對各惡意樣本指令,應用大語言模型通過自然語言處理算法,按惡意意圖逐步暴露的順序,針對惡意樣本指令所對應各個非惡意拆解指令進行排序,獲得惡意樣本指令所對應的順序各非惡意拆解指令,然后進入步驟C; 步驟C.基于各惡意樣本指令分別所對應的順序各非惡意拆解指令,以累計在先問答、并結合相應惡意樣本指令所對應惡意行為標簽的方式,輸入第一大語言模型并獲得回答,實現對第一大語言模型的訓練,提高第一大語言模型的安全性,然后進入步驟D; 上述步驟C中,分別基于各個惡意樣本指令,針對惡意樣本指令所對應的順序各非惡意拆解指令,初始化n=1,然后執行如下步驟C1至步驟C4; 步驟C1.選擇順序第n個非惡意拆解指令,若n=1,則直接生成第n個非惡意拆解指令所對應的對話歷史編碼c1,以第n個非惡意拆解指令所對應惡意行為標簽,生成攻擊信號編碼c2,并進入步驟C2;若n≠1,則以第n個非惡意拆解指令,結合順序在先所選各非惡意拆解指令分別對應步驟C1至步驟C4處理來自第一大語言模型的回答,生成相對應的對話歷史編碼c1,以第n個非惡意拆解指令所對應惡意行為標簽,生成攻擊信號編碼c2,并進入步驟C2; 步驟C2.由應用條件變分自編碼器cVAE中編碼器針對c1與c2組合進行處理,生成相對應潛在空間向量表示z,再由條件變分自編碼器cVAE中解碼器針對潛在空間向量表示z進行處理,生成條件指令,并然后進入步驟C3; 步驟C3.將條件指令輸入第一大語言模型并獲得回答,對第一大語言模型進行訓練,提高第一大語言模型的安全性,然后進入步驟C4; 步驟C4.判斷n是否等于惡意樣本指令所對應非惡意拆解指令的數量N,是則關于惡意樣本指令的第一大語言模型訓練結束;否則針對n進行加1更新,并返回步驟C1; 步驟D.基于第一大語言模型訓練過程中各非惡意拆解指令分別對應來自第一大語言模型的回答,分析各非惡意拆解指令所對應各預設惡意狀態之間的轉移概率,由馬爾可夫鏈網絡分別針對各惡意樣本指令進行逐條指令拆分,并結合第一大語言模型進行攻擊驗證,直至達到預設攻擊強度閾值,實現對馬爾可夫鏈網絡的訓練,即獲得用于生成提示注入攻擊測試用例的目標大語言模型。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人信聯科技(南京)有限公司;北京信聯數安科技有限公司,其通訊地址為:210000 江蘇省南京市江寧經濟技術開發區東吉大道1號;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。