北京信聯數安科技有限公司;信聯科技(南京)有限公司;北京郵電大學李明柱獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網獲悉北京信聯數安科技有限公司;信聯科技(南京)有限公司;北京郵電大學申請的專利一種用于多模態大模型的越獄攻擊測試方法獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN119740229B 。
龍圖騰網通過國家知識產權局官網在2025-09-23發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202510245745.2,技術領域涉及:G06F21/55;該發明授權一種用于多模態大模型的越獄攻擊測試方法是由李明柱;張勝;林冠洲;柴秀楠;于明宇;吳嘉豪;秦素娟設計研發完成,并于2025-03-04向國家知識產權局提交的專利申請。
本一種用于多模態大模型的越獄攻擊測試方法在說明書摘要公布了:本發明涉及一種用于多模態大模型的越獄攻擊測試方法,首先基于各個預設惡意提示文本,獲得各個惡意提示最優文本;然后以獲得各惡意提示最優文本所對應惡意提示文本分別關于目標多模態大語言模型的生成結果,以及基于各惡意提示最優文本,構建各惡意提示測試文本;最后由各惡意提示測試文本分別與對應關于目標多模態大語言模型的生成結果進行組合,構成各惡意測試用例,完成了對目標多模態大語言模型的自動化越獄攻擊測試,設計方案通過優化惡意測試用例的生成,提高惡意測試用例的相關性和語義準確性,進而提高越獄攻擊的成功率,并增強攻擊的多樣性和適應性,以此評估和改進多模態大語言模型的安全性,提高多模態大語言模型的安全性和魯棒性。
本發明授權一種用于多模態大模型的越獄攻擊測試方法在權利要求書中公布了:1.一種用于多模態大模型的越獄攻擊測試方法,其特征在于:基于預設數量各個預設惡意提示文本,執行如下步驟,針對目標多模態大語言模型進行攻擊測試; 步驟A.基于各個惡意提示文本分別對應預設各突變策略下的突變版本惡意文本,通過迭代方式,針對關于目標識別模型的惡意攻擊成功率ASR進行判斷,獲得各個惡意提示最優文本,然后進入步驟B; 步驟B.分別針對各惡意提示最優文本所對應的惡意提示文本,將惡意提示文本輸入目標多模態大語言模型的生成結構,獲得相應的生成結果,即獲得各惡意提示最優文本所對應惡意提示文本分別關于目標多模態大語言模型的生成結果; 根據目標多模態大語言模型生成結構所輸出生成結果的對象類型,構建關于對象類型的提示詞,并將該提示詞分別與各惡意提示最優文本進行組合,構成各個惡意提示測試文本; 然后進入步驟C; 步驟C.將各個惡意提示測試文本分別與其對應關于目標多模態大語言模型的生成結果進行組合,構成各個惡意測試用例,由各個惡意測試用例分別輸入目標多模態大語言模型,針對目標多模態大語言模型進行攻擊測試; 步驟A中分別針對各個惡意提示文本,執行如下步驟A1至步驟A4,獲得各個惡意提示最優文本; 步驟A1.初始化n=1,將惡意提示文本作為第n次迭代下的待分析惡意文本,并進入步驟A2; 步驟A2.獲得第n次迭代下待分析惡意文本分別對應預設各突變策略下的突變版本惡意文本,并進一步獲得各突變版本惡意文本分別針對目標識別模型攻擊的惡意攻擊成功率ASR,然后進入步驟A3; 步驟A3.判斷各突變版本惡意文本的惡意攻擊成功率ASR中是否存在大于預設惡意攻擊成功率閾值的惡意攻擊成功率ASR,是則獲得大于預設惡意攻擊成功率閾值的各惡意攻擊成功率ASR分別對應的突變版本惡意文本,作為各個突變版本篩選惡意文本,并進入步驟A4;否則步驟A針對該惡意提示文本的處理結束; 步驟A4.判斷是否滿足迭代跳出條件,是則獲得各突變版本篩選惡意文本中最大惡意攻擊成功率ASR所對應的突變版本篩選惡意文本,作為該惡意提示文本對應的惡意提示最優文本;否則將各個突變版本篩選惡意文本作為第n+1次迭代下的各個待分析惡意文本,并針對n的值進行加1更新,再返回步驟A2; 步驟C中,惡意測試用例輸入目標多模態大語言模型,若目標多模態大語言模型理解結構對惡意測試用例識別為惡意類別,則惡意測試用例對目標多模態大語言模型的惡意攻擊失敗;若目標多模態大語言模型理解結構對惡意測試用例識別為非惡意類別,則惡意測試用例對目標多模態大語言模型的惡意攻擊成功。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人北京信聯數安科技有限公司;信聯科技(南京)有限公司;北京郵電大學,其通訊地址為:101100 北京市大興區北京經濟技術開發區科谷一街10號院6號樓6層604(北京自貿試驗區高端產業片區亦莊組團);或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。