電子科技大學羅文駿獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網獲悉電子科技大學申請的專利一種針對對抗性攻擊的人工智能模型安全防御方法獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN120429874B 。
龍圖騰網通過國家知識產權局官網在2025-09-09發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202510889159.1,技術領域涉及:G06F21/57;該發明授權一種針對對抗性攻擊的人工智能模型安全防御方法是由羅文駿;文紅;王永豐;侯文靜;茅俊濤;陳宇政設計研發完成,并于2025-06-30向國家知識產權局提交的專利申請。
本一種針對對抗性攻擊的人工智能模型安全防御方法在說明書摘要公布了:本發明公開一種針對對抗性攻擊的人工智能模型安全防御方法,屬于人工智能安全領域。該方法利用過濾器、歸納模型和安全分類器層層過濾,提升在對抗性攻擊下人工智能模型的安全性。先將提示輸入樣本模型生成預回答。然后過濾器對預回答進行過濾,拒絕普通的有害提示和樣本模型無法識別的對抗性攻擊,保留高質量的預回答。接著把預回答輸入歸納模型輸出總結,歸納模型能夠把回答轉換成對應問題。最后讓安全分類器對總結進行判別,若輸出為有害則拒絕提示,若輸出為無害則允許被保護的人工智能模型處理提示。本發明通過多層處理,實現對對抗性攻擊的解析和拒絕,在保持受保護的人工智能模型的性能的同時,有效增強了模型的對對抗性攻擊的防護能力。
本發明授權一種針對對抗性攻擊的人工智能模型安全防御方法在權利要求書中公布了:1.一種針對對抗性攻擊的人工智能模型安全防御方法,其特征在于,包括以下步驟: 步驟S1:在提示輸入被保護的人工智能模型前,將提示輸入樣本模型,形成預回答并傳輸至過濾器; 步驟S2:過濾器接收樣本模型的預回答,并對預回答進行初步過濾;判斷樣本模型的安全護欄是否阻攔了提示,若沒有阻攔將預回答傳輸至歸納模型,若阻攔則拒絕輸出; 步驟S3:微調BART為歸納模型,歸納模型接收過濾器傳輸的預回答,并對預回答進行處理,生成總結,并將總結傳輸至安全分類器; 步驟S4:將BERT微調成安全分類器;安全分類器接收總結并對總結進行判別,若判定為有害則拒絕輸出,判定為無害則允許受保護的人工智能模型處理提示; 步驟S4包括如下步驟: 步驟S41:將BERT微調成安全分類器; 步驟S411:隨機選取的條良性提示和有害提示作為訓練集,并對訓練集進行標注,得到標注后的訓練集; 步驟S412:將訓練集輸入BERT,得到經過BERT編碼后的特征向量; 步驟S413:在BERT的輸出基礎上,添加一個分類器層,用于將特征向量映射到無害分數; 步驟S414:正向傳播過程中使用安全分類器損失函數來優化模型參數; 步驟S415:在反向傳播階段首先初始化參數:隨機初始化權重矩陣和偏置向量;然后計算安全分類器損失函數關于權重矩陣的梯度和關于的梯度,更新模型參數; 步驟S416:通過安全分類器損失函數優化模型參數,并利用反向傳播進行參數更新,得到微調好的安全分類器; 步驟S42:安全分類器接收總結并對總結進行判別,若判定為有害則拒絕輸出,判定為無害則允許受保護的模型處理提示。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人電子科技大學,其通訊地址為:611731 四川省成都市高新區(西區)西源大道2006號;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。