佛山大學李小松獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網獲悉佛山大學申請的專利基于大語言模型先驗的多模態融合圖像翻譯方法及系統獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN120430931B 。
龍圖騰網通過國家知識產權局官網在2025-09-12發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202510937899.8,技術領域涉及:G06T3/04;該發明授權基于大語言模型先驗的多模態融合圖像翻譯方法及系統是由李小松;徐宇燊;匡振宇;黃莊釩;程榮燊設計研發完成,并于2025-07-08向國家知識產權局提交的專利申請。
本基于大語言模型先驗的多模態融合圖像翻譯方法及系統在說明書摘要公布了:本發明公開了基于大語言模型先驗的多模態融合圖像翻譯方法及系統,該方法包括:獲取配準后的紅外?可見光融合圖像以及對應的語義掩碼和文本描述并進行數據預處理,得到融合圖像特征、語義掩碼視覺特征與文本語義特征序列;基于文本?視覺狀態空間塊與三維選擇性掃描塊,構建多模態融合圖像模態翻譯模型;基于多模態融合圖像模態翻譯模型對融合圖像特征、語義掩碼視覺特征與文本語義特征序列進行圖像翻譯處理,得到翻譯后的具有可見光分布特性的目標圖像。本發明能夠通過文本、掩碼和圖像之間的交互捕捉長期依賴關系,提升多模態融合圖像翻譯的精度。本發明作為基于大語言模型先驗的多模態融合圖像翻譯方法及系統,可廣泛應用于圖像處理技術領域。
本發明授權基于大語言模型先驗的多模態融合圖像翻譯方法及系統在權利要求書中公布了:1.基于大語言模型先驗的多模態融合圖像翻譯方法,其特征在于,包括以下步驟: 獲取配準后的紅外-可見光融合圖像以及對應的語義掩碼和文本描述并進行數據預處理,得到融合圖像特征、語義掩碼視覺特征與文本語義特征序列; 基于文本-視覺狀態空間塊與三維選擇性掃描塊,構建多模態融合圖像模態翻譯模型; 所述多模態融合圖像模態翻譯模型具體包括多模態狀態空間組、二維卷積塊與圖像重建塊,所述多模態狀態空間組的輸出端與所述二維卷積塊的輸入端連接,所述二維卷積塊的輸出端與所述圖像重建塊的輸入端連接,其中: 所述多模態狀態空間組包括若干多模態狀態空間塊,若干所述多模態狀態空間塊之間通過串聯連接,且第一個多模態狀態空間塊的輸入為融合圖像特征、語義掩碼視覺特征與文本語義特征序列,后續多模態狀態空間塊的輸入為前一個多模態狀態空間塊的輸出、語義掩碼視覺特征與文本語義特征序列; 所述多模態狀態空間塊包括第一歸一化層、文本-視覺狀態空間塊、第二歸一化層、第一卷積層與多模態交叉注意力模塊,所述第一歸一化層、所述文本-視覺狀態空間塊、所述第二歸一化層、所述第一卷積層與所述多模態交叉注意力模塊依次連接; 所述文本-視覺狀態空間塊包括第一線性層、第二線性層、第三線性層、逐通道卷積、第一SiLU激活函數、第二SiLU激活函數、三維選擇性掃描塊、第三歸一化層與第四線性層,所述第一線性層的輸出端與所述第一SiLU激活函數連接,所述第二線性層的輸出端與所述逐通道卷積的輸入端連接,所述第三線性層的輸出端與所述三維選擇性掃描塊的第一輸入端連接,所述逐通道卷積的輸出端、所述第二SiLU激活函數、所述三維選擇性掃描塊的第二輸入端、所述第三歸一化層的輸入端與所述第四線性層的輸入端依次連接; 所述多模態交叉注意力模塊包括對第二卷積層、GELU激活函數、第三卷積層、遮蓋層與Softmax激活函數,所述第二卷積層、所述GELU激活函數、所述第三卷積層、所述遮蓋層與所述Softmax激活函數依次連接; 基于多模態融合圖像模態翻譯模型對融合圖像特征、語義掩碼視覺特征與文本語義特征序列進行圖像翻譯處理,得到翻譯后的具有可見光分布特性的目標圖像。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人佛山大學,其通訊地址為:528011 廣東省佛山市禪城區江灣一路18號;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。