北京工業大學李曉光獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網獲悉北京工業大學申請的專利一種基于多尺度注意力機制的動態光照人臉圖像質量增強方法獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN115880225B 。
龍圖騰網通過國家知識產權局官網在2025-09-05發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202211408124.4,技術領域涉及:G06T7/00;該發明授權一種基于多尺度注意力機制的動態光照人臉圖像質量增強方法是由李曉光;景煒程;卓力設計研發完成,并于2022-11-10向國家知識產權局提交的專利申請。
本一種基于多尺度注意力機制的動態光照人臉圖像質量增強方法在說明書摘要公布了:一種基于多尺度注意力機制的動態光照人臉圖像質量增強方法屬于數字圖像視頻信號處理領域。本發明設計了一種級聯編解碼網絡結構,可分為多尺度小波特征提取模塊和圖像增強模塊,受光照影響的人臉圖像經過多尺度小波特征提取模塊進行關鍵特征提取后輸入到圖像增強模塊完成受動態光照影響的圖像增強。在多尺度小波特征提取模塊中采用了小波變換下采樣獲得不同尺度的特征信息圖,通過模塊內部的注意力單元提取融合所圖像中的全局上下文信息,在圖像增強模塊中基于多尺度注意力思想,通過獲取到不同尺度上的信息和雙注意力機制來提升網絡對動態變化光照的感知能力,完成增強過程。該技術在刑偵、軍事偵察、多媒體視覺等領域具有廣泛的應用前景。
本發明授權一種基于多尺度注意力機制的動態光照人臉圖像質量增強方法在權利要求書中公布了:1.一種基于多尺度注意力機制的動態光照人臉圖像質量增強方法,其特征在于包括以下步驟: 1動態光照影響下人臉數據集準備 a人臉數據集預處理 通過RetinaFace人臉檢測算法將人臉圖像進行檢測和對齊操作,得到的圖像再統一裁剪將其劃分成256×256像素大小的尺寸,作為目標數據集; b多種動態光照人臉數據生成和數據集劃分 多種動態光照人臉數據生成方法采用重照明方法; 2基于多尺度注意力機制的網絡模型以及損失函數的構建 a多尺度小波特征提取模塊的網絡構建 多尺度小波特征提取模塊的主要實現方法是通過小波變換代替傳統的下采樣過程實現圖像尺度和通道維度上的變換;具體來說,輸入到該模塊的圖像首先經過一層卷積層在不改變圖像尺寸大小的前提下將圖像原本的3通道擴展到64通道,卷積層設置卷積核為3,padding為1,bias為False;然后,得到的特征圖通過連續的3次2D離散小波變換下采樣擴展到3種不同的尺度上,需要注意的是在特征通道級進行的下采樣操作而不是像素級,每次小波變換后都需要通過一層3×3卷積層和激活函數將變換后的特征分別調整到128、256、512的通道數和縮小2倍、4倍、8倍的尺度下分別作為第一級,第二級和第三級的輸入,每一級的輸出通道數和尺寸與輸入保持一致,所用卷積層設置卷積核為3,padding為1,步長為1,bias為False,所用PRelu激活函數,所用小波變換是2D哈爾小波變換,小波變換將圖像分解為高頻信息和低頻信息;其次,三個不同尺度上的特征信息分別通過雙注意力單元提取有用特征信息后,第三級通過2D離散小波逆變換進行上采樣得到的特征信息與第二級獲取到的特征信息通過拼接操作輸入卷積層加通道注意力單元中進行高效的特征融合提取;最后,將第二級的輸出與第一級進行相同操作步驟后與剛開始的輸入特征圖再次輸入卷積加通道注意力單元的結構中,生成多尺度特征信息映射用來引導后續重建增強過程,所用到的卷積層設置均為:卷積核為3,步長為1,padding為1,bias為False; 雙注意力單元作用是接受來自不同尺度上的特征信息;輸入的特征信息通過進行1次卷積1次激活函數1次卷積層的方式進行充分的跨通道交互增加特征信息的非線性,其中卷積層輸入輸出通道數數量一致,采用卷積核大小為3,bias為False,激活函數采用PRelu激活函數;然后,經過上述步驟后的特征信息分別通過空間注意力分支和通道注意力分支,兩分支的輸出通過拼接操作和1×1卷積進行特征融合后與輸入特征相加構成殘差連接,最終獲得雙注意力特征映射;其中空間注意力分支首先對特征分別應用全局平均池和最大池操作,兩者拼接后經過1次5×5卷積和sigmoid激活操作與對應通道相乘以形成空間注意力特征圖;通道注意力分支首先通過全局平均池來編碼全局上下文信息從而生成通道特征圖,特征圖通過1次1×1卷積,1次Relu激活函數,1次1×1卷積,1次sigmoid激活,生成的權值與對應通道相乘生成通道注意力特征圖;最后,來自兩個分支的注意力圖通過拼接操作和1×1卷積融合后與輸入特征圖相加形成雙注意力特征映射; b圖像增強模塊的網絡構建 圖像增強模塊由兩個多尺度殘差模塊級聯構成,第一級模塊的輸入與經過1次核為3,padding為1,步長為1,bias為False的卷積層與第二級模塊輸出相加構成殘差連接; 在多尺度殘差模塊中,首先,輸入的特征通過連續兩次倍率分別為2和4的下采樣操作獲得三種尺度上的特征信息,每個尺度下的特征信息通過雙注意力單元進行特征提取后,其次,在中間階段通過上采樣或下采樣操作交換不同尺度上的特征信息,每級輸入的來自三個尺度上的特征信息輸入特征選擇模塊進行特征融合選擇,然后,每級特征選擇模塊的輸出通過雙注意力單元后通過上采樣操作輸入特征選擇模塊,最后,模塊的輸出經過1次核為3,padding為1,步長為1,bias為False的卷積與初始輸入特征圖相加形成殘差連接后輸出; 特征選擇模塊通過融合和選擇兩個操作對網絡的感受野進行動態調整,該模塊將來自三個不同尺度上的特征信息相加后,先后通過1次全局平均池化,1次核為1,padding為0,步長為1,bias為False的卷積層,1次PRelu激活函數,3次核為1,padding為0,步長為1,bias為False的卷積層,1次Softmax層后得到經過選擇融合后的特征,最后,這組特征分別與輸入的不同尺度特征圖相乘再相加后,完成多尺度特征選擇融合操作; c整體網絡構建 整體網絡使用一個多尺度小波特征提取模塊和兩個圖像增強模塊級聯構成;級聯順序依次是:多尺度小波特征提取模塊、圖像增強模塊、圖像增強模塊;將輸入與最后一級模塊的輸出相加構成全局殘差連接; d損失函數設置 在網絡的訓練過程中,總的損失函數如公式1所示: LTotal=LL2oss+LSSIM+LPerceptual1 損失函數的定義對網絡模型性能來說至關重要,設計的生成網絡的損失函數由三部分組成,分別是像素級損失LL2oss、結構相似性損失LSSIM和感知損失LPerceptual,訓練時權重均一致; LL2oss用來計算增強網絡結果與Ground-truth之間的均方損失,LSSIM用來計算增強網絡結果與Ground-truth之間的亮度對比度結構差異,而LPerceptual是感知損失,用來計算增強網絡結果與Ground-truth都經過預訓練的VGG網絡后得到特征圖之間的均方損失,如公式2、3和4所示: 其中,W和H分別是指代輸入圖像的寬和高的尺寸,Fi指的是網絡的增強結果,GT指的是與輸入對應的Ground-truth,Vgg·對應經過預訓練的VGG網絡操作,選擇了預訓練VGG網絡的前30層輸出結果來進行計算,和μGT分別代表增強結果與Ground-truth的平均值,和分別代表增強結果與Ground-truth的方差,代表增強結果與Ground-truth的協方差,C1=k1L2和C2=k2L2分別表示兩個維持穩定變量,L是像素的動態范圍為255,k1=0.01,k2=0.03; 3數據加載與訓練測試設置 a數據加載 將訓練集中的成對圖像隨機剪切成128×128像素值的尺寸大小,并進行數據增強后輸入網絡進行訓練; b模型訓練 模型訓練使用的優化器為Adam優化器。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人北京工業大學,其通訊地址為:100124 北京市朝陽區平樂園100號;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。