寧波大學許丁寧獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網獲悉寧波大學申請的專利一種融合集成注意力的2D人體姿態估計方法獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN114519865B 。
龍圖騰網通過國家知識產權局官網在2025-08-29發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202210041759.9,技術領域涉及:G06V40/10;該發明授權一種融合集成注意力的2D人體姿態估計方法是由許丁寧;張榮;郭立君;王藝睿設計研發完成,并于2022-01-14向國家知識產權局提交的專利申請。
本一種融合集成注意力的2D人體姿態估計方法在說明書摘要公布了:本發明公開了一種融合集成注意力的2D人體姿態估計方法,通過在現有的HRNet基礎上增加一個集成注意力模塊構建得到融合集成注意力模塊的HRNet網絡,融合集成注意力模塊的HRNet網絡包括HRNet和集成注意力模塊,集成注意力模塊具有第一分支、第二分支和合并分支,第一分支采用一個平均池化層實現,第二分支采用一個平均池化層實現,合并分支包括concat層、第1個全連接層、ReLu激活層、第2個全連接層、Sigmoid激活層,集成注意力模塊通過提取不同感受野大小的層域特征集合,在通道方向上聚合信息,達到局部特征再學習的目的;優點是人體姿態估計速度快,且準確度高。
本發明授權一種融合集成注意力的2D人體姿態估計方法在權利要求書中公布了:1.一種融合集成注意力的2D人體姿態估計方法,其特征在于包括以下步驟: 步驟1:從網站獲取一個2D人體姿態估計任務的公共數據集MSCOCO,該公共數據集MSCOCO包含N張自然場景下人的圖像以及每張人的圖像中人體17個關節點的坐標;每張人的圖像均為三通道彩色圖像;其中,N=175000,17個關節點包括左眼、右眼、鼻子、左耳、右耳、左肩、右肩、左手肘、右手肘、左手腕、右手腕、左胯、右胯、左膝蓋、右膝蓋、左腳踝和右腳踝,各個關節點的坐標基于圖像坐標系確定,由橫坐標和縱坐標構成,圖像坐標系以圖像左上角頂點為坐標原點,從坐標原點水平向右方向為正橫坐標,從坐標原點垂直向下方向為正縱坐標;從公共數據集MSCOCO中175000張人的圖像及這175000張人的圖像中每張人的圖像中人體17個關節點的坐標,將MSCOCO數據集中這175000張人的圖像隨機劃分為訓練集、驗證集和測試集三類,其中訓練集有150000張人的圖像,驗證集有5000張人的圖像,測試集有20000張人的圖像; 步驟2:從訓練集和驗證集中獲取所有人的圖像,然后分別制作每張人的圖像對應的17張關節點熱圖,其中每張人的圖像對應的第K張關節點熱圖的制作方法為:設計一張尺寸大小等于人的圖像的空白圖像,人的圖像中每個像素點與空白圖像中相同位置處的像素點相對應,然后將人的圖像中第K個關節點的坐標定義為中心坐標,將該中心坐標的橫坐標記為縱坐標記為在與中心坐標處像素點對應的空白圖像中的像素點處標注數值1,1表示是第K個關節點的正確位置,接著以中心坐標為圓心,σ=3cm為半徑在人的圖像上確定一個圓形區域,分別利用二維高斯函數計算圓形區域中除中心坐標處像素點以外的其余每個像素點處的數值,將得到的每個像素點處的數值標注在空白圖像中對應的像素點處,其中,e表示自然對數的底,mK表示圓形區域內除中心坐標處像素點以外的其余某個像素點的橫坐標,nK表示圓形區域內除中心坐標處像素點以外的其余某個像素點的縱坐標,圓形區域內除中心坐標的像素點數值外,其余像素點的數值分別大于0且小于1,其數值表示與第K個關節點的正確位置相近,但不是第K個關節點的正確位置,最后,將空白圖像中其余未標注的所有像素點處標記數值0,0表示不是第K個關節點的正確位置,空白圖像中所有像素點對應標記完成后,即為人的圖像對應的第K張關節點熱圖; 對訓練集和驗證集中所有人的圖像和每張人的圖像對應的17張關節點熱圖分別進行拉伸,使其長均為256厘米,寬均為192厘米,即所有人的圖像以及所有關節點熱圖的尺寸均為256×192,每張人的圖像對應的17張關節點熱圖即為其對應的17個標簽; 步驟3:在現有的HRNet基礎上增加一個集成注意力模塊構建得到融合集成注意力模塊的HRNet網絡,所述的融合集成注意力模塊的HRNet網絡包括HRNet和集成注意力模塊,所述的HRNet具有第一階段、第二階段、第三階段、第四階段和解碼階段,所述的第一階段用于接收大小為256×192×3的圖像,并對該圖像進行特征提取,生成大小為64×48×256的特征圖輸出,所述的第二階段用于接收所述的第一階段輸出的大小為64×48×256的特征圖,并對該特征圖進行特征提取,生成大小為64×48×32的特征圖輸出,所述的第三階段用于接入所述的第二階段輸出的大小為64×48×32的特征圖,并生成大小為64×48×32的特征圖輸出;所述的集成注意力模塊用于接入所述的第二階段輸出的大小為64×48×32的特征圖以及所述的第三階段輸出的大小為64×48×32的特征圖,并分別對接入的兩張特征圖進行通道特征提取,生成大小為64×48×32的特征圖輸出,所述的第四階段用于接入所述的集成注意力模塊輸出的大小為64×48×32的特征圖,并對該特征圖進行特征提取,生成大小為64×48×32的特征圖輸出;所述的解碼階段用于接入所述的第四階段輸出的大小為64×48×32的特征圖,并生成大小為64×48×17的預測關節點熱圖輸出; 所述的集成注意力模塊具有第一分支、第二分支和合并分支,所述的第一分支采用一個平均池化層實現,所述的第一分支用于接入所述的第二階段輸出的大小為64×48×32的特征圖,并對該特征圖進行特征提取,生成大小為1×1×32的特征圖輸出,所述的第二分支采用一個平均池化層實現,所述的第二分支用于接入所述的第三階段輸出的大小為64×48×32的特征圖,并對該特征圖進行特征提取,生成大小為1×1×32的特征圖輸出,所述的合并分支包括concat層、第1個全連接層、ReLu激活層、第2個全連接層和Sigmoid激活層,所述的合并分支的concat層用于接入所述的第一分支輸出的大小為1×1×32的特征圖以及所述的第二分支輸出的大小為1×1×32的特征圖,并進行特征提取,生成大小為1×1×64的特征圖輸出,所述的合并分支的第1個全連接層用于接入所述的合并分支的concat層輸出的大小為1×1×64的特征圖,并對該特征圖進行特征提取,生成大小為1×1×4的特征圖輸出,所述的合并分支的ReLu激活層用于接入所述的合并分支的第1個全連接層輸出的大小為1×1×4的特征圖,并對該特征圖進行特征提取,生成大小為1×1×4的特征圖輸出,所述的合并分支的第2個全連接層用于接入所述的ReLu激活層輸出的大小為1×1×4的特征圖,并對該特征圖進行特征提取,生成大小為1×1×32的特征圖輸出,所述的合并分支的Sigmoid激活層用于接入所述的合并分支的第2個全連接層輸出的大小為1×1×32的特征圖以及所述的第三階段輸出的大小為64×48×32的特征圖,并對大小為1×1×32的特征圖進行特征提取后與所述的第三階段輸出的大小為64×48×32的特征圖相乘,生成大小為64×48×32的特征圖輸出; 步驟4:對所述的融合集成注意力模塊的HRNet網絡進行訓練,具體過程為: 1對所述的融合集成注意力模塊的HRNet網絡采用he_normal參數初始化方法進行初始化; 2將訓練集中的人的圖像隨機分成多個batch,使每個batch中包含batchsize張人的圖像,若訓練集中的人的圖像總數能被batchsize整除,則分成人的圖像總數batchsize個batch,若訓練集中的人的圖像總數不能被batchsize整除,則將剩余部分舍去,得到|人的圖像總數batchsize︱個batch,其中batchsize=32,︱︱為取整符號; 3取其中一個batch,對這個batch中所有人的圖像均采用隨機旋轉進行數據增強處理,其中旋轉度數范圍為大于0°且小于等于45°; 4將所選取batch中所有人的圖像作為所述的融合集成注意力模塊的HRNet網絡的輸入,輸入到所述的融合集成注意力模塊的HRNet網絡中進行識別處理,所述的融合集成注意力模塊的HRNet網絡得到該batch中每張人的圖像對應的17張預測關節點熱圖輸出; 5對所選取batch中每張人的圖像,分別根據對應的17張預測關節點熱圖和對應的17個標簽,計算每張人的圖像的人體姿態估計損失值,并計算得到所選取batch中所有人的圖像的人體姿態估計損失值平均值作為最終損失值,其中,每張人的圖像的人體姿態估計損失值計算如下所示: 其中,M=256×192×17,GHeatj表示所取batch中一張人的圖像對應的第j個關節點熱圖,Heatj表示該張人的圖像對應的第j個預測關節點熱圖,其中j=1,2,3,…,17; 6根據步驟5中計算得到的所取batch中所有人的圖像的人體姿態估計損失值,使用學習率為1e-3的Adam優化器對所述的融合集成注意力模塊的HRNet網絡的參數進行訓練,完成所選取batch對所述的融合集成注意力模塊的HRNet網絡的訓練; 7重復步驟3-6,直至所有的batch都對所述的融合集成注意力模塊的HRNet網絡進行一次訓練,然后將驗證集中所有人的圖像輸入到此時訓練后的融合集成注意力模塊的HRNet網絡中,并采用步驟5相同的方法得到驗證集中每張人的圖像的人體姿態估計損失值,計算并得到驗證集中所有人的圖像的人體姿態估計損失值平均值; 8重復步驟2-7共Num次,直至所述的融合集成注意力模塊的HRNet網絡在驗證集上的損失收斂,最終得到訓練好的融合集成注意力模塊的HRNet網絡,其中Num≥210; 步驟5:將需要人體姿態估計的人的圖像進行拉伸,使其長為256厘米,寬為192厘米,然后將拉伸后的人的圖像輸入到訓練好的融合集成注意力模塊的HRNet網絡中,訓練好的融合集成注意力模塊的HRNet網絡生成17張預測關節點熱圖輸出,該17張預測關節點熱圖即為人體姿態估計結果。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人寧波大學,其通訊地址為:315211 浙江省寧波市江北區風華路818號;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。