青島高重信息科技有限公司夏克江獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網獲悉青島高重信息科技有限公司申請的專利一種基于困難樣本挖掘的人臉數據清洗方法獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN116092149B 。
龍圖騰網通過國家知識產權局官網在2025-08-29發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202211444571.5,技術領域涉及:G06V40/16;該發明授權一種基于困難樣本挖掘的人臉數據清洗方法是由夏克江;樊治國設計研發完成,并于2022-11-18向國家知識產權局提交的專利申請。
本一種基于困難樣本挖掘的人臉數據清洗方法在說明書摘要公布了:本發明公開了一種基于困難樣本挖掘的人臉數據清洗方法,包括以下步驟:S1獲取同一文件夾下的人臉圖像列表、S2用已經訓練好的人臉識別模型提取人臉圖像特征、S3獲取簡單樣本、S4獲取困難樣本、以及S5將困難樣本圖像直接刪除,簡單樣本圖像進行保留,合并S3中已經確定為“簡單樣本”的圖像,輸出最終清洗后的人臉圖像數據。本發明能夠準確檢測人臉圖像中存在的臟數據,即能夠較好處理人臉數據中存在的非同一個人照片、低質量人臉圖像大角度姿態、大范圍遮擋、大面積模糊等問題。
本發明授權一種基于困難樣本挖掘的人臉數據清洗方法在權利要求書中公布了:1.一種基于困難樣本挖掘的人臉數據清洗方法,其特征在于,包括以下步驟: S1.獲取同一文件夾下的人臉圖像列表; S2.用已經訓練好的人臉識別模型提取人臉圖像特征,并兩兩計算余弦相似度;然后對相似度進行降序排列; S3.獲取簡單樣本;將相似度高于0.5并且特征范數大于10的圖像,定為“簡單樣本”,并將圖像名稱保存在name_list_sample列表中; S4.獲取困難樣本;將相似度低于0.2或者特征范數小于10的圖像,定為“疑似困難樣本”,并將圖片名稱和出現頻率保存到name_list_min列表中; S5.根據name_list_min統計困難樣本; S6.將困難樣本圖像直接刪除,簡單樣本圖像進行保留,合并S3中已經確定為“簡單樣本”的圖像,輸出最終清洗后的人臉圖像數據; 在S1中,訓練人臉識別模型時,將訓練數據按照人員類別劃分到不同的文件夾中,即同一個文件夾下的人臉圖像屬于相同的人員ID;首先獲取到相同目錄下的文件列表,用于后續處理; 在S3中,在人臉識別模型訓練中,高質量訓練數據能夠提供更多的判別信息,更有利于模型訓練,加快模型收斂速度;簡單樣本挖掘分為以下幾個步驟: S31.輸入同一文件夾下的圖像列表; S32.用預訓練模型提取人臉圖像特征值,并兩兩計算余弦相似度;余弦相似度通過測量兩個向量之間夾角的余弦值來度量它們之間的相似性;給定兩個向量A和B,它們的余弦相似度的計算公式為:余弦相似度的范圍為0~1之間,若越接近于1,則兩個向量的相似度越高;越接近于0,則兩個向量的相似度越低;S33.對余弦相似度進行降序排列;S34.根據圖像對余弦相似度和圖像特征范數大小,對“簡單樣本”、“中間類樣本”、“疑似困難樣本”、“困難樣本”進行篩選; 在S4中,輸入S3中得到的“疑似困難樣本”,這批數據中可能包含各種類型的數據,因此,需要對其做進一步的挖掘,具體包括以下步驟:S41.將S3中得到的疑似困難樣本作為本步驟的輸入; S42.算法執行過程為如果疑似困難樣本為困難樣本,那么理論上該圖像和其他任意圖像的余弦相似度都比較低,因此,困難樣本在name_list_min中出現的頻次會比較高;基于該論點,將name_list_min列表進行遍歷,若出現頻次最高減次高大于閾值thres_3,那么即可認為最高出現頻次對應的圖像為困難樣本,可以直接刪除;在S6中,將S2和S3執行完畢后保留的樣本進行合并,輸出為清洗后的人臉訓練圖像。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人青島高重信息科技有限公司,其通訊地址為:266300 山東省青島市膠州市香港路1號大沽河度假區管委會A樓;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。