中國科學技術大學查正軍獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網獲悉中國科學技術大學申請的專利一種基于第一人稱視頻的三維人-物體交互元素預測方法獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN119625588B 。
龍圖騰網通過國家知識產權局官網在2025-09-02發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202411797971.3,技術領域涉及:G06V20/20;該發明授權一種基于第一人稱視頻的三維人-物體交互元素預測方法是由查正軍;翟偉;曹洋;楊雨航設計研發完成,并于2024-12-09向國家知識產權局提交的專利申請。
本一種基于第一人稱視頻的三維人-物體交互元素預測方法在說明書摘要公布了:本發明公開了一種基于第一人稱視角視頻的三維人?物體交互元素預測方法,其步驟包括:1、提取第一人稱視頻的特征、物體的點云特征和頭部運動特征;2、計算物體點云的交互概念特征;3、計算主體交互意圖特征;4、解碼物體可供性、人體接觸特征和交互語義;5、構建損失監督函數并訓練。本發明綜合考慮第一人稱交互中的主體交互意圖和客體交互概念之間的關聯性,從而能準確預測第一人稱視角下三維人?物體交互元素。
本發明授權一種基于第一人稱視頻的三維人-物體交互元素預測方法在權利要求書中公布了:1.一種基于第一人稱視角視頻的三維人-物體交互元素預測方法,其特征在于,包括以下步驟: 步驟1、提取第一人稱視頻的特征、物體的點云特征和頭部運動特征: 步驟1.1、提取第一人稱視頻的特征; 獲取一個批次的第一人稱視頻,其中,代表第b個第一人稱視頻,代表一個批次的第一人稱視頻的數量,F代表每個第一人稱視頻的幀數,代表第一人稱視頻中每幀的通道數量,和分別代表第一人稱視頻中每幀的寬和長; 將第b個第一人稱視頻中的每一幀進行歸一化處理后輸入HRNet網絡中,并得到第b個特征向量,其中,和分別為特征向量的寬和高,代表特征向量的通道數; 將在時序維度上進行一次自注意力計算后,得到第b個第一人稱視頻的特征; 步驟1.2、物體的點云特征; 獲取同一個批次的物體點云數據,其中,代表第b個物體點云數據, o為每個物體點云數據中點的數量,代表物體點云數據的空間維度; 利用DGCNN網絡提取的逐點特征; 步驟1.3、頭部運動特征提取 獲取同一個批次的頭部運動數據,其中,代表第b個頭部運動數據,12代表平移向量的3個維度和旋轉向量的9個維度之和; 利用MLP層對進行編碼,得到第b個頭部運動特征; 步驟2、提取計算第b個物體點云數據的交互概念特征并按照空間維度切分后,得到第b個物體的可供性特征和第b個物體的交互語義特征; 步驟3、提取第b個第一人稱視頻中主體的交互意圖特征并按照空間維度進行切分后,得到第b個主體的接觸特征和第b個主體的交互語義特征; 步驟4、解碼物體可供性特征、人體接觸特征和交互語義特征; 步驟4.1、將和在特征維度上進行拼接后輸入MLP層中進行映射,得到第b個交互語義類別,其中,M代表交互的類別數量; 步驟4.2、將經過MLP層的映射后,得到第b個人體接觸頂點,其中,代表人體網格中頂點的數量; 步驟4.3、將作為查詢向量Query,作為鍵值對,并經過交叉注意力計算后,再輸入MLP層中進行映射,從而得到第b個物體可供性; 步驟5、構建總損失函數: 步驟6、利用梯度下降法對總損失函數進行優化,使得總損失函數收斂為止,從而得到從第一人稱視角視頻預測三維人-物體交互元素的最優模型,用于對輸入的一人稱視角視頻進行預測,得到預測的人體接觸頂點、物體可供性以及交互類別。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人中國科學技術大學,其通訊地址為:230026 安徽省合肥市包河區金寨路96號;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。