華東師范大學王妍獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網獲悉華東師范大學申請的專利基于深度學習的單模態誘導的多模態預訓練方法及系統獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN116758397B 。
龍圖騰網通過國家知識產權局官網在2025-08-22發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202310770693.1,技術領域涉及:G06V10/82;該發明授權基于深度學習的單模態誘導的多模態預訓練方法及系統是由王妍;金婷;李慶利設計研發完成,并于2023-06-27向國家知識產權局提交的專利申請。
本基于深度學習的單模態誘導的多模態預訓練方法及系統在說明書摘要公布了:本發明公開了基于深度學習的單模態誘導的多模態預訓練方法及系統,本發明的工作旨在處理多模態圖像組學分類的主要挑戰從高維度模態數據中提取特征的困難,以及考慮高階相關性的有效融合。具體地說,本發明首先提出了一組多頭自注意編碼器來捕獲長序列中的全局結構化特征。然后,本發明設計了一個掩蔽補丁建模范式,該范式從高分辨率圖像的固定的長度連續子序列中屏蔽隨機補丁特征,以捕獲潛在特征。最后,本發明結合成對模式的分類標記,提出一個三聯體學習模塊來學習高階相關性和提取全局特征。經過預訓練后,可以采用簡單的微調來得到分類結果。本發明可以用于視覺問答,圖像處理,自動駕駛,醫療等領域。
本發明授權基于深度學習的單模態誘導的多模態預訓練方法及系統在權利要求書中公布了:1.基于深度學習的單模態誘導的多模態預訓練方法,其特征在于,包括以下步驟: S1:采集長序列數據和高分辨率圖像; S2:基于分組的多頭自注意力編碼器GroupMSA,獲得長序列數據中的全局結構化特征,作為誘導多模態預訓練的單模態特征; S3:基于屏蔽補丁建模預訓練策略,從高分辨率圖像的固定的長度連續子序列中屏蔽隨機補丁特征,獲得高分辨率圖像中的全局結構化特征; S4:構建單模態誘導的三重學習模塊,將所述長序列數據中的全局結構化特征和所述高分辨率圖像中的全局結構化特征輸入所述單模態誘導的三重學習模塊,融合得到多模態特征,再通過CLS標記字符提取多模態特征的高階全局特征; 所述S2中,獲得長序列數據中的全局結構化特征的方法包括: S21:將長序列數據劃分為個不重疊片段; S22:基于所述個不重疊片段,使用線性映射,獲得片段特征,其中d為隱藏維度; S23:引入一個內部注意力模塊,獲得所述片段特征中的局部和全局信息,其中,所述片段特征中的局部和全局信息即為所述長序列數據中的全局結構化特征; 所述S3中,獲得高分辨率圖像中的全局結構化特征的方法包括: S31:設置固定的連續子序列長度L的閾值; S32:將所述連續子序列長度L小于閾值的連續子序列重復構建小批次,并設置掩蔽比和掩蔽下標集,獲得掩碼序列; S33:采用基于兩層Nystrom的補丁聚合器和輕量級重構解碼器處理所述掩碼序列,屏蔽隨機補丁嵌入,并重構不可見信息,獲得高分辨率圖像中的全局結構化特征; 所述S4中,構建單模態誘導的三重學習模塊,將所述長序列數據中的全局結構化特征和所述高分辨率圖像中的全局結構化特征輸入所述單模態誘導的三重學習模塊,通過CLS標記字符提取高階全局特征的方法包括: S41:對所述分組的多頭自注意力編碼器GroupMSA進行預訓練,獲得序列特征,并在迭代中凍結; S42:將高分辨率圖像的可學習CLS標記字符添加到所述掩碼序列中,獲得補丁嵌入; S43:分別提取所述補丁嵌入和所述序列特征,并和最終的分類標記連接為; S44:利用三重態學習的損失函數對所述進行優化; S45:利用多層感知器頭將所述進行映射,獲得最終的高階全局特征。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人華東師范大學,其通訊地址為:200241 上海市閔行區東川路500號;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。