江漢大學;武漢神思科學發展中心桑鴻乾獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網獲悉江漢大學;武漢神思科學發展中心申請的專利增強多模態大模型空間感知能力的方法及裝置獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN120339399B 。
龍圖騰網通過國家知識產權局官網在2025-08-26發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202510792038.5,技術領域涉及:G06T7/73;該發明授權增強多模態大模型空間感知能力的方法及裝置是由桑鴻乾;劉帥帥;徐璐;李濤;葉立恒;何宇鵬;文佳怡設計研發完成,并于2025-06-13向國家知識產權局提交的專利申請。
本增強多模態大模型空間感知能力的方法及裝置在說明書摘要公布了:本申請涉及計算機視覺技術領域,特別涉及一種增強多模態大模型空間感知能力的方法及裝置,其中,方法包括:利用多模態大模型提取目標圖像和或目標視頻中至少一個物體的特征描述信息并生成初始結構化數據;對目標圖像和或目標視頻進行網格化處理,并在網格中添加包含位置信息的視覺提示,結合視覺提示和初始結構化數據生成包含坐標信息和描述信息的結構化數據;基于結構化數據,定位至少一個物體對應的目標區域并優化空間坐標,以得到至少一個物體的實際物體坐標;將其映射回目標圖像和或目標視頻的系統坐標,得到至少一個物體在空間中的實際定位結果。本申請可以顯著提升多模態大模型的空間感知能力與動態場景適應能力,具有廣泛應用場景。
本發明授權增強多模態大模型空間感知能力的方法及裝置在權利要求書中公布了:1.一種增強多模態大模型空間感知能力的方法,其特征在于,包括以下步驟: 利用多模態大模型提取目標圖像和或目標視頻中至少一個物體的特征描述信息,并根據所述特征描述信息生成所述至少一個物體的初始結構化數據; 對所述目標圖像和或所述目標視頻進行網格化處理,并在所述目標圖像和或所述目標視頻的多個網格中添加包含位置信息的視覺提示,以結合所述視覺提示和所述初始結構化數據生成包含所述至少一個物體的坐標信息和描述信息的結構化數據; 基于所述結構化數據,在所述目標圖像和或所述目標視頻中定位所述至少一個物體對應的目標區域,并通過所述目標區域優化所述坐標信息,以得到所述至少一個物體的實際物體坐標; 將所述實際物體坐標映射回所述目標圖像和或所述目標視頻的系統坐標,以得到所述至少一個物體在空間中的實際定位結果。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人江漢大學;武漢神思科學發展中心,其通訊地址為:430056 湖北省武漢市經濟技術開發區三角湖路8號;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。