先進(jìn)計(jì)算與關(guān)鍵軟件(信創(chuàng))海河實(shí)驗(yàn)室張一鳴獲國家專利權(quán)
買專利賣專利找龍圖騰,真高效! 查專利查商標(biāo)用IPTOP,全免費(fèi)!專利年費(fèi)監(jiān)控用IP管家,真方便!
龍圖騰網(wǎng)獲悉先進(jìn)計(jì)算與關(guān)鍵軟件(信創(chuàng))海河實(shí)驗(yàn)室申請(qǐng)的專利一種基于深度信息融合的視覺空間描述方法、系統(tǒng)及產(chǎn)品獲國家發(fā)明授權(quán)專利權(quán),本發(fā)明授權(quán)專利權(quán)由國家知識(shí)產(chǎn)權(quán)局授予,授權(quán)公告號(hào)為:CN119322986B 。
龍圖騰網(wǎng)通過國家知識(shí)產(chǎn)權(quán)局官網(wǎng)在2025-09-16發(fā)布的發(fā)明授權(quán)授權(quán)公告中獲悉:該發(fā)明授權(quán)的專利申請(qǐng)?zhí)?專利號(hào)為:202411866804.X,技術(shù)領(lǐng)域涉及:G06F18/2431;該發(fā)明授權(quán)一種基于深度信息融合的視覺空間描述方法、系統(tǒng)及產(chǎn)品是由張一鳴;許志偉;李濤;王嘉泰;李海龍?jiān)O(shè)計(jì)研發(fā)完成,并于2024-12-18向國家知識(shí)產(chǎn)權(quán)局提交的專利申請(qǐng)。
本一種基于深度信息融合的視覺空間描述方法、系統(tǒng)及產(chǎn)品在說明書摘要公布了:本發(fā)明涉及人工智能技術(shù)領(lǐng)域,具體公開了一種基于深度信息融合的視覺空間描述方法、系統(tǒng)及產(chǎn)品,方法包括:獲取圖像及其對(duì)應(yīng)的物體文本;對(duì)所述圖像進(jìn)行視覺?平面位置特征提取,得到視覺特征和平面位置特征,對(duì)所述圖像進(jìn)行深度特征提取,得到深度特征;對(duì)所述物體文本進(jìn)行文本編碼,得到文本特征;將所述視覺特征、平面位置特征、深度特征和文本特征進(jìn)行特征融合,得到融合特征;對(duì)所述融合特征進(jìn)行空間關(guān)系分類,得到空間關(guān)系;將指令語、所述空間關(guān)系和物體文本輸入大語言模型,得到描述物體空間關(guān)系的自然語句。本發(fā)明能夠準(zhǔn)確描述圖像中物體間的空間關(guān)系,提升人工智能的空間感知能力,同時(shí)避免增加多余的人工標(biāo)注工作量。
本發(fā)明授權(quán)一種基于深度信息融合的視覺空間描述方法、系統(tǒng)及產(chǎn)品在權(quán)利要求書中公布了:1.一種基于深度信息融合的視覺空間描述方法,其特征在于,包括: 獲取圖像及其對(duì)應(yīng)的物體文本; 所述物體文本只包括2個(gè)物體的文本標(biāo)簽; 對(duì)所述圖像進(jìn)行視覺-平面位置特征提取,得到視覺特征和平面位置特征,對(duì)所述圖像進(jìn)行深度特征提取,得到深度特征; 選擇Faster-RCNN作為目標(biāo)檢測(cè)算法,生成檢測(cè)物體的檢測(cè)框,其中每個(gè)檢測(cè)框內(nèi)像素利用視覺特征提取方法提取視覺特征,使用ResNet50作為視覺特征提取方法; 對(duì)于檢測(cè)框,首先計(jì)算每個(gè)檢測(cè)框面積,將檢測(cè)框坐標(biāo)信息和其面積進(jìn)行橫向連接組成物體平面位置信息,經(jīng)過全連接層得到平面位置特征,全連接層層數(shù)為3; 使用單目圖像深度估計(jì)方法對(duì)每張圖像逐像素估計(jì)深度值信息,形成對(duì)應(yīng)圖像的深度圖,使用DepthAnything-V2作為深度估計(jì)方法,將檢測(cè)框進(jìn)行復(fù)用到深度圖中,對(duì)檢測(cè)框內(nèi)的物體深度信息統(tǒng)一縮放成32×32大小后,經(jīng)過多個(gè)神經(jīng)網(wǎng)絡(luò)層得到深度特征,神經(jīng)網(wǎng)絡(luò)層使用4個(gè)3×3卷積核大小的卷積層和一層全連接層,全連接層輸出節(jié)點(diǎn)數(shù)量為256,激活函數(shù)使用ReLU; 對(duì)所述物體文本進(jìn)行文本編碼,得到文本特征; 將所述視覺特征、平面位置特征、深度特征和文本特征進(jìn)行特征融合,得到融合特征; 將視覺特征、平面位置特征、深度特征進(jìn)行橫向連接,再將文本特征橫向連接到每一行之后,輸入Transformer-Encoder模塊,得到融合特征; 使用6層Transformer-Encoder進(jìn)行融合特征,將四種特征進(jìn)行連接后輸入6層Transformer-Encoder,得到融合特征: 其中,表示6層Transformer-Encoder,表示沿1維進(jìn)行特征張量拼接操作,表示一張圖像的視覺特征,表示一張圖像的平面位置特征,表示一張圖像的深度特征,表示編碼后得到的文本特征; 對(duì)所述融合特征進(jìn)行空間關(guān)系分類,得到空間關(guān)系; 將指令語、所述空間關(guān)系和物體文本輸入大語言模型,得到描述物體空間關(guān)系的自然語句。
如需購買、轉(zhuǎn)讓、實(shí)施、許可或投資類似專利技術(shù),可聯(lián)系本專利的申請(qǐng)人或?qū)@麢?quán)人先進(jìn)計(jì)算與關(guān)鍵軟件(信創(chuàng))海河實(shí)驗(yàn)室,其通訊地址為:300450 天津市濱海新區(qū)塘沽高新區(qū)科技展示中心三層;或者聯(lián)系龍圖騰網(wǎng)官方客服,聯(lián)系龍圖騰網(wǎng)可撥打電話0551-65771310或微信搜索“龍圖騰網(wǎng)”。
1、本報(bào)告根據(jù)公開、合法渠道獲得相關(guān)數(shù)據(jù)和信息,力求客觀、公正,但并不保證數(shù)據(jù)的最終完整性和準(zhǔn)確性。
2、報(bào)告中的分析和結(jié)論僅反映本公司于發(fā)布本報(bào)告當(dāng)日的職業(yè)理解,僅供參考使用,不能作為本公司承擔(dān)任何法律責(zé)任的依據(jù)或者憑證。
- 中國石油化工股份有限公司倪杰獲國家專利權(quán)
- 株式會(huì)社迪思科田中英明獲國家專利權(quán)
- 北京科吉發(fā)節(jié)能技術(shù)有限公司王保行獲國家專利權(quán)
- 添可智能科技有限公司朱濤獲國家專利權(quán)
- 東莞市華璞自動(dòng)化科技有限公司時(shí)國林獲國家專利權(quán)
- 貴州黔森源竹編工藝廠楊杜娟獲國家專利權(quán)
- 江西晶超光學(xué)有限公司鄒金華獲國家專利權(quán)
- 法可賽(太倉)汽車配件有限公司曼紐爾·加西亞·洛佩茲獲國家專利權(quán)
- 阿諾·查斯阿諾·查斯獲國家專利權(quán)
- 株式會(huì)社迪思科原田成規(guī)獲國家專利權(quán)