山東省計(jì)算中心(國家超級(jí)計(jì)算濟(jì)南中心);齊魯工業(yè)大學(xué)(山東省科學(xué)院)郭瑩獲國家專利權(quán)
買專利賣專利找龍圖騰,真高效! 查專利查商標(biāo)用IPTOP,全免費(fèi)!專利年費(fèi)監(jiān)控用IP管家,真方便!
龍圖騰網(wǎng)獲悉山東省計(jì)算中心(國家超級(jí)計(jì)算濟(jì)南中心);齊魯工業(yè)大學(xué)(山東省科學(xué)院)申請(qǐng)的專利一種基于GCN和RoBERTa的上下文感知的列語義識(shí)別方法和系統(tǒng)獲國家發(fā)明授權(quán)專利權(quán),本發(fā)明授權(quán)專利權(quán)由國家知識(shí)產(chǎn)權(quán)局授予,授權(quán)公告號(hào)為:CN117312989B 。
龍圖騰網(wǎng)通過國家知識(shí)產(chǎn)權(quán)局官網(wǎng)在2025-09-09發(fā)布的發(fā)明授權(quán)授權(quán)公告中獲悉:該發(fā)明授權(quán)的專利申請(qǐng)?zhí)?專利號(hào)為:202311380815.2,技術(shù)領(lǐng)域涉及:G06F18/2415;該發(fā)明授權(quán)一種基于GCN和RoBERTa的上下文感知的列語義識(shí)別方法和系統(tǒng)是由郭瑩;張穎;王英龍;楊美紅;吳曉明;潘景山;楊曉晗;劉尚旭設(shè)計(jì)研發(fā)完成,并于2023-10-24向國家知識(shí)產(chǎn)權(quán)局提交的專利申請(qǐng)。
本一種基于GCN和RoBERTa的上下文感知的列語義識(shí)別方法和系統(tǒng)在說明書摘要公布了:本發(fā)明涉及一種基于GCN和RoBERTa的上下文感知的列語義識(shí)別方法和系統(tǒng),包括:數(shù)據(jù)預(yù)處理:設(shè)置增量同步數(shù)據(jù)獲取任務(wù),進(jìn)行數(shù)據(jù)采集和清洗,加載到Mysql環(huán)境當(dāng)中;列語義識(shí)別:基于數(shù)據(jù)集的列關(guān)系屬性及屬性關(guān)系構(gòu)建詞匯關(guān)系圖,作為雙層GCN圖卷積網(wǎng)絡(luò)輸入來獲取GCN全局語義特征嵌入;通過RoBERTa預(yù)訓(xùn)練模型線性化編碼,將初步列向量輸入到三層Tansformer使用其多頭列注意力機(jī)制來獲取局部語義特征嵌入,將并聯(lián)輸出的嵌入向量通過注意力機(jī)制融合權(quán)值,得到全局?局部交互的上下文語義信息,并使用Adaline進(jìn)行分類預(yù)測(cè);本發(fā)明構(gòu)建了上下文列語義識(shí)別模型,基于關(guān)系列投影進(jìn)行元數(shù)據(jù)的語義識(shí)別。
本發(fā)明授權(quán)一種基于GCN和RoBERTa的上下文感知的列語義識(shí)別方法和系統(tǒng)在權(quán)利要求書中公布了:1.一種基于GCN和RoBERTa的上下文感知的列語義識(shí)別方法,其特征在于,包括: 數(shù)據(jù)預(yù)處理:編寫Spark作業(yè)執(zhí)行將Hudi與MySQL數(shù)據(jù)鏈路打通操作來設(shè)置增量同步數(shù)據(jù)獲取任務(wù),并且按照固定維度分區(qū)進(jìn)行數(shù)據(jù)采集和清洗,采集得到的數(shù)據(jù)按照覆蓋現(xiàn)有數(shù)據(jù)的形式加載到Mysql環(huán)境當(dāng)中; 列語義識(shí)別:基于GCN和RoBERTa構(gòu)造的列語義識(shí)別模型作為預(yù)測(cè)模型;使用數(shù)據(jù)集的列關(guān)系屬性及屬性關(guān)系構(gòu)建詞匯關(guān)系圖,作為雙層GCN圖卷積網(wǎng)絡(luò)輸入來獲取GCN全局語義特征嵌入;與此同時(shí),通過RoBERTa預(yù)訓(xùn)練模型線性化編碼,將初步列向量輸入到三層Tansformer使用其多頭列注意力機(jī)制來獲取局部語義特征嵌入,將GCN以及RoBERta的并聯(lián)輸出的嵌入向量通過注意力機(jī)制融合權(quán)值,得到全局-局部交互的上下文語義信息,并使用Adaline進(jìn)行分類預(yù)測(cè); 標(biāo)簽糾錯(cuò)及更新優(yōu)化:通過Self-Attention機(jī)制實(shí)現(xiàn)標(biāo)簽之間地共現(xiàn)糾錯(cuò),并且通過交叉熵?fù)p失函數(shù)對(duì)模型參數(shù)優(yōu)化以及抽取增量數(shù)據(jù)循環(huán)更新優(yōu)化模型; 信息融合預(yù)測(cè)分類,包括: 首先,將GCN全局語義特征嵌入與RoBERTa局部語義特征嵌入通過注意力機(jī)制融合權(quán)值,得到全局-局部交互的上下文語義特征向量; 其次,在RoBERTa預(yù)訓(xùn)練模型訓(xùn)練過程中,將輸出的向量經(jīng)過MLP全連接層以及Softmax函數(shù)歸一化操作,最終輸出每個(gè)樣本對(duì)應(yīng)的所屬語義類別概率,進(jìn)行預(yù)測(cè)分類;采用Adaline算法對(duì)輸出的所屬語義類別概率進(jìn)行整合,包括:采用多路MLP的方法,將經(jīng)過不同層數(shù)全連接層得到的結(jié)果組成一個(gè)向量,該向量即Adaline算法的輸入,Adaline算法根據(jù)輸出的所屬語義類別概率,給不同MLP的輸出進(jìn)行打分;其中,輸出的所屬語義類別概率越接近標(biāo)簽的輸出值將得到更高的分?jǐn)?shù);接下來,根據(jù)這個(gè)打分的分布,在一個(gè)正態(tài)分布上進(jìn)行采樣,并且根據(jù)采樣值對(duì)每個(gè)打分進(jìn)行了不同權(quán)重的累加,按照該累加的值獲得當(dāng)前樣本的加權(quán)得分,獲得樣本最終所屬分類的概率; 在該方法中,通過Self-Attention機(jī)制實(shí)現(xiàn)標(biāo)簽之間地共現(xiàn)糾錯(cuò),并且通過交叉熵?fù)p失函數(shù)對(duì)模型參數(shù)優(yōu)化以及抽取增量數(shù)據(jù)循環(huán)更新優(yōu)化模型,包括: 首先,利用Transformer模型Encoder部分的Self-Attention機(jī)制實(shí)現(xiàn)標(biāo)簽之間的共現(xiàn),使每一個(gè)輸入標(biāo)簽都得到對(duì)應(yīng)的輸出向量,進(jìn)一步分類映射到真實(shí)的類別標(biāo)簽; 其次,損失函數(shù)采用聯(lián)合訓(xùn)練對(duì)模型參數(shù)進(jìn)行更新; 最后,通過設(shè)定固定時(shí)間周期,從hudi數(shù)據(jù)湖中抽取的增量數(shù)據(jù)來更新優(yōu)化模型; 通過Self-Attention機(jī)制實(shí)現(xiàn)標(biāo)簽之間地共現(xiàn)糾錯(cuò),包括: 搭建一個(gè)共現(xiàn)標(biāo)簽搭建的糾錯(cuò)模型,將上述預(yù)測(cè)模型預(yù)測(cè)的不完全正確的標(biāo)簽序列y1映射到更正確的標(biāo)簽序列y2;糾錯(cuò)模型選擇并行化的且具有順序無關(guān)性的Transformer模型的Encoder模塊,糾錯(cuò)模型輸入為預(yù)測(cè)模型預(yù)測(cè)的標(biāo)簽,標(biāo)簽對(duì)每一個(gè)標(biāo)簽進(jìn)行向量化,利用Transformer模型Encoder部分的Self-Attention機(jī)制實(shí)現(xiàn)標(biāo)簽之間的共現(xiàn),每一個(gè)輸入標(biāo)簽都得到對(duì)應(yīng)的輸出向量,進(jìn)一步分類映射到真實(shí)的類別標(biāo)簽,y={y0,y1,...,yn-1},其中每一個(gè)輸出位置都是關(guān)于輸入的標(biāo)簽序列的概率最大化; 更新優(yōu)化模型,包括: 首先,采用三元熵?fù)p失函數(shù)聯(lián)合訓(xùn)練,對(duì)預(yù)測(cè)模型參數(shù)進(jìn)行更新,以及采用交叉熵?fù)p失函數(shù)對(duì)糾錯(cuò)模型進(jìn)行優(yōu)化更新; 其次,通過設(shè)定固定時(shí)間周期,從hudi數(shù)據(jù)湖中抽取的增量數(shù)據(jù)來更新優(yōu)化預(yù)測(cè)模型; 三元熵?fù)p失函數(shù),包括: 采用Adam優(yōu)化器來優(yōu)化目標(biāo)函數(shù),并通過反向傳播來更新每輪迭代過程中預(yù)測(cè)模型的各種參數(shù),直到預(yù)測(cè)模型達(dá)到擬合要求;并且使用三元熵?fù)p失函數(shù)采用聯(lián)合訓(xùn)練對(duì)預(yù)測(cè)模型參數(shù)進(jìn)行微調(diào),通過兩兩計(jì)算交叉熵并對(duì)其進(jìn)行平均池化操作,獲取實(shí)際輸出與期望輸出的距離; 對(duì)于每個(gè)樣本,預(yù)測(cè)模型預(yù)測(cè)概率分布為實(shí)際的標(biāo)簽真值分布表示為y={y0,y1,...,yn-1},對(duì)于每一對(duì)類別i和j,計(jì)算交叉熵?fù)p失公式如Ⅸ所示: 生成個(gè)交叉熵?fù)p失值,對(duì)這些交叉熵?fù)p失值進(jìn)行平均池化averagepooling,得到最終的三元熵?fù)p失如Ⅹ所示:
如需購買、轉(zhuǎn)讓、實(shí)施、許可或投資類似專利技術(shù),可聯(lián)系本專利的申請(qǐng)人或?qū)@麢?quán)人山東省計(jì)算中心(國家超級(jí)計(jì)算濟(jì)南中心);齊魯工業(yè)大學(xué)(山東省科學(xué)院),其通訊地址為:250014 山東省濟(jì)南市科院路19號(hào);或者聯(lián)系龍圖騰網(wǎng)官方客服,聯(lián)系龍圖騰網(wǎng)可撥打電話0551-65771310或微信搜索“龍圖騰網(wǎng)”。
1、本報(bào)告根據(jù)公開、合法渠道獲得相關(guān)數(shù)據(jù)和信息,力求客觀、公正,但并不保證數(shù)據(jù)的最終完整性和準(zhǔn)確性。
2、報(bào)告中的分析和結(jié)論僅反映本公司于發(fā)布本報(bào)告當(dāng)日的職業(yè)理解,僅供參考使用,不能作為本公司承擔(dān)任何法律責(zé)任的依據(jù)或者憑證。
- 達(dá)爾嘉(廣州)標(biāo)識(shí)設(shè)備有限公司陳國明獲國家專利權(quán)
- 開迪恩有限公司烏韋·沃爾默獲國家專利權(quán)
- 羅偉強(qiáng)獲國家專利權(quán)
- 萊克電氣綠能科技(蘇州)有限公司倪祖根獲國家專利權(quán)
- 蘋果公司J·C·迪方佐獲國家專利權(quán)
- 法雷奧凱佩科液力變矩器(南京)有限公司王盛璋獲國家專利權(quán)
- 北京泰科斯德技術(shù)有限公司楊習(xí)斌獲國家專利權(quán)
- 中興通訊股份有限公司徐源源獲國家專利權(quán)
- 京東方科技集團(tuán)股份有限公司劉瀚文獲國家專利權(quán)
- 上海大創(chuàng)汽車技術(shù)有限公司趙明獲國家專利權(quán)


熱門推薦
- 索尼半導(dǎo)體解決方案公司五十嵐信之獲國家專利權(quán)
- 三星顯示有限公司都永洛獲國家專利權(quán)
- 奧克斯能源有限公司拉賈克什米·普卡雅斯塔獲國家專利權(quán)
- 浙江舜宇光學(xué)有限公司高雪獲國家專利權(quán)
- 聯(lián)想(北京)有限公司張鵬獲國家專利權(quán)
- 中石化石油工程技術(shù)服務(wù)有限公司任紅偉獲國家專利權(quán)
- 北京小米移動(dòng)軟件有限公司牟勤獲國家專利權(quán)
- 路瑪賽特有限責(zé)任公司肖恩·哈特獲國家專利權(quán)
- 俊富生態(tài)修復(fù)科技有限公司趙民忠獲國家專利權(quán)
- 昕諾飛控股有限公司A·A·阿博獲國家專利權(quán)