廣州大學(xué)顧釗銓獲國家專利權(quán)
買專利賣專利找龍圖騰,真高效! 查專利查商標(biāo)用IPTOP,全免費(fèi)!專利年費(fèi)監(jiān)控用IP管家,真方便!
龍圖騰網(wǎng)獲悉廣州大學(xué)申請的專利一種結(jié)合詞向量多特征融合的新詞發(fā)現(xiàn)方法獲國家發(fā)明授權(quán)專利權(quán),本發(fā)明授權(quán)專利權(quán)由國家知識產(chǎn)權(quán)局授予,授權(quán)公告號為:CN114298029B 。
龍圖騰網(wǎng)通過國家知識產(chǎn)權(quán)局官網(wǎng)在2025-08-29發(fā)布的發(fā)明授權(quán)授權(quán)公告中獲悉:該發(fā)明授權(quán)的專利申請?zhí)?專利號為:202111523723.6,技術(shù)領(lǐng)域涉及:G06F40/289;該發(fā)明授權(quán)一種結(jié)合詞向量多特征融合的新詞發(fā)現(xiàn)方法是由顧釗銓;梁栩健;楊舉;王樂;韓偉紅;唐可可;李默涵;仇晶;李樹棟;張登輝設(shè)計研發(fā)完成,并于2021-12-14向國家知識產(chǎn)權(quán)局提交的專利申請。
本一種結(jié)合詞向量多特征融合的新詞發(fā)現(xiàn)方法在說明書摘要公布了:本發(fā)明公開了一種結(jié)合詞向量多特征融合的新詞發(fā)現(xiàn)方法,該方法步驟包括:對語料進(jìn)行特征標(biāo)注,計算屬性對互信息矩陣和自信息矩陣,計算候選特征屬性對得分;聚類詞向量,找到對應(yīng)的最近鄰類中心向量,并找出該類中心向量對應(yīng)的詞作為詞向量特征屬性,遍歷所有詞向量特征屬性對,計算詞向量特征屬性對自信息矩陣和互信息矩陣,計算所有詞向量特征屬性對得分;對所有候選特征屬性對得分配置優(yōu)化權(quán)重系數(shù)后求和計算總得分;總得分超過新詞閾值時提取候選詞對對應(yīng)得分向量到樣本集合;更新權(quán)重系數(shù)并迭代訓(xùn)練至損失函數(shù)收斂獲得最終的權(quán)重系數(shù);重新計算候選詞對總得分,輸出超過新詞閾值的新詞。本發(fā)明實(shí)現(xiàn)更合理的新詞評價方法,更加有效地挖掘潛在的新詞。
本發(fā)明授權(quán)一種結(jié)合詞向量多特征融合的新詞發(fā)現(xiàn)方法在權(quán)利要求書中公布了:1.一種結(jié)合詞向量多特征融合的新詞發(fā)現(xiàn)方法,其特征在于,包括下述步驟: 統(tǒng)計自然語言特征得分計算:對語料進(jìn)行特征標(biāo)注,遍歷所有屬性對,計算屬性對的互信息矩陣和自信息矩陣,計算所有候選特征的屬性對得分,具體包括: 對于第m個特征,采用自然語言處理工具對語料X進(jìn)行詞性、依存句法關(guān)系特征標(biāo)注,將分詞后的所有候選詞對進(jìn)行特征標(biāo)注,標(biāo)注后的稱為屬性對; 設(shè)置自信息矩陣互信息矩陣得分矩陣 其中K是指屬性集Sm的大小; 遍歷所有屬性對xi,xj,計算其互信息矩陣和自信息矩陣,最后,計算成績矩陣,即所有候選特征的屬性對xi,xj,得分,具體表示為: MSm[xi][xj]=αmMIm[xi][xj]+βmMHm[xi][xj] 其中,MSm[xi][xj]表示候選特征的屬性對得分,MIm[xi][xj]表示屬性對的互信息矩陣,MHm[xi][xj]表示屬性對的自信息矩陣,αm表示第m個特征的互信息比例參數(shù),βm第m個特征的自信息比例參數(shù); 基于詞向量特征得分計算:對詞向量進(jìn)行k-means聚類,根據(jù)詞向量對應(yīng)的詞典,對語料中所有分詞找到對應(yīng)的詞向量,進(jìn)而找到對應(yīng)的最近鄰類中心向量,并找出該類中心向量對應(yīng)的詞作為詞向量特征屬性,遍歷所有詞向量特征屬性,計算詞向量特征屬性對的自信息矩陣和互信息矩陣,計算所有詞向量特征屬性對的得分,具體包括: 對詞向量進(jìn)行類別數(shù)為K的聚類,記聚類中心向量為集合為SK; 根據(jù)詞向量對應(yīng)的詞典,對語料X中的所有分詞x找到對應(yīng)的詞向量v,找到對應(yīng)的最近鄰類中心向量,記該類中心向量在詞典中對應(yīng)的詞即為該分詞的詞向量特征屬性: 遍歷所有詞向量特征屬性對vi,vj,計算其自信息矩陣和互信息矩陣,計算所有候選詞向量特征屬性對vi,vj,的得分,表示為: MS[vi][vj]=αMI[vi][vj]+βMH[vi][vj] 其中,MS[vi][vj]表示候選詞向量特征屬性對的得分,MI[vi][vj]表示詞向量特征屬性對的互信息矩陣,MH[vi][vj]表示詞向量特征屬性對的自信息矩陣,α表示互信息比例參數(shù),β表示自信息比例參數(shù); 對所有候選特征屬性對的得分配置權(quán)重系數(shù)后求和,通過邏輯回歸優(yōu)化權(quán)重系數(shù),計算總得分,在λ隨機(jī)初始化的情況下,所有候選詞對xi,xj,的總得分函數(shù)有: 其中,F(xiàn)mx表示分詞x進(jìn)行第m特征標(biāo)注,M為統(tǒng)計自然語言特征數(shù),C為聚類的次數(shù),MSm表示候選特征的得分,λm表示權(quán)重系數(shù),M+C表示特征個數(shù); 初始化權(quán)重系數(shù)并設(shè)置新詞閾值,總得分超過新詞閾值時,設(shè)定隨機(jī)概率提取候選詞對對應(yīng)的得分向量到樣本集合,對樣本集合進(jìn)行標(biāo)記得到標(biāo)簽集合; 基于隨機(jī)梯度下降SGD更新權(quán)重系數(shù),迭代訓(xùn)練直至損失函數(shù)收斂,獲得最終的權(quán)重系數(shù); 重新計算所有候選詞對的總得分,輸出超過新詞閾值的新詞。
如需購買、轉(zhuǎn)讓、實(shí)施、許可或投資類似專利技術(shù),可聯(lián)系本專利的申請人或?qū)@麢?quán)人廣州大學(xué),其通訊地址為:510006 廣東省廣州市番禺區(qū)大學(xué)城外環(huán)西路230號;或者聯(lián)系龍圖騰網(wǎng)官方客服,聯(lián)系龍圖騰網(wǎng)可撥打電話0551-65771310或微信搜索“龍圖騰網(wǎng)”。
1、本報告根據(jù)公開、合法渠道獲得相關(guān)數(shù)據(jù)和信息,力求客觀、公正,但并不保證數(shù)據(jù)的最終完整性和準(zhǔn)確性。
2、報告中的分析和結(jié)論僅反映本公司于發(fā)布本報告當(dāng)日的職業(yè)理解,僅供參考使用,不能作為本公司承擔(dān)任何法律責(zé)任的依據(jù)或者憑證。


熱門推薦
- 阿里巴巴集團(tuán)控股有限公司申瀟瀟獲國家專利權(quán)
- 新地能源工程技術(shù)有限公司劉玉豐獲國家專利權(quán)
- 德州儀器公司高見澤彰一獲國家專利權(quán)
- 辛北爾康普機(jī)器及成套設(shè)備有限責(zé)任公司K·加爾茨獲國家專利權(quán)
- 交互數(shù)字VC控股法國公司J.里卡德獲國家專利權(quán)
- 凌衛(wèi)東獲國家專利權(quán)
- 索音醫(yī)療公司穆罕默德·霍納爾瓦爾獲國家專利權(quán)
- 四川中科朗星光電科技有限公司楊博獲國家專利權(quán)
- 佩克阿西斯特公司杰拉爾多·諾列加獲國家專利權(quán)
- 斕帛職業(yè)培訓(xùn)學(xué)校(桐鄉(xiāng))有限公司沈衛(wèi)國獲國家專利權(quán)