華東理工大學(xué)蔡婷婷獲國家專利權(quán)
買專利賣專利找龍圖騰,真高效! 查專利查商標(biāo)用IPTOP,全免費(fèi)!專利年費(fèi)監(jiān)控用IP管家,真方便!
龍圖騰網(wǎng)獲悉華東理工大學(xué)申請的專利一種基于預(yù)訓(xùn)練模型和位置信息的文本結(jié)構(gòu)化方法獲國家發(fā)明授權(quán)專利權(quán),本發(fā)明授權(quán)專利權(quán)由國家知識產(chǎn)權(quán)局授予,授權(quán)公告號為:CN112989836B 。
龍圖騰網(wǎng)通過國家知識產(chǎn)權(quán)局官網(wǎng)在2025-09-09發(fā)布的發(fā)明授權(quán)授權(quán)公告中獲悉:該發(fā)明授權(quán)的專利申請?zhí)?專利號為:202110454738.5,技術(shù)領(lǐng)域涉及:G06F40/295;該發(fā)明授權(quán)一種基于預(yù)訓(xùn)練模型和位置信息的文本結(jié)構(gòu)化方法是由蔡婷婷;葉琪;阮彤;張維彥;鄭紅設(shè)計(jì)研發(fā)完成,并于2021-04-26向國家知識產(chǎn)權(quán)局提交的專利申請。
本一種基于預(yù)訓(xùn)練模型和位置信息的文本結(jié)構(gòu)化方法在說明書摘要公布了:本發(fā)明公開了一種基于預(yù)訓(xùn)練語言模型和位置信息的文本結(jié)構(gòu)化方法。本發(fā)明包括以下步驟:步驟1:從新聞網(wǎng)站爬取文本作為原語料交由人工標(biāo)注,并對其進(jìn)行預(yù)處理;步驟2:使用預(yù)處理后的文本訓(xùn)練BERT?CRF來識別姓名、性別、體貌特征、身高等通用實(shí)體;步驟3:將每條文本中的通用實(shí)體作為輸入,訓(xùn)練多標(biāo)簽分類模型BERT?Dense,輸出每個(gè)實(shí)體所屬的相關(guān)人群類型;步驟4:以相關(guān)人群姓名作為主體詞,根據(jù)文本的結(jié)構(gòu)特性,基于位置特征獲取該主體詞的屬性,得到最終的多主體文本結(jié)構(gòu)化。本發(fā)明適用于領(lǐng)域性的多主體文本結(jié)構(gòu)化任務(wù),通過分層結(jié)構(gòu)化和基于位置信息組成多元組的方式,有效提高對新聞文本結(jié)構(gòu)化的準(zhǔn)確率和效率。
本發(fā)明授權(quán)一種基于預(yù)訓(xùn)練模型和位置信息的文本結(jié)構(gòu)化方法在權(quán)利要求書中公布了:1.一種基于預(yù)訓(xùn)練模型和位置信息的文本結(jié)構(gòu)化方法,具體步驟為: S1、從新聞網(wǎng)站爬取事件文本進(jìn)行人工標(biāo)注,得到文本結(jié)構(gòu)化的有監(jiān)督數(shù)據(jù)集A,并對所述數(shù)據(jù)集進(jìn)行預(yù)處理作為后續(xù)模型的輸入; S2、將預(yù)處理后的有監(jiān)督文本作為輸入,訓(xùn)練命名實(shí)體識別模型BERT-CRF,以BIO標(biāo)簽體系的形式輸出文本中的通用實(shí)體,具體包括: S21、將預(yù)處理后的有監(jiān)督文本作為輸入,訓(xùn)練BERT-CRF模型; S22、將訓(xùn)練好的BERT-CRF模型預(yù)測測試集,得到一個(gè)維度為m*n*l的三維矩陣S,其中m為文本的數(shù)量,n為預(yù)先定義的最大序列長度,l為人工標(biāo)注的通用實(shí)體在BIO標(biāo)簽體系下的種類數(shù),三維矩陣S中的某個(gè)數(shù)S[i][j][t],其中0≤i≤m-1,0≤j≤,n-1≤t≤l-1,代表第i條文本中的第j個(gè)字符屬于第t種標(biāo)簽的概率,其中,0≤p[i][j][t]≤1; S23、將BERT-CRF模型輸出的三維矩陣S轉(zhuǎn)換為二維矩陣M,M[i][j]=argmaxS[i][j],其中,0≤i≤m-1,0≤j≤n-1,M[i][j]對于第i條文本中的第j個(gè)字符,取其最大概率所對應(yīng)的索引值; S24、基于矩陣M中的最大概率所對應(yīng)的索引值,將其轉(zhuǎn)化為BIO標(biāo)簽的形式,得到文本中通用實(shí)體的命名實(shí)體識別; S3、將每條文本中的通用實(shí)體作為輸入,訓(xùn)練多標(biāo)簽分類模型BERT-Dense,輸出每個(gè)實(shí)體所屬的相關(guān)人群類型,具體包括: S31、將每條文本中的通用實(shí)體作為輸入,以特殊字符“[unused1]”, “[unused2]”,“[unused3]”……來表示文本中的通用實(shí)體,訓(xùn)練多標(biāo)簽分類模型BERT-Dense; S32、整體模型的損失函數(shù)采用交叉熵,表示真實(shí)概率分布與預(yù)測概率分布之間的差異,優(yōu)化目標(biāo)為最小化交叉熵值,目標(biāo)函數(shù)為: 其中,n代表樣本數(shù)量,pxi代表第i個(gè)樣本的真實(shí)概率分布,qxi表示預(yù)測概率分布; S33、將訓(xùn)練好的多標(biāo)簽分類模型BERT-Dense去預(yù)測測試集,得到一個(gè)x*y維度的二維矩陣H,其中,x代表有監(jiān)督文本數(shù)據(jù)集A中通用實(shí)體的總數(shù),y代表A中相關(guān)人群的種類數(shù),二維矩陣H中的某個(gè)數(shù)H[i][j]代表第i個(gè)通用實(shí)體屬于第j種相關(guān)人群的概率; S34、對于H[i]中的概率值,若結(jié)果大于0.5,則設(shè)置第i個(gè)通用實(shí)體的類型標(biāo)簽; S4、把相關(guān)人群姓名作為主體詞,根據(jù)新聞文本的結(jié)構(gòu)特性,基于位置信息獲取該主體詞的屬性,得到最終的多主體文本結(jié)構(gòu)化,具體包括: S41、將S2和S3步驟中所識別的相關(guān)人群的姓名作為主體詞; S42、對于任一主體詞,篩選出和該主體詞屬于同一相關(guān)人群的實(shí)體; S43、將出現(xiàn)在主體詞之后,且距離主體詞最近的實(shí)體作為該主體詞的屬性,組成一個(gè)多元組,得到最終的多主體文本結(jié)構(gòu)化。
如需購買、轉(zhuǎn)讓、實(shí)施、許可或投資類似專利技術(shù),可聯(lián)系本專利的申請人或?qū)@麢?quán)人華東理工大學(xué),其通訊地址為:200237 上海市徐匯區(qū)梅隴路130號;或者聯(lián)系龍圖騰網(wǎng)官方客服,聯(lián)系龍圖騰網(wǎng)可撥打電話0551-65771310或微信搜索“龍圖騰網(wǎng)”。
1、本報(bào)告根據(jù)公開、合法渠道獲得相關(guān)數(shù)據(jù)和信息,力求客觀、公正,但并不保證數(shù)據(jù)的最終完整性和準(zhǔn)確性。
2、報(bào)告中的分析和結(jié)論僅反映本公司于發(fā)布本報(bào)告當(dāng)日的職業(yè)理解,僅供參考使用,不能作為本公司承擔(dān)任何法律責(zé)任的依據(jù)或者憑證。
- 朗姆研究公司張賀獲國家專利權(quán)
- 華為技術(shù)有限公司基多·蒙托里西獲國家專利權(quán)
- 新思考電機(jī)有限公司馮東輝獲國家專利權(quán)
- 華帝股份有限公司曾玉元獲國家專利權(quán)
- 株洲田螺姑娘智能科技有限公司楊正清獲國家專利權(quán)
- 阿特拉斯·科普柯空氣動(dòng)力股份有限公司T·克雷佩因獲國家專利權(quán)
- 浙江大學(xué)城市學(xué)院劉麗獲國家專利權(quán)
- LG伊諾特有限公司全聲宰獲國家專利權(quán)
- 深圳邁瑞生物醫(yī)療電子股份有限公司周志奇獲國家專利權(quán)
- 富士施樂株式會(huì)社浜津誠獲國家專利權(quán)


熱門推薦
- 騰訊科技(深圳)有限公司何珂獲國家專利權(quán)
- IDAC控股公司米歇爾·佩拉斯獲國家專利權(quán)
- 平安科技(深圳)有限公司蔣英明獲國家專利權(quán)
- 廣西田東鼎興生物能源科技有限公司何石柏獲國家專利權(quán)
- 京東方科技集團(tuán)股份有限公司魏玉龍獲國家專利權(quán)
- 中興通訊股份有限公司石靖獲國家專利權(quán)
- 松下知識產(chǎn)權(quán)經(jīng)營株式會(huì)社河本弘和獲國家專利權(quán)
- 意法半導(dǎo)體國際有限公司P·辛格獲國家專利權(quán)
- 富士施樂株式會(huì)社太田直己獲國家專利權(quán)
- 福建省坤寧環(huán)保工程有限公司蔡銘坤獲國家專利權(quán)