中國(guó)科學(xué)院計(jì)算技術(shù)研究所曹陽(yáng)獲國(guó)家專利權(quán)
買專利賣專利找龍圖騰,真高效! 查專利查商標(biāo)用IPTOP,全免費(fèi)!專利年費(fèi)監(jiān)控用IP管家,真方便!
龍圖騰網(wǎng)獲悉中國(guó)科學(xué)院計(jì)算技術(shù)研究所申請(qǐng)的專利一種單字錯(cuò)別字識(shí)別模型的訓(xùn)練方法及其訓(xùn)練集生成方法獲國(guó)家發(fā)明授權(quán)專利權(quán),本發(fā)明授權(quán)專利權(quán)由國(guó)家知識(shí)產(chǎn)權(quán)局授予,授權(quán)公告號(hào)為:CN114266244B 。
龍圖騰網(wǎng)通過(guò)國(guó)家知識(shí)產(chǎn)權(quán)局官網(wǎng)在2025-09-05發(fā)布的發(fā)明授權(quán)授權(quán)公告中獲悉:該發(fā)明授權(quán)的專利申請(qǐng)?zhí)?專利號(hào)為:202111610175.0,技術(shù)領(lǐng)域涉及:G06F40/232;該發(fā)明授權(quán)一種單字錯(cuò)別字識(shí)別模型的訓(xùn)練方法及其訓(xùn)練集生成方法是由曹陽(yáng);曹存根;王石設(shè)計(jì)研發(fā)完成,并于2021-12-27向國(guó)家知識(shí)產(chǎn)權(quán)局提交的專利申請(qǐng)。
本一種單字錯(cuò)別字識(shí)別模型的訓(xùn)練方法及其訓(xùn)練集生成方法在說(shuō)明書摘要公布了:本發(fā)明提供一種生成用于單字錯(cuò)別字識(shí)別模型的訓(xùn)練集的方法,包括:S1、獲取語(yǔ)料庫(kù),對(duì)語(yǔ)料庫(kù)中的各語(yǔ)句進(jìn)行分詞處理和詞性標(biāo)注,得到多個(gè)原始分詞序列,每個(gè)原始分詞序列包括多個(gè)分詞項(xiàng)以及每個(gè)分詞項(xiàng)的詞性;S2、基于原始分詞序列構(gòu)建各分詞項(xiàng)的標(biāo)簽,得到標(biāo)簽序列,其中初始的標(biāo)簽值指示每個(gè)分詞項(xiàng)對(duì)應(yīng)的文字是正確文字;S3、將相應(yīng)原始分詞序列中一個(gè)為單字的分詞項(xiàng)替換為與相應(yīng)單字相似的錯(cuò)誤單字,得到帶錯(cuò)字分詞序列,并更改相應(yīng)標(biāo)簽序列中單字被替換的分詞項(xiàng)對(duì)應(yīng)的標(biāo)簽值以指示其對(duì)應(yīng)的單字為錯(cuò)誤文字;S4、重復(fù)步驟S3,構(gòu)建包括多個(gè)樣本的訓(xùn)練集,每個(gè)樣本包括分詞序列及對(duì)應(yīng)的標(biāo)簽序列,分詞序列為原始分詞序列或者帶錯(cuò)字分詞序列。
本發(fā)明授權(quán)一種單字錯(cuò)別字識(shí)別模型的訓(xùn)練方法及其訓(xùn)練集生成方法在權(quán)利要求書中公布了:1.一種生成用于單字錯(cuò)別字識(shí)別模型的訓(xùn)練集的方法,其特征在于,所述方法包括: S1、獲取語(yǔ)料庫(kù),對(duì)語(yǔ)料庫(kù)中的各語(yǔ)句進(jìn)行分詞處理和詞性標(biāo)注,得到多個(gè)原始分詞序列,其中,每個(gè)原始分詞序列包括多個(gè)分詞項(xiàng)以及每個(gè)分詞項(xiàng)的詞性; S2、基于原始分詞序列構(gòu)建各分詞項(xiàng)的標(biāo)簽,得到標(biāo)簽序列,其中初始的標(biāo)簽值指示每個(gè)分詞項(xiàng)對(duì)應(yīng)的文字是正確文字; S3、將相應(yīng)原始分詞序列中一個(gè)為單字的分詞項(xiàng)替換為與相應(yīng)單字相似的錯(cuò)誤單字,得到帶錯(cuò)字分詞序列,并且更改相應(yīng)標(biāo)簽序列中單字被替換的分詞項(xiàng)對(duì)應(yīng)的標(biāo)簽值以指示其對(duì)應(yīng)的單字為錯(cuò)誤文字,其中,所述將相應(yīng)原始分詞序列中一個(gè)為單字的分詞項(xiàng)替換為與相應(yīng)單字相似的錯(cuò)誤單字為參照多個(gè)單字集合混淆對(duì)集,并按照分詞項(xiàng)的詞性進(jìn)行替換,其中,多個(gè)單字集合混淆對(duì)集的生成方式包括: 針對(duì)每種詞性,基于相應(yīng)詞性的單字與相應(yīng)單字相似的多個(gè)錯(cuò)誤單字,構(gòu)建一個(gè)單字混淆對(duì)集,其中,單字混淆對(duì)集包括多個(gè)由相應(yīng)單字和與該單字相似的一個(gè)錯(cuò)誤單字構(gòu)建的單字混淆對(duì); 基于相同詞性的多個(gè)單字的多個(gè)單字混淆對(duì)集構(gòu)建相應(yīng)詞性的單字集合混淆對(duì)集,獲得多個(gè)詞性不同的單字集合混淆對(duì)集; S4、重復(fù)步驟S3,構(gòu)建包括多個(gè)樣本的訓(xùn)練集,其中每個(gè)樣本包括分詞序列及對(duì)應(yīng)的標(biāo)簽序列,所述分詞序列為原始分詞序列或者帶錯(cuò)字分詞序列。
如需購(gòu)買、轉(zhuǎn)讓、實(shí)施、許可或投資類似專利技術(shù),可聯(lián)系本專利的申請(qǐng)人或?qū)@麢?quán)人中國(guó)科學(xué)院計(jì)算技術(shù)研究所,其通訊地址為:100190 北京市海淀區(qū)中關(guān)村科學(xué)院南路6號(hào);或者聯(lián)系龍圖騰網(wǎng)官方客服,聯(lián)系龍圖騰網(wǎng)可撥打電話0551-65771310或微信搜索“龍圖騰網(wǎng)”。
1、本報(bào)告根據(jù)公開(kāi)、合法渠道獲得相關(guān)數(shù)據(jù)和信息,力求客觀、公正,但并不保證數(shù)據(jù)的最終完整性和準(zhǔn)確性。
2、報(bào)告中的分析和結(jié)論僅反映本公司于發(fā)布本報(bào)告當(dāng)日的職業(yè)理解,僅供參考使用,不能作為本公司承擔(dān)任何法律責(zé)任的依據(jù)或者憑證。
- 開(kāi)易(廣東)服裝配件有限公司陳昌華獲國(guó)家專利權(quán)
- 輝瑞公司D·庫(kù)珀獲國(guó)家專利權(quán)
- 北京奇藝世紀(jì)科技有限公司章敏杰獲國(guó)家專利權(quán)
- 深圳一電航空技術(shù)有限公司張顯志獲國(guó)家專利權(quán)
- 德克斯康公司R·E·斯庫(kù)恩馬克獲國(guó)家專利權(quán)
- 伊瑪提克斯生物技術(shù)有限公司安德烈·馬爾獲國(guó)家專利權(quán)
- 麥斯韋爾技術(shù)股份有限公司戴維·雷歇爾獲國(guó)家專利權(quán)
- 埃澤瑞斯公司E·巴爾瑪約爾獲國(guó)家專利權(quán)
- 福特全球技術(shù)公司馬克·席爾瓦·康德拉德獲國(guó)家專利權(quán)
- LG 電子株式會(huì)社姜智源獲國(guó)家專利權(quán)


熱門推薦
- 賽諾菲獲國(guó)家專利權(quán)
- 塞爾雷斯蒂斯有限公司J·博伊爾獲國(guó)家專利權(quán)
- 賽銳貝尓股份有限公司約瑟夫·帕維茲獲國(guó)家專利權(quán)
- 杭州諾茂醫(yī)療科技有限公司王永勝獲國(guó)家專利權(quán)
- 日本瑞翁株式會(huì)社伊賀隆志獲國(guó)家專利權(quán)
- 弗門尼舍有限公司M·德拉特利獲國(guó)家專利權(quán)
- 深圳市贏合科技股份有限公司黃振奎獲國(guó)家專利權(quán)
- 深圳麥格米特電氣股份有限公司周滿枝獲國(guó)家專利權(quán)
- 三星顯示有限公司李康熙獲國(guó)家專利權(quán)
- ZF主動(dòng)安全有限公司A·呂德?tīng)柅@國(guó)家專利權(quán)