北京智譜華章科技有限公司王路路獲國家專利權(quán)
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監(jiān)控用IP管家,真方便!
龍圖騰網(wǎng)獲悉北京智譜華章科技有限公司申請的專利中文句子簡化模型的訓練方法、中文句子精簡方法及裝置獲國家發(fā)明授權(quán)專利權(quán),本發(fā)明授權(quán)專利權(quán)由國家知識產(chǎn)權(quán)局授予,授權(quán)公告號為:CN114757204B 。
龍圖騰網(wǎng)通過國家知識產(chǎn)權(quán)局官網(wǎng)在2025-09-09發(fā)布的發(fā)明授權(quán)授權(quán)公告中獲悉:該發(fā)明授權(quán)的專利申請?zhí)?專利號為:202210459421.5,技術(shù)領(lǐng)域涉及:G06F40/30;該發(fā)明授權(quán)中文句子簡化模型的訓練方法、中文句子精簡方法及裝置是由王路路;張鵬;杜冀中;閆磊;陸弘鍇;劉佳;李光軍;崔菲;彭鈺婷設(shè)計研發(fā)完成,并于2022-04-27向國家知識產(chǎn)權(quán)局提交的專利申請。
本中文句子簡化模型的訓練方法、中文句子精簡方法及裝置在說明書摘要公布了:本申請?zhí)岢鲆环N中文句子簡化模型的訓練方法、中文句子精簡方法及裝置,中文句子簡化模型的訓練方法包括:獲取包含監(jiān)督信號的復雜句?簡單句句對的數(shù)據(jù)集和中文單語種預(yù)訓練模型;在每個訓練批次中選擇當前復雜句?簡單句句對中的簡單句為正樣例,在同一訓練批次的其他句對中隨機選擇預(yù)設(shè)數(shù)量個簡單句為負樣例;將復雜句、正樣例和負樣例投影到向量表示空間中,分別獲取在編碼器最后一層的隱藏層向量;計算對比學習損失,并通過解碼器計算生成期望的簡單句的交叉熵損失;通過最小化中文單語種預(yù)訓練模型輸出的簡單句的對比學習損失和交叉熵損失來聯(lián)合訓練中文單語種預(yù)訓練模型。該方法得到的簡化模型可以提高生成的簡化句子的可控性和忠實度。
本發(fā)明授權(quán)中文句子簡化模型的訓練方法、中文句子精簡方法及裝置在權(quán)利要求書中公布了:1.一種中文句子簡化模型的訓練方法,其特征在于,包括以下步驟: 獲取預(yù)設(shè)的包含監(jiān)督信號的復雜句-簡單句句對的數(shù)據(jù)集作為訓練數(shù)據(jù),并獲取基于編碼器-解碼器結(jié)構(gòu)的中文單語種預(yù)訓練模型;所述復雜句-簡單句句對是由一個復雜句與一個語義相似但長度短的簡單句組成的句對,所述監(jiān)督信號是句對中的復雜句與簡單句之間的比值信息,所述監(jiān)督信號包括句子長度比、編輯距離比、詞匯復雜度比和句法樹深度比; 基于對比學習的方式,在每個訓練批次中選擇當前復雜句-簡單句句對中的簡單句為正樣例,在同一訓練批次的其他句對中隨機選擇預(yù)設(shè)數(shù)量個簡單句為負樣例; 將所述當前復雜句-簡單句句對中的復雜句、所述正樣例和所述負樣例投影到向量表示空間中,分別獲取所述復雜句、所述正樣例和所述負樣例在編碼器最后一層的隱藏層向量; 基于所述隱藏層向量,計算對比學習損失,并通過解碼器計算生成期望的簡單句的交叉熵損失; 通過最小化所述中文單語種預(yù)訓練模型輸出的簡單句的所述對比學習損失和所述交叉熵損失來聯(lián)合訓練所述中文單語種預(yù)訓練模型,以對所述預(yù)訓練模型進行微調(diào)獲得中文句子簡化模型; 所述獲取基于編碼器-解碼器結(jié)構(gòu)的中文單語種預(yù)訓練模型,包括: 選取中文語句中常用的標點符號、數(shù)字、英文字母和高頻的中文詞,作為新的詞匯表; 將預(yù)設(shè)的基于編碼器-解碼器結(jié)構(gòu)的多語種預(yù)訓練模型的原始詞匯表替換為所述新的詞匯表,并更新所述多語種預(yù)訓練模型的輸入向量和輸出向量的表示參數(shù),以更新所述多語種預(yù)訓練模型; 保存所述新的詞匯表和更新后的預(yù)訓練模型,以將所述多語種預(yù)訓練模型剪枝為所述中文單語種預(yù)訓練模型。
如需購買、轉(zhuǎn)讓、實施、許可或投資類似專利技術(shù),可聯(lián)系本專利的申請人或?qū)@麢?quán)人北京智譜華章科技有限公司,其通訊地址為:100084 北京市海淀區(qū)中關(guān)村東路1號院6號樓6層603A;或者聯(lián)系龍圖騰網(wǎng)官方客服,聯(lián)系龍圖騰網(wǎng)可撥打電話0551-65771310或微信搜索“龍圖騰網(wǎng)”。
1、本報告根據(jù)公開、合法渠道獲得相關(guān)數(shù)據(jù)和信息,力求客觀、公正,但并不保證數(shù)據(jù)的最終完整性和準確性。
2、報告中的分析和結(jié)論僅反映本公司于發(fā)布本報告當日的職業(yè)理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據(jù)或者憑證。