浙江大學陳曦獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網獲悉浙江大學申請的專利一種生成式和抽取式相結合的文本摘要生成方法獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN115757762B 。
龍圖騰網通過國家知識產權局官網在2025-09-05發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202211494675.7,技術領域涉及:G06F16/34;該發明授權一種生成式和抽取式相結合的文本摘要生成方法是由陳曦;張寅;陳強龍設計研發完成,并于2022-11-25向國家知識產權局提交的專利申請。
本一種生成式和抽取式相結合的文本摘要生成方法在說明書摘要公布了:本發明公開了一種生成式和抽取式相結合的文本摘要生成方法。本發明包括如下步驟:首先在文本摘要數據上標記出原文中作為摘要的句子;然后在訓練時,在生成式預訓練語言模型的編碼器之后接入句子編碼層和分類層,利用摘要句子標記構建分類損失,以提高抽取摘要句子的能力;通過編碼器學習文本表征,再通過句子編碼層學習句子表征,將編碼器輸出的文本特征和句子編碼層輸出的句子特征進行拼接,輸入到解碼器中生成原文檔的摘要。預測時候則不使用句子分類層。與現有技術相比,通過在預訓練語言模型的編碼器和解碼器之間引入句子編碼層和分類層,融合了生成式與抽取式文本摘要,利用了作為摘要的句子,控制和指導生成過程,以提高文本摘要質量。
本發明授權一種生成式和抽取式相結合的文本摘要生成方法在權利要求書中公布了:1.一種生成式和抽取式相結合的文本摘要生成方法,其特征在于,步驟如下: S1:獲取文本摘要生成任務訓練所需的數據集,數據集中的每個樣本包含原文本和摘要文本;將每個樣本中的原文本、摘要均進行句子切分,同時計算原文本中每個句子和摘要文本中每個句子的相似度,為所述相似度高于閾值的原文本句子賦予摘要相關句標簽,從而使得訓練集中每個樣本同時包含摘要和摘要句子標簽; S2:基于生成式預訓練語言模型,在生成式預訓練語言模型的編碼器和解碼器之間級聯一個句子編碼層,從而構建形成文本摘要生成模型;在所述文本摘要生成模型中,原文本中的句子輸入編碼器中,通過編碼器生成文本表征后輸入句子編碼層中生成句子表征,編碼器生成的文本表征和句子編碼層生成的句子表征經過融合后傳入到解碼器中,由解碼器生成原文本對應的摘要; S3、在文本摘要生成模型中的句子編碼層上增加一個用于輔助訓練的分類層,所述句子編碼層和分類層構成分類器,基于句子編碼層生成的句子表征對原文本中的每個句子進行分類,輸出該語句是否作為摘要相關句;然后利用所述訓練集對帶有分類器的文本摘要生成模型進行迭代訓練,且在每一個訓練步中,一方面需要通過第一優化器和摘要句子分類損失來優化句子編碼層和分類層,另一方面需要通過第二優化器和摘要文本損失來優化編碼器和解碼器; S4、將待生成摘要的目標文本輸入到訓練后的文本摘要生成模型中,先通過編碼器生成文本表征,然后將文本表征輸入句子編碼層中生成句子表征,再將文本表征和句子表征融合后傳入到解碼器中,由解碼器生成目標文本對應的摘要。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人浙江大學,其通訊地址為:310058 浙江省杭州市西湖區余杭塘路866號;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。