西門子(中國)有限公司惠浩添獲國家專利權(quán)
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監(jiān)控用IP管家,真方便!
龍圖騰網(wǎng)獲悉西門子(中國)有限公司申請的專利文檔處理的方法和裝置獲國家發(fā)明授權(quán)專利權(quán),本發(fā)明授權(quán)專利權(quán)由國家知識產(chǎn)權(quán)局授予,授權(quán)公告號為:CN114746855B 。
龍圖騰網(wǎng)通過國家知識產(chǎn)權(quán)局官網(wǎng)在2025-09-16發(fā)布的發(fā)明授權(quán)授權(quán)公告中獲悉:該發(fā)明授權(quán)的專利申請?zhí)?專利號為:201980102556.2,技術領域涉及:G06F16/332;該發(fā)明授權(quán)文檔處理的方法和裝置是由惠浩添;車效音;生若谷;李聰超;劉曉南;丹尼爾·施尼蓋斯設計研發(fā)完成,并于2019-12-27向國家知識產(chǎn)權(quán)局提交的專利申請。
本文檔處理的方法和裝置在說明書摘要公布了:一種文檔處理的方法和裝置。該方法包括:根據(jù)第i個文檔的句子與M個文檔的N個句子間的相似度,確定所述N個句子中第q個句子在所述第i個文檔中對應的頻率xi,q,其中,M和N均為大于1的整數(shù),q為不大于N的正整數(shù),i為正整數(shù);根據(jù)所述第q個句子在所述第i個文檔中對應的頻率xi,q,確定所述第i個文檔的文檔表征。能夠提升文檔表征的效率。
本發(fā)明授權(quán)文檔處理的方法和裝置在權(quán)利要求書中公布了:1.一種文檔處理的方法,其特征在于,包括: 根據(jù)第i個文檔的句子與M個文檔的N個句子間的相似度,確定所述N個句子中第q個句子在所述第i個文檔中對應的頻率xi,q,其中,M和N均為大于1的整數(shù),q為不大于N的正整數(shù),i為正整數(shù); 根據(jù)所述第q個句子在所述第i個文檔中對應的頻率xi,q,確定所述第i個文檔的文檔表征; 其中,所述確定所述第i個文檔的文檔表征,包括: 根據(jù)所述第q個句子在所述M個文檔中對應的頻率,確定所述第q個句子對應的逆文檔頻率idfq; 根據(jù)所述第q個句子在所述第i個文檔中對應的頻率xi,q和所述第q個句子對應的逆文檔頻率idfq,確定所述第i個文檔的文檔表征; 其中,所述第q個句子在所述第i個文檔中對應的頻率xi,q為N維向量xi的第q個元素, 其中, 其中,對于向量N維若所述N個句子中的第l個句子屬于第個句子的最相似的K個句子,則的第l個元素為所述第l個句子與所述第個句子的相似度,否則,的第l個元素為零,其中,所述第個句子為所述第i個文檔的第j個句子,ni為所述第i個文檔的句子的數(shù)量,j為不大于ni的正整數(shù),l為不大于N的正整數(shù); 其中,所述確定所述第q個句子對應的逆文檔頻率idfq,包括: 根據(jù)以下公式確定所述第q個句子對應的逆文檔頻率idfq, 其中,|*|表示集合的基數(shù); 其中,所述確定所述第i個文檔的文檔表征,包括: 根據(jù)以下公式確定所述第i個文檔的文檔表征zi, 其中,||*||表示2范數(shù),N維向量yi的第q個元素yi,q為, yi,q=xi,q*idfq。
如需購買、轉(zhuǎn)讓、實施、許可或投資類似專利技術,可聯(lián)系本專利的申請人或?qū)@麢?quán)人西門子(中國)有限公司,其通訊地址為:100102 北京市朝陽區(qū)望京中環(huán)南路7號;或者聯(lián)系龍圖騰網(wǎng)官方客服,聯(lián)系龍圖騰網(wǎng)可撥打電話0551-65771310或微信搜索“龍圖騰網(wǎng)”。
1、本報告根據(jù)公開、合法渠道獲得相關數(shù)據(jù)和信息,力求客觀、公正,但并不保證數(shù)據(jù)的最終完整性和準確性。
2、報告中的分析和結(jié)論僅反映本公司于發(fā)布本報告當日的職業(yè)理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據(jù)或者憑證。