龍巖學院鐘美華獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網獲悉龍巖學院申請的專利一種基于眾包的分詞標注質量評估系統獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN119204007B 。
龍圖騰網通過國家知識產權局官網在2025-09-02發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202411707022.1,技術領域涉及:G06F40/289;該發明授權一種基于眾包的分詞標注質量評估系統是由鐘美華;鐘國堅;李美蓮設計研發完成,并于2024-11-27向國家知識產權局提交的專利申請。
本一種基于眾包的分詞標注質量評估系統在說明書摘要公布了:本發明公開了一種基于眾包的分詞標注質量評估系統,涉及標注質量評估領域,用于解決眾包用戶的主觀理解能力存在差異導致提交的標注結果與對應類型存在偏差,使得質量識別不清的問題,采集文本分詞置信度評分、文本對應類型與其余類型標準相似度、用戶本輪標注數量差以及用戶歷史標注正確率差值建立數據分析模型,得到偏差評估系數并與偏差閾值比對,得到并統計比對結果,進一步確定標注結果錯誤提交的可能,標記為再劃分標注結果,可劃分類別相似度以及最相似標注結果對應的類別與最相似類別相似差異制定一組模糊規則進行模糊推理,確定再劃分標注結果的劃分方案,彌補了當前系統無法捕捉用戶主觀性差異的空白,提高標注效率。
本發明授權一種基于眾包的分詞標注質量評估系統在權利要求書中公布了:1.一種基于眾包的分詞標注質量評估系統,其特征在于:包括數據采集模塊、數據處理模塊、偏差分析模塊以及標注劃分模塊;各模塊之間信號連接; 數據采集模塊采集文本特征信息以及用戶特征信息,通過數據化處理,得到文本分詞置信度評分、文本對應類型與其余類型標準相似度、用戶本輪標注數量差以及用戶歷史標注正確率差值,并發送至數據處理模塊; 數據處理模塊用于獲取文本分詞置信度評分、文本對應類型與其余類型標準相似度、用戶本輪標注數量差以及用戶歷史標注正確率差值,建立數據分析模型,得到偏差評估系數,并發送至偏差分析模塊; 偏差分析模塊用于獲取偏差評估系數,并與預設的偏差閾值進行比對分析,得到并統計比對結果,將大于或等于偏差閾值的偏差評估系數數值相加值與小于偏差閾值的偏差評估系數數值相加值進行加權比值計算,進一步確定標注結果錯誤提交的可能,標記為再劃分標注結果,發送至標注劃分模塊; 標注劃分模塊用于根據獲取的再劃分標注結果確定可劃分類別相似度以及最相似標注結果對應的類別與最相似類別相似差異,帶入模糊邏輯確定再劃分標注結果的劃分方案; 文本特征信息包括文本分詞置信度評分以及文本對應類型與其余類型標準相似度,用戶特征信息包括用戶本輪標注數量差以及用戶歷史標注正確率差值; 通過提交類型的置信度評分與各個類別的標注標準的置信度評分進行相減計算得到文本分詞置信度評分;其中,i為第i個比對標注標準; 通過獲取每個文本類型定義的標注標準,將標注標準和用戶提交的標注結果對應類型的標注標準通過結合詞頻和逆文檔頻率進行向量化,得到各個標注標準的詞匯向量,使用Jaccard相似度得到文本對應類型與其余類型標準相似度; 通過用戶在本輪該標注結果對應類型的標注數量與其余類型標注數量進行差值計算得到用戶本輪標注數量差; 通過計算用戶在對應類型的標注歷史平均正確率與其余類型的標注歷史平均正確率之間的差值得到用戶歷史標注正確率差值; 獲取文本分詞置信度評分、文本對應類型與其余類型標準相似度、用戶本輪標注數量差以及用戶歷史標注正確率差值,生成偏差評估系數,根據的公式為: ; 若<0,≥0時,則,反之,若≥0,<0時,則; 式中,為偏差評估系數,、、以及分別為文本分詞置信度評分、文本對應類型與其余類型標準相似度、用戶本輪標注數量差以及用戶歷史標注正確率差值的預設比例系數,且、、以及均大于0。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人龍巖學院,其通訊地址為:364012 福建省龍巖市新羅區東肖北路1號;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。