上海金福康制藥工程技術有限公司劉驍獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網獲悉上海金福康制藥工程技術有限公司申請的專利測序數據污染識別模型的訓練方法、識別方法及電子設備獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN120356517B 。
龍圖騰網通過國家知識產權局官網在2025-09-16發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202510847132.6,技術領域涉及:G16B20/30;該發明授權測序數據污染識別模型的訓練方法、識別方法及電子設備是由劉驍設計研發完成,并于2025-06-24向國家知識產權局提交的專利申請。
本測序數據污染識別模型的訓練方法、識別方法及電子設備在說明書摘要公布了:本申請提供一種測序數據污染識別模型的訓練方法、識別方法及電子設備;在獲取原始測序數據的基礎上,對原始測序數據進行質量過濾,得到初始測序數據;對初始測序數據進行特征提取,得到數據污染特征;根據數據污染特征,對初始測序數據進行篩選,得到樣本測序數據;根據數據污染特征,確定目標類別污染測序數據;基于預設污染比例將樣本測序數據和目標類別污染測序數據進行合并,得到第一訓練測序數據;根據第一訓練測序數據生成測序數據聯合特征;根據測序數據聯合特征對監督學習模型進行訓練,得到目標監督學習模型,進而得到測序數據污染識別模型;解決了無法確定污染數據對應的微生物污染的污染類別以及測序數據被污染比例的問題。
本發明授權測序數據污染識別模型的訓練方法、識別方法及電子設備在權利要求書中公布了:1.一種測序數據污染識別模型的訓練方法,其特征在于,包括: 獲取原始測序數據,其中所述原始測序數據中包括多個原始測序序列; 對所述原始測序數據進行質量過濾,得到初始測序數據,其中所述初始測序數據中包括多個初始測序序列; 對所述初始測序數據進行特征提取,得到數據污染特征; 根據所述數據污染特征,對所述初始測序數據進行篩選,得到樣本測序數據;其中,所述樣本測序數據中包括多個樣本測序序列; 根據所述數據污染特征,從多個類別的預設污染測序數據中確定目標類別污染測序數據;所述目標類別污染測序數據中包括一個或多個污染測序序列; 將所述樣本測序數據和所述目標類別污染測序數據進行合并,得到第一訓練測序數據;其中,所述第一訓練測序數據中的樣本測序序列的數量和污染測序序列的數量的比例為預設污染比例; 對所述第一訓練測序數據進行特征提取,生成第一數據結構特征; 將所述第一訓練測序數據輸入至預訓練的大語言模型中,輸出上下文特征; 根據所述第一數據結構特征和所述上下文特征,生成測序數據聯合特征; 根據所述測序數據聯合特征對監督學習模型進行訓練,得到目標監督學習模型; 根據所述目標監督學習模型,得到測序數據污染識別模型; 所述對所述原始測序數據進行質量過濾,得到初始測序數據,包括: 確定所述原始測序數據中的各原始測序序列對應的Phred質量分數; 對將大于Phred質量分數閾值的Phred質量分數所對應的原始測序序列進行匯總,得到第一測序數據; 對所述第一測序數據中的各原始測序序列的接頭序列數據進行剪除,得到第二測序數據; 將所述第二測序數據中與宿主序列數據不相同的原始測序序列保留,得到所述初始測序數據; 所述根據所述數據污染特征,從多個類別的預設污染測序數據中確定目標類別污染測序數據,包括: 根據所述數據污染特征,確定物種類別特征; 根據所述物種類別特征,確定污染物種; 根據所述污染物種的基因組序列,從多個類別的預設污染測序數據中確定目標類別污染測序數據; 在所述根據所述污染物種的基因組序列,從多個類別的預設污染測序數據中確定目標類別污染測序數據之后,還包括: 從所述數據污染特征中確定GC含量偏差; 根據所述GC含量偏差,對一個或多個樣本測序序列的堿基進行處理,生成樣本污染測序數據; 將所述目標類別污染測序數據和所述樣本污染測序數據進行合并,得到更新后的目標類別污染測序數據。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人上海金福康制藥工程技術有限公司,其通訊地址為:201306 上海市浦東新區自由貿易試驗區臨港新片區云漢路979號2樓;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。