華南農業大學陳小川獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網獲悉華南農業大學申請的專利一種基于深度學習的蛋白質變構位點識別系統獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN120089210B 。
龍圖騰網通過國家知識產權局官網在2025-09-16發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202510250499.X,技術領域涉及:G16B40/20;該發明授權一種基于深度學習的蛋白質變構位點識別系統是由陳小川;張慧玲;李悅彤;鄭健強;許梓淇;黃珍妮;黃俊曄;莊璋盛設計研發完成,并于2025-03-04向國家知識產權局提交的專利申請。
本一種基于深度學習的蛋白質變構位點識別系統在說明書摘要公布了:本發明公開了一種基于深度學習的蛋白質變構位點識別系統,包括:數據導入模塊,加載具有變構效應的蛋白質的PDB文件及其變構位點位置信息的CSV文件并進行預處理,得到蛋白質的空間結構數據;特征提取模塊,對蛋白質的空間結構數據提取二級結構特征、接觸網絡特征及殘基微環境理化特征,并融合生成特征矩陣;訓練模塊,基于改進的空洞卷積神經網絡從融合生成的特征矩陣中學習每個變構蛋白的局部和全局特征分布,捕獲變構位點的特征信息,學習其中變構位點的約束條件以及空間上的復雜依賴性,最終得到訓練好的改進模型;識別模塊,使用改進模型,根據蛋白質的PDB文件,對蛋白質上的變構位點進行識別并提供識別解釋。本發明可有效識別變構位點,可靠性高。
本發明授權一種基于深度學習的蛋白質變構位點識別系統在權利要求書中公布了:1.一種基于深度學習的蛋白質變構位點識別系統,其特征在于,包括: 數據導入模塊,用于加載具有變構效應的蛋白質的PDB文件及其變構位點位置信息的CSV文件,并進行預處理,得到蛋白質的空間結構數據; 特征提取模塊,利用DSSP工具、殘基接觸網絡和Feature軟件對蛋白質的空間結構數據提取二級結構特征、接觸網絡特征及殘基微環境理化特征,將二級結構特征、接觸網絡特征及殘基微環境理化特征融合生成特征矩陣; 訓練模塊,基于改進的空洞卷積神經網絡DCNN從融合生成的特征矩陣中學習每個變構蛋白的局部和全局特征分布,捕獲變構位點的特征信息,學習其中變構位點的約束條件以及空間上的復雜依賴性,最終得到訓練好的改進模型;該改進模型是對空洞卷積神經網絡DCNN的特征捕捉模塊和預測模塊進行改進;對特征捕捉模塊的改進是:引入三層并行空洞卷積,分別提取大、中、小感受野的特征,同時結合頻域通道注意力機制,通過頻域特征的轉換和全局池化增強對周期性和長距離依賴性特征的捕捉;對預測模塊的改進是:引入XGBoost模型,利用串聯多個決策樹的方法,通過對提取的關鍵特征進行加權和正則化,提升模型的預測精度和泛化能力; 識別模塊,使用訓練好的改進模型,根據蛋白質的PDB文件,對蛋白質上的變構位點進行識別并提供識別解釋; 所述特征提取模塊執行以下操作: 1基于DSSP工具提取二級結構特征: DSSP工具通過解析蛋白質的空間結構數據,基于二級結構預測方法,識別每個殘基的二級結構類型及其對應的序列位置和鏈標識;首先,輸入蛋白質的空間結構數據到DSSP工具,生成包含該蛋白質的二級結構特征的DSSP文件,接著,通過解析蛋白質的空間結構數據和DSSP文件中的二級結構特征,提取蛋白質口袋區域的二級結構特征,包括殘基的二級結構類型和相對溶劑可及性RSA,隨后,利用Biopython中的Bio.PDB.DSSP模塊解析DSSP文件,將每個殘基的二級結構類型轉化為獨熱編碼,并計算和歸一化其相對溶劑可及性RSA,以用于后續特征矩陣的構建,最后,生成的DSSP文件將被保留,以便后續通過Feature軟件進一步提取殘基微環境中的二級結構特征; 2基于殘基接觸網絡提取原子的接觸網絡特征,即近距離相互作用特征: 首先,通過Biopython和NetworkX工具生成蛋白質的接觸網絡;從蛋白質的PDB文件中解析出每個殘基的空間坐標,選擇每個殘基的α碳原子作為代表原子,并基于三維空間中的距離關系,按照設定的閾值分別為其中是一個描述原子間距的單位,尋找接觸殘基,構建α碳原子-α碳原子的接觸網絡: 式中,dk,cR為k位殘基R以c為閾值時的殘基接觸密度,lenP為蛋白質P的序列長度,Ck,cR是k位殘基R以c為閾值時的總接觸數; 接著,根據殘基R的α碳原子空間坐標,將殘基R接觸分為上半球和下半球,統計每個殘基在不同閾值下的上半球和下半球接觸數,計算暴露比例: Dk,cR=1-Uk,cR 式中,Uk,cR為k位殘基R以c為閾值時的上半球暴露比,Dk,cR為k位殘基R以c為閾值時下半球暴露比,Cu,k,cR為k位殘基R以c為閾值時上半球的接觸數,Ck,cR為k位殘基R以c為閾值時上下半球的總接觸數; 在接觸網絡中,進一步分析每個殘基的局部網絡屬性,計算每個殘基的聚類系數ClusteringCoefficient和介數中心性BetweennessCentrality: 式中,CcR是殘基R的聚類系數,TR是網絡中通過殘基R的三角形數量,degR是殘基R在網絡中的度數,為R殘基的理論最大三角形數量; 式中,CBR是殘基R的介數中心性,V是節點的集合,s和t是網絡中的任意兩個節點,σs,t是節點s到節點t的最短路徑的總數,并且σs,t|R是通過節點s、節點t與殘基R的最短路徑數目;在該網絡中定義:若σs,t=0,則 通過殘基接觸網絡,提取蛋白質接觸網絡中的殘基近距離相互作用特征;殘基接觸密度揭示殘基的局部接觸情況,半球暴露比例反映了殘基在空間中的暴露特性,聚類系數和介數中心性則從網絡屬性角度刻畫了殘基在接觸網絡中的局部和全局重要性; 3基于Feature軟件提取殘基微環境理化特征: 通過Feature軟件的featurize模塊進行微環境采樣,在原子水平上分析蛋白質結構,對每個殘基的α碳原子為中心的區域進行微環境采樣,在微環境采樣中,定義微環境的空間范圍為半徑為和的球殼; 使用Feature軟件的Atomselect模塊,選擇目標殘基的α碳原子,逐一對每個殘基進行微環境特征化,特征化的內容包括球體和球殼內的物理、化學和結構特性: 根據元素水平提取球殼或球體內各種元素的數量,包括:任意元素數量ELEMENT_IS_ANY、碳元素數量ELEMENT_IS_C、氮元素數量ELEMENT_IS_N、氧元素數量ELEMENT_IS_O、硫元素數量ELEMENT_IS_S、除碳、氮、氧、硫的其它元素數量ELEMENT_IS_OTHER; 根據原子水平提取球殼或球體內各種原子的數量,包括: 與氧原子相連的碳原子數量ATOM_TYPE_IS_C、側鏈上的終端碳原子數量ATOM_TYPE_IS_CT、與氨基碳原子相連的碳原子數量ATOM_TYPE_IS_CA、氨基上的氮原子數量ATOM_TYPE_IS_N、PDB文件中結構原子標識為N2的原子數量ATOM_TYPE_IS_N2、PDB文件中結構原子標識為N3的原子數量ATOM_TYPE_IS_N3、與α碳原子相連的氮原子數量ATOM_TYPE_IS_NA、與α碳原子相連的雙鍵氧原子數量ATOM_TYPE_IS_O、側鏈上與α碳原子最近的α碳原子的羧基雙鍵氧原子數量ATOM_TYPE_IS_O2、與α碳原子相連的羥基氫原子數量ATOM_TYPE_IS_OH、硫原子ATOM_TYPE_IS_S數量、硫上的氫原子數量ATOM_TYPE_IS_SH、除以上原子外的所有原子數量ATOM_TYPE_IS_OTHER; 根據殘基水平提取球殼或球體內各種電荷量,包括:原子部分電荷量PARTIAL_CHARGE、負電荷量NEG_CHARGE、正電荷量POS_CHARGE、考慮組氨酸的總電荷量CHARGE_WITH_HIS、不考慮組氨酸的總電荷量CHARGE; 根據原子水平提取球殼或球體內各種殘基的數量,包括: 丙氨酸數量RESIDUE_NAME_IS_ALA、精氨酸數量RESIDUE_NAME_IS_ARG、天門冬酰胺數量RESIDUE_NAME_IS_ASN、天門冬氨酸數量RESIDUE_NAME_IS_ASP、半胱氨酸數量RESIDUE_NAME_IS_CYS、谷氨酰胺數量RESIDUE_NAME_IS_GLN、谷氨酸數量RESIDUE_NAME_IS_GLU、甘氨酸數量RESIDUE_NAME_IS_GLY、組氨酸數量RESIDUE_NAME_IS_HIS、異亮氨酸數量RESIDUE_NAME_IS_ILE、亮氨酸數量RESIDUE_NAME_IS_LEU、賴氨酸數量RESIDUE_NAME_IS_LYS、甲硫氨酸數量RESIDUE_NAME_IS_MET、苯丙氨酸數量RESIDUE_NAME_IS_PHE、脯氨酸數量RESIDUE_NAME_IS_PRO、絲氨酸數量RESIDUE_NAME_IS_SER、蘇氨酸數量RESIDUE_NAME_IS_THR、色氨酸數量RESIDUE_NAME_IS_TRP、酪氨酸數量RESIDUE_NAME_IS_TYR、纈氨酸數量RESIDUE_NAME_IS_VAL、殘基名字不屬于以上所有殘基名RESIDUE_NAME_IS_OTHER; 根據微環境中的各種殘基和原子特性,統計球體或球殼內的整體理化性質,包括: 具有疏水性的殘基數量RESIDUE_CLASS1_IS_HYDROPHOBIC、帶電荷的殘基數量RESIDUE_CLASS1_IS_CHARGED、具有極性的殘基數量RESIDUE_CLASS1_IS_POLAR、不屬于疏水性、極性且不帶電荷的殘基數量 RESIDUE_CLASS1_IS_UNKNOWN、具有非極性的殘基數量RESIDUE_CLASS2_IS_NONPOLAR、RESIDUE_CLASS2_IS_POLAR與CLASS1區別的具有疏水性的殘基數量、具堿性的殘基RESIDUE_CLASS2_IS_BASIC、具有酸性的殘基數量RESIDUE_CLASS2_IS_ACIDIC、不屬于非極性類且不具酸堿性的殘基數量RESIDUE_CLASS2_IS_UNKNOWN; 結合DSSP工具提供的二級結構特征,統計微環境中包含的各種二級結構的數量,包括: 二級結構類型為3圈α螺旋的數量SECONDARY_STRUCTURE1_IS_3HELIX、二級結構類型為4圈α螺旋的數量SECONDARY_STRUCTURE1_IS_4HELIX、二級結構類型為5圈α螺旋的數量SECONDARY_STRUCTURE1_IS_5HELIX、二級結構類型為連接α螺旋和β螺旋的短片段的數量SECONDARY_STRUCTURE1_IS_BRIDGE、二級結構類型為β-鏈和反β折疊的數量SECONDARY_STRUCTURE1_IS_STRAN、二級結構類型為轉角的數量SECONDARY_STRUCTURE1_IS_TURN、二級結構類型為有規則彎曲的數量SECONDARY_STRUCTURE1_IS_BEND、二級結構類型不屬于strand、helix、bend、bridge、turn、雜環的數量SECONDARY_STRUCTURE1_IS_COIL、雜原子的數量SECONDARY_STRUCTURE1_IS_HET、無法被DSSP識別的二級結構的數量SECONDARY_STRUCTURE1_IS_UNKNOWN、二級結構類型為α螺旋的數量SECONDARY_STRUCTURE2_IS_HELIX、二級結構類型為包括BRIDGE、BEND、TURN的β螺旋的數量SECONDARY_STRUCTURE2_IS_BETA、二級結構類型為無規則彎曲的數量SECONDARY_STRUCTURE2_IS_COIL、二級結構類型為雜環結構的數量SECONDARY_STRUCTURE2_IS_HET、不屬于HELIX、BETA、COIL、HET的二級結構數量SECONDARY_STRUCTURE2_IS_UNKNOWN; 最后,統計球殼或球體內的特殊結構和官能團,包括:羥基HYDROXYL、酰胺AMIDE、胺AMINE、羰基CARBONYL、環系統RING_SYSTEM、肽PEPTIDE;以及原子水平的物理性質:范德華體積VDW_VOLUME、疏水性HYDROPHOBICITY、可移動性MOBILITY、溶劑可及性SOLVENT_ACCESSIBILITY; Feature軟件通過分析功能相似蛋白質的結構,將蛋白質功能與其結構相關聯;該Feature軟件的核心思想是在原子水平分析蛋白質結構,采樣每個原子或指定點集周圍的小球體積,這些體積被稱為微環境;微環境由一個特征向量的實數向量表示,特征向量包含球體或球殼內的物理化學特征信息;通過提取微環境信息,能夠將蛋白質的復雜三維結構數據轉化為能用于機器學習模型的數值特征; 4使用Python環境中的pandas工具包,將步驟1、步驟2、步驟3得到的二級結構特征、接觸網絡特征及殘基微環境理化特征拼接起來,得到蛋白質的特征矩陣;通過特征提取模塊,蛋白質的每個殘基生成了258個特征描述。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人華南農業大學,其通訊地址為:510642 廣東省廣州市天河區五山路483號;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。