[發明專利]一種基于復雜網絡的多肽分類方法在審
申請號: | 202110275496.3 | 申請日: | 2021-03-15 |
公開(公告)號: | CN112951341A | 公開(公告)日: | 2021-06-11 |
發明(設計)人: | 丁彥蕊;許德玲 | 申請(專利權)人: | 江南大學 |
主分類號: | G16C20/50 | 分類號: | G16C20/50;G16C20/70 |
代理公司: | 哈爾濱市陽光惠遠知識產權代理有限公司 23211 | 代理人: | 林娟 |
地址: | 214000 江蘇*** | 國省代碼: | 江蘇;32 |
權利要求書: | 查看更多 | 說明書: | 查看更多 |
摘要: | |||
搜索關鍵詞: | 一種 基于 復雜 網絡 多肽 分類 方法 | ||
1.一種基于復雜網絡的多肽分類方法,其特征在于,所述方法包括:
Step1提取待分類多肽的一級結構和三級結構,并對三級結構進行解析獲得二級結構和網絡結構;
Step2根據網絡結構獲取待分類多肽的中氨基酸Phe、Trp、Lys、Arg、Ile、Leu、Val、Tyr的度、接近中心性和介數中心性作為網絡特征;
Step3以待分類多肽的網絡特征為輸入,采用以網絡特征進行訓練得到的訓練好的分類模型對待分類多肽進行分類,得到待分類多肽所屬類別的第一判斷結果;所述訓練好的分類模型包括基于支持向量機、K近鄰、隨機森林三種算法的分類模型。
2.根據權利要求1所述的方法,其特征在于,所述獲取待分類多肽的中氨基酸Phe、Trp、Lys、Arg、Ile、Leu、Val、Tyr的度、接近中心性和介數中心性作為網絡特征,包括:
將每條多肽表示為:C=c1,c2,…,c20,c21,…,c40,c41,…c60;其中:
(1)c1~c20代表各種氨基酸的平均度,在網絡中反映氨基酸節點的重要程度;氨基酸節點i的度di的計算公式為di=∑aij,其中aij表示氨基酸節點i和氨基酸節點j之間有邊記為1,否則為0;
(2)c21~c40代表各種氨基酸的平均接近中心性,在網絡中反映氨基酸節點與氨基酸節點之間的接近程度;氨基酸節點i的接近中心性ci計算公式為其中dij表示以氨基酸節點i為起點,以氨基酸節點j為終點的最短路徑中所含邊的數量,N為氨基酸節點的總數;
(3)c41~c60代表各種氨基酸的平均介數中心性,在網絡中反映某個氨基酸節點對其他氨基酸節點的影響程度;氨基酸節點i的介數中心性Bi計算公式為其中σjk(i)表示從氨基酸節點j通過氨基酸節點i到氨基酸節點k最短路徑的條數,σjk表示從氨基酸節點j到氨基酸節點k之間所有最短路徑的總數。
3.根據權利要求1或2所述的方法,其特征在于,所述方法還包括:
Step4提取待分類多肽的一級結構特征、二級結構特征和三級結構特征,并去除不相關和冗余的特征;
Step5以待分類多肽的去除不相關和冗余的特征后的一級結構特征、二級結構特征和三級結構特征為輸入,采用以一級結構特征、二級結構特征和三級結構特征進行訓練得到的訓練好的分類模型對待分類多肽進行分類,得到待分類多肽所屬類別的第二判斷結果;
Step6根據待分類多肽所屬類別的第一判斷結果和待分類多肽所屬類別的第二判斷結果最終確定待分類多肽所屬類別。
4.根據權利要求3所述的方法,其特征在于,所述以網絡特征進行訓練得到的訓練好的分類模型的訓練過程包括:
Step1-1提取抗癌多肽和抗高血壓多肽的一級結構和三級結構,并對三維結構進行解析獲得二級結構和網絡結構;
Step1-2根據網絡結構獲取抗癌多肽和抗高血壓多肽中各種氨基酸的度、接近中心性和介數中心性;
Step1-3根據各種氨基酸的度、接近中心性和介數中心性數值的大小,選擇氨基酸Phe、Trp、Lys、Arg、Ile、Leu、Val、Tyr的度、接近中心性以及介數中心性的值作為網絡特征;
Step1-4以網絡特征為輸入,分別訓練基于支持向量機、K近鄰、隨機森林三種算法的分類模型,得到訓練好的分類模型。
5.根據權利要求4所述的方法,其特征在于,所述基于支持向量機、K近鄰、隨機森林三種算法的分類模型中,支持向量機分類模型中采用RBF作為內核函數,訓練好的模型中支持向量機參數c和g取值為c=24,g=2-4;K近鄰分類模型中,參數K取值為K=45;隨機森林分類模型中,最佳分類數值為130。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于江南大學,未經江南大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110275496.3/1.html,轉載請聲明來源鉆瓜專利網。