[發明專利]一種用于判斷待處理多肽與陽性數據集肽段相似度的方法有效
| 申請號: | 201911126311.1 | 申請日: | 2019-11-18 |
| 公開(公告)號: | CN110970090B | 公開(公告)日: | 2021-06-29 |
| 發明(設計)人: | 薛宇;蔣沛然;寧萬山;傅振遠;郭亞萍;譚瀟丹 | 申請(專利權)人: | 華中科技大學 |
| 主分類號: | G16B30/10 | 分類號: | G16B30/10 |
| 代理公司: | 華中科技大學專利中心 42201 | 代理人: | 許恒恒;李智 |
| 地址: | 430074 湖北*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 用于 判斷 處理 多肽 陽性 數據 集肽段 相似 方法 | ||
1.一種用于判斷待處理多肽與陽性數據集肽段相似度的方法,其特征在于,包括以下步驟:
(1)收集修飾位點信息:基于預先設定的某一種特定類型的蛋白質翻譯后修飾,收集蛋白質翻譯后這一特定類型的修飾位點信息,下載得到蛋白質的一級序列;然后,將一級序列中滿足特定類型的修飾位點在蛋白質上的對應位點標記為陽性位點,將一級序列中排除這些陽性位點、且與這些陽性位點所對應的氨基酸種類相同的氨基酸位點標記為陰性位點;接著,分別以各個陽性位點和各個陰性位點為中心,對蛋白質的一級序列進行切割,形成:
(a)以某個陽性位點為中心,且包括緊鄰該中心的上游n個氨基酸、及下游n個氨基酸的總長度為2n+1個氨基酸的序列,從而得到與該陽性位點相對應的陽性數據;以及
(b)以某個陰性位點為中心,且包括緊鄰該中心的上游n個氨基酸、及下游n個氨基酸的總長度為2n+1個氨基酸的序列,從而得到與該陰性位點相對應的陰性數據;
由各個陽性位點相對應的陽性數據按先后順序排列形成的數據集合即為陽性數據集,由各個陰性位點相對應的陰性數據按先后順序排列形成的數據集合即為陰性數據集;其中,n為預先設定的大于等于1的整數;
(2)位置權重訓練與矩陣突變訓練:
記訓練用待處理多肽為Q,將訓練用待處理多肽Q與所述陽性數據集中的每個陽性數據基于位置權重和氨基酸替換得分進行相似度打分,具體計算公式如下:
S(Q,R)=∑1≤i≤L Wi M(Q[i],R[i]);
其中,L=2n+1;Q[i],R[i]分別是訓練用待處理多肽Q和所述陽性數據集中某個陽性數據R在位置i上的氨基酸;M(Q[i],R[i])為氨基酸Q[i],R[i]在BLOSUM62氨基酸替換矩陣中的分值,即氨基酸替換得分;Wi為訓練用待處理多肽Q中位置i上的權重,即位置權重;
接著,將所述陽性數據集中的每一個陽性數據和所述陰性數據集中的每一個陰性數據分別作為訓練用待處理多肽Q,與所述陽性數據集中的每個陽性數據基于位置權重和氨基酸替換得分進行相似度打分,位置權重Wi初始值為1,然后使用懲罰邏輯回歸執行交叉驗證訓練出位置權重及氨基酸替換得分,由此訓練得到與陽性數據集中的每個陽性數據相對應的位置權重及氨基酸替換得分;
(3)數據質量權重的訓練:
將訓練用待處理多肽Q與所述陽性數據集整體基于位置權重和氨基酸替換得分進行相似度打分,得到訓練用待處理多肽Q與所述陽性數據集的整體相似性分值,具體計算公式如下:
其中,S(Q,Tj)為訓練用待處理多肽Q和所述陽性數據集中第j個陽性數據Tj的相似度打分;N+是陽性數據集中陽性數據的總數量,1≤j≤N+;Posdqj是所述陽性數據集中陽性數據Tj的數據質量,即數據質量權重;
陽性數據集中的每個陽性數據都能夠依此對應得到數據質量權重;
接著,將所述陽性數據集中的每一個陽性數據和所述陰性數據集中的每一個陰性數據分別作為訓練用待處理多肽Q,與所述陽性數據集整體基于位置權重和氨基酸替換得分進行相似度打分,數據質量Posdqj的值初始化為1,執行懲罰邏輯回歸交叉驗證,根據預先設定的AUC值要求訓練出數據質量權重Posdqj;由此訓練得到與陽性數據集中的每個陽性數據相對應的數據質量權重;
(4)實際測試:
對于實際待處理多肽Q0,首先匹配長度,通過以預測位點為中心的氨基酸截取或補*,使待處理多肽的長度為2n+1,得到新的實際待處理多肽;然后,將Q更新為實際待處理多肽,基于訓練得到的與陽性數據集中的每個陽性數據相對應的位置權重、氨基酸替換得分及數據質量權重,計算實際待處理多肽Q與陽性數據集整體之間的精確的相似性;用于表示精確的相似性的矩陣具體如下:
其中,該矩陣的21行每一行分別對應21種氨基酸A、…、*;L列每一列分別對應陽性數據集中任意一個陽性數據的2n+1個位置,共計L個;并且,記實際待處理多肽Q位于位置i的氨基酸為β,1≤i≤L,則矩陣中相應元素的計算公式為:
其中,N+(α,i)是所述陽性數據集中位于位置i的氨基酸為α的數量;將所述陽性數據集中位于位置i的氨基酸為α的陽性數據按順序挑選出來得到陽性數據集子集,并且基于所述步驟(2)與所述步驟(3)的訓練結果,Wi、M(β,R[i])、Posdqk分別為與該陽性數據集子集中的每個陽性數據相對應的位置權重、氨基酸替換得分及數據質量權重,1≤k≤N+(α,i),其中M(β,R[i])表示待處理多肽Q位于位置i的氨基酸β與所述陽性數據集子集中的每個陽性數據相對應的氨基酸替換得分,R[i]代表陽性數據R位于位置i的氨基酸。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華中科技大學,未經華中科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911126311.1/1.html,轉載請聲明來源鉆瓜專利網。





