[發明專利]一種蛋白質異構體對相互作用預測方法及裝置有效
| 申請號: | 202010157694.5 | 申請日: | 2020-03-09 |
| 公開(公告)號: | CN111370068B | 公開(公告)日: | 2022-11-04 |
| 發明(設計)人: | 王建新;文驥威;李洪東 | 申請(專利權)人: | 中南大學 |
| 主分類號: | G16B40/00 | 分類號: | G16B40/00;G16B20/00 |
| 代理公司: | 長沙市融智專利事務所(普通合伙) 43114 | 代理人: | 楊萍 |
| 地址: | 410083 湖南*** | 國省代碼: | 湖南;43 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 蛋白質 異構體 相互作用 預測 方法 裝置 | ||
1.一種蛋白質異構體對相互作用預測方法,其特征在于,包括以下步驟:
特征提取步驟:
將蛋白質異構體兩兩組合,形成蛋白質異構體對;對于每個蛋白質異構體對,基于其在n個組織中的表達數據的皮爾遜相關系數分別確定其n個特征值;
所述特征提取步驟具體為:
首先,將所有蛋白質異構體對在n個組織中的表達數據的皮爾遜相關系數存儲在矩陣M中,M中每一行對應一個蛋白質異構體對,M中每一列對應一個組織,M中每一個元素表示一個蛋白質異構體對在一個組織中的表達數據的皮爾遜相關系數;
然后,對矩陣M進行Fisher-Z變換,公式如下:
其中,r表示矩陣M中變換前的元素值,z是r經過Fisher-Z變換后得到的值;
最后,將變換后得到的矩陣記為M′;對于每個蛋白質異構體對,將其在M′中對應的一行的n個元素作為其n個特征值;
訓練集構建及模型訓練步驟:
獲取蛋白質相互作用數據,其中包括具有相互作用的蛋白質對,對這些蛋白質對,篩選出僅對應一個蛋白質異構體對的蛋白質對,令其對應的蛋白質異構體對的標簽為1;
利用隨機采樣方法產生不具有相互作用的蛋白質對,對于這些蛋白質對,令其對應的所有蛋白質異構體對的標簽為0;
將確定了標簽的蛋白質異構體對作為樣本;將所有樣本的特征數據記為F0,所有樣本對應的標簽記為L0;基于(F0,L0)訓練預測模型;所述預測模型為隨機森林模型;
預測步驟:
對于待分類的蛋白質異構體對,將其特征數據輸入訓練好的預測模型,得到其預測結果。
2.根據權利要求1所述的蛋白質異構體對相互作用預測方法,其特征在于,所述特征提取步驟中,對于任一蛋白質異構體對,其在任一組織中的表達數據的皮爾遜相關系數計算公式如下:
其中,Xi和Yi分別表示該蛋白質異構體對中兩個蛋白質異構體在該組織的第i個樣本中的表達量,和分別表示Xi和Yi的均值,即m為該組織的樣本數量。
3.根據權利要求1所述的蛋白質異構體對相互作用預測方法,其特征在于,所述訓練集構建及模型訓練步驟包括以下步驟:
步驟1、對于具有相互作用的蛋白質對,令其標簽為1;對于不具有相互作用的蛋白質對,令標簽為0;由標簽為1的蛋白質對和標簽為0的蛋白質對構成蛋白質相互作用數據集合Q;對任一蛋白質異構體對,若其對應的蛋白質對存在于蛋白質相互作用數據集合Q中,則將該蛋白質異構體對加入集合R中;
初始化訓練集為(F0,L0),迭代次數t=1;
步驟2、迭代訓練隨機森林模型:
步驟A:在第t次迭代過程中,首先基于(F0,L0)訓練隨機森林模型;然后對于集合R中每個蛋白質異構體對,分別將其特征數據輸入訓練完成后的隨機森林模型,得到預測結果W,W中包括集合R中每個蛋白質異構體對的得分,得分越高,相應的蛋白質異構體對具有相互作用的可能性越大;
步驟B:若迭代次數大于或等于2,則判斷預測結果W是否收斂,如果預測結果W收斂,則結束迭代,將本次迭代過程中訓練完成后的隨機森林模型作為訓練好的預測模型,否則進行步驟C;
步驟C:篩選出下一次迭代的數據,即對于集合Q中標簽為1的每個蛋白質對,篩選出其對應的得分最高的蛋白質異構體對,令其標簽為1;對于集合Q中標簽為0的每個蛋白質對,篩選出其對應的得分最高的蛋白質異構體對,令其標簽為0;將上述篩選出的蛋白質異構體對作為新的訓練樣本,將它們的特征數據作為新的F0,它們對應的標簽作為新的L0,令t=t+1,返回步驟A進行下一次迭代。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中南大學,未經中南大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010157694.5/1.html,轉載請聲明來源鉆瓜專利網。





