[發明專利]一種基于復雜網絡篩選疾病相關蛋白的方法有效
| 申請號: | 202010418499.3 | 申請日: | 2020-05-18 |
| 公開(公告)號: | CN111640468B | 公開(公告)日: | 2021-08-24 |
| 發明(設計)人: | 李旭;任靜;王學敏;張文;閆凱境;王文佳 | 申請(專利權)人: | 天士力國際基因網絡藥物創新中心有限公司 |
| 主分類號: | G16B40/20 | 分類號: | G16B40/20;G16B25/10;G06N20/00 |
| 代理公司: | 北京君尚知識產權代理有限公司 11200 | 代理人: | 司立彬 |
| 地址: | 300451 天津市濱海新區自貿試驗區(東疆保*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 復雜 網絡 篩選 疾病 相關 蛋白 方法 | ||
1.一種基于復雜網絡篩選疾病相關蛋白的方法,其步驟包括:
1)獲取目標疾病相關的種子基因;
2)基于蛋白-蛋白相互作用數據庫,構建以該種子基因為核心的蛋白相互作用網絡;
3)利用node2vec算法提取該蛋白相互作用網絡中蛋白的特征數據;
4)將蛋白的所述特征數據作為訓練數據,采用半監督算法PU-learning訓練得到PU分類器;
5)根據所述PU分類器預測該蛋白相互作用網絡中與該目標疾病有關的蛋白。
2.如權利要求1所述的方法,其特征在于,利用node2vec算法提取該蛋白相互作用網絡中蛋白的特征數據,其方法為:
31)基于蛋白相互作用網絡數據構建無向圖G,獲得節點集和邊集;其中節點集中的每一節點對應一蛋白,邊集中的邊代表蛋白與蛋白之間相互作用關系;
32)利用node2vec算法對該無向圖G進行圖嵌入,得到蛋白相互作用網絡中的蛋白特征。
3.如權利要求2所述的方法,其特征在于,所述node2vec算法通過兩個超參數p和q控制概率反復經過節點;其中超參數p的取值范圍為[2,5],超參數q的取值范圍為[0.1,3]。
4.如權利要求3所述的方法,其特征在于,將所述蛋白特征表示為d維向量,維數d的取值范圍為[128,256]。
5.如權利要求1所述的方法,其特征在于,采用半監督算法PU-learning訓練得到PU分類器的方法為:
41)從正例標注集P中隨機選取部分“間諜”樣本得到一集合S,并將集合S放置于無標簽的數據集U中;將P-S作為正例集合PS,U+S作為反例集合US,訓練得到NB分類器對反例集合US中的每個蛋白樣本進行分類;其中,正例標注集P為與目標疾病相關的種子蛋白集合,數據集U中的蛋白為與目標疾病無法確定相關性的蛋白;
42)重復步驟41),將滿足設定要求的負樣本作為高頻穩定的負樣本,構成一負樣本集合RN;
43)對正例樣本P和負樣本集合RN迭代運行學習算法SVM,直到SVM收斂或達到設定停止條件,得到PU分類器。
6.如權利要求5所述的方法,其特征在于,將同一樣本被分類為負樣本的次數占重復總次數的比例超過設定閾值的樣本作為高頻穩定的負樣本。
7.如權利要求1所述的方法,其特征在于,對目標疾病組人群和對照組人群進行全基因組掃描,通過全基因組關聯分析獲得該目標疾病相關的種子基因。
8.一種存儲介質,所述存儲介質中存儲有計算機程序,其中,所述計算機程序被設置為運行時執行權利要求1-7中任一所述方法中各步驟的指令。
9.一種服務器,其特征在于,包括存儲器和處理器,所述存儲器存儲計算機程序,所述計算機程序被配置為由所述處理器執行,所述計算機程序包括用于執行權利要求1至7任一所述方法中各步驟的指令。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于天士力國際基因網絡藥物創新中心有限公司,未經天士力國際基因網絡藥物創新中心有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010418499.3/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種雙屏顯示設備及其音頻輸出方法
- 下一篇:架空線路防外破報警裝置





