[發明專利]一種基于復雜網絡篩選疾病相關蛋白的方法有效
| 申請號: | 202010418499.3 | 申請日: | 2020-05-18 |
| 公開(公告)號: | CN111640468B | 公開(公告)日: | 2021-08-24 |
| 發明(設計)人: | 李旭;任靜;王學敏;張文;閆凱境;王文佳 | 申請(專利權)人: | 天士力國際基因網絡藥物創新中心有限公司 |
| 主分類號: | G16B40/20 | 分類號: | G16B40/20;G16B25/10;G06N20/00 |
| 代理公司: | 北京君尚知識產權代理有限公司 11200 | 代理人: | 司立彬 |
| 地址: | 300451 天津市濱海新區自貿試驗區(東疆保*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 復雜 網絡 篩選 疾病 相關 蛋白 方法 | ||
本發明公開了一種基于復雜網絡篩選疾病相關蛋白的方法,本方法為:1)獲取目標疾病相關的種子基因;2)基于蛋白?蛋白相互作用數據庫,構建以該種子基因為核心的蛋白相互作用網絡;3)提取該蛋白相互作用網絡中蛋白的特征數據;4)將蛋白的所述特征數據作為訓練數據,采用機器學習算法訓練得到PU分類器;5)根據所述PU分類器預測該蛋白相互作用網絡中與該目標疾病有關的蛋白。本發明的方法能夠快速高效鑒定出與疾病相關的蛋白,有助于生物醫學專家進行實驗驗證或相關研究人員開展工作。
技術領域
本發明涉及蛋白篩選技術領域,具體涉及一種基于復雜網絡篩選疾病相關蛋白的方法。
背景技術
疾病相關蛋白的識別在疾病的分子分型、診斷、治療等方面發揮重要的作用。準確且高效的識別疾病相關蛋白有助于發現致病基因、鑒定藥物的靶標,在疾病診治和藥物設計方面意義深遠。GWAS作為探討疾病易感基因的重要研究工具,能夠快速發現較為顯著的疾病易感位點。但GWAS對數據利用度不高,掩蓋了大量可能具有顯著性的疾病相關蛋白。同時,傳統GWAS的單位點關聯分析將機體內各個基因獨立對待,忽略了生物體內基因間的相互作用,難以發現真正與疾病相關的蛋白。
蛋白-蛋白相互作用(PPI)網絡分析彌補了上述不足。近年來,隨著PPI數據的日益完善,使用計算機網絡和圖論的理論及方法,從系統的角度研究蛋白相互作用網絡,成為熱門領域。不少學者逐漸轉向基于計算的蛋白識別研究,提出了許多經典的算法,如度中心性(Degree Centrality,DC)、介數中心性(Betweenness Centrality,BC)、接近度中心性(Closeness Centrality,CC)等等,然而這些算法的識別準確率普遍不高。因此,如何基于蛋白互作網絡獲得蛋白的特征表示,并用于尋找與已知疾病相關蛋白功能相似的蛋白,是蛋白網絡分析的難點。
疾病相關蛋白的識別的另一難點在于,在以疾病種子基因為核心的蛋白相互作用網絡中,有標簽的疾病蛋白非常稀少,僅有種子基因為正樣本,大量的無標簽的蛋白與疾病的關系未知,即這些無標簽的蛋白可能為與疾病相關的蛋白,也可能與疾病無關。通常,這些無標簽的蛋白與疾病的相關性依賴于生物學實驗或人工文獻檢索矯正,價格昂貴,耗時長。大數據和人工智能技術的飛速發展為疾病蛋白篩選提供了一條低成本、高效率的途徑。通過機器學習技術預測出與疾病最相關的蛋白,從而對開發新藥,臨床治療起到巨大的推動作用。然而,大量的無標簽數據在機器學習過程中容易造成模型欠擬合或過擬合問題,導致模型不足以學習到整個樣本空間中的信息或者模型范化能力不足。如何合理使用無標注數據構建模型,大大減輕對標注數據的需求,是亟待解決的技術難題。
發明內容
針對現有技術中的缺陷與不足,本發明的目的在于提供一種基于復雜網絡篩選疾病相關蛋白的方法。本發明的方法能夠快速高效鑒定出與疾病相關的蛋白,有助于生物醫學專家進行實驗驗證或相關研究人員開展工作。
本發明提供了一種基于復雜網絡篩選疾病相關蛋白的方法。通過全基因組關聯分析(GWAS)發現與疾病相關的種子基因,并基于蛋白相互作用數據庫(如Biogrid、String、Intact、HPRD數據庫等)獲得以種子基因為核心的蛋白互作網絡,使用node2vec算法提取蛋白互作網絡中蛋白的特征數據,利用半監督學習PU-learning算法預測與蛋白互作網絡中與疾病有關的蛋白。具體步驟如下:
S1:采用病例-對照研究的方法,對目標疾病組人群和對照組人群進行全基因組掃描,全基因組關聯分析(GWAS)獲得該目標疾病相關的種子基因;
S2:基于蛋白-蛋白相互作用數據庫,構建以該種子基因為核心的蛋白相互作用網絡;
S3:基于node2vec算法提取該蛋白相互作用網絡中蛋白的特征數據;
所述步驟S3具體包括:
S31:將S2獲得的蛋白相互作用網絡數據,構建無向圖G,獲得節點集(蛋白集)和邊集(蛋白-蛋白相互作用關系集);
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于天士力國際基因網絡藥物創新中心有限公司,未經天士力國際基因網絡藥物創新中心有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010418499.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種雙屏顯示設備及其音頻輸出方法
- 下一篇:架空線路防外破報警裝置





