[發明專利]一種利用機器學習預測復雜疾病易感位點的方法在審
| 申請號: | 201710592222.0 | 申請日: | 2017-07-19 |
| 公開(公告)號: | CN107341366A | 公開(公告)日: | 2017-11-10 |
| 發明(設計)人: | 董珊珊;楊鐵林;姚石;陳一霄;郭燕;張鈺潔 | 申請(專利權)人: | 西安交通大學 |
| 主分類號: | G06F19/24 | 分類號: | G06F19/24;G06F19/18;G06F19/12 |
| 代理公司: | 西安通大專利代理有限責任公司61200 | 代理人: | 王艾華 |
| 地址: | 710049 陜*** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 利用 機器 學習 預測 復雜 疾病 易感位點 方法 | ||
1.一種利用機器學習預測復雜疾病易感位點的篩選方法,其特征在于,包括以下步驟:
P1:收集已知的復雜疾病易感位點作為機器學習模型的陽性集,根據陽性集推測與復雜疾病不相關的位點作為陰性集,并進行表觀調控元件的注釋;
P2:利用機器學習建立復雜疾病表觀調控模型;
P3:根據建立的模型,對全基因組范圍內全部的位點就進行預測,得到最終的預測結果作為復雜疾病的潛在易感位點。
2.根據權利要求1所述的一種利用機器學習預測復雜疾病易感位點的篩選方法,其特征在于,所述步驟P1具體包括以下步驟:
P11:利用公共數據庫GWAS catalog、PheGenI和Pubmed相關文獻收集某一復雜疾病的已知易感SNP,并利用千人基因組計劃公布的基因型數據計算與已知易感位點高連鎖的SNP作為陽性集;
P12:對于陰性集,篩選全基因組范圍內滿足如下條件的SNP組成陰性集合:A.與陽性集合內SNP一定距離范圍內;B.與其對應陽性集合內SNP的最小等位基因頻率之差小于0.05;C.獨立于陽性集合內所有SNP(r2<0.1);選取完畢之后,陽性集和陰性集的比例為1:20;
P13:從UCSC和Roadmap數據庫獲取基因組所有表觀調控元件信息,包括轉錄因子結合位點、組蛋白修飾位點和染色質分割狀態;從GTEx數據庫獲取相關組織基因表達數量性狀基因座信息;從ANNOVAR數據庫獲取序列保守性特征,每種調控元件儲存為一個文本文件;
P14:利用獲取的表觀調控元件信息,根據基因組的物理位置對上述陽性集和陰性集內的SNP進行注釋,對應原則為SNP如果與某個調控元件的屋里位置有重疊,則認為該SNP被這一調控元件注釋到。
3.根據權利要求1所述的一種利用機器學習預測復雜疾病易感位點的篩選方法,其特征在于,所述步驟P2具體包括以下步驟:
P21:針對上述注釋后的結果,利用R中的corrplot包計算調控元件之間的相關性并將高相關的調控元件隨機去除,隨后將注釋結果隨機分為訓練集和測試集兩部分,其中訓練集占總集合的80%,測試集占總集合的20%,此步進行5折交叉驗證;
P22:用不同機器學習算法對P21中所得訓練集注釋結果矩陣建立模型,所述機器學習方法包括但不限于隨機森林、決策樹、支持向量機;并用測試集判斷模型的可靠性,評價指標包括靈敏性sensitivity、特異性specificity、精度precision、準確度accuracy和F1分數,計算公式如下:
Sensitivity=TP/(TP+FN)
Specificity=TN/(TN+FP)
Precision=TP/(TP+FP)
Accuracy=(TP+TN)/(TP+FN+FP+TN)
F1=2×TP/(2×TP+FP+FN)
其中,TP為真陽性,FN為假陰性,TN為真陰性,FP為假陽性;
P23:根據P22所述模型評價指標,利用元件特征選擇對模型進行優化,具體步驟如下:通過模型獲得調控元件對模型的重要性排序;根據元件的重要性構建多個特征子集,集合中的特征數最大逐漸減少至1;根據模型評價指標確定模型的最優子集,用以預測新的復雜疾病易感遺傳位點。
4.根據權利要求1所述的一種利用機器學習預測復雜疾病易感位點的篩選方法,其特征在于,所述步驟P3具體包括以下內容:
P31:通過P2步驟獲得機器學習模型的最優子集,利用子集中包含的調控元件對全基因組范圍內全部的位點進行注釋;
P32:根據建立的最優模型,對全基因組范圍內全部的位點進行預測,最終得到與陽性調控元件注釋相似的位點,即為復雜疾病的潛在易感位點。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西安交通大學,未經西安交通大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710592222.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種遺傳病的篩查方法和試劑盒
- 下一篇:一種序列號防重用方法和裝置
- 同類專利
- 專利分類
G06F 電數字數據處理
G06F19-00 專門適用于特定應用的數字計算或數據處理的設備或方法
G06F19-10 .生物信息學,即計算分子生物學中的遺傳或蛋白質相關的數據處理方法或系統
G06F19-12 ..用于系統生物學的建模或仿真,例如:概率模型或動態模型,遺傳基因管理網絡,蛋白質交互作用網絡或新陳代謝作用網絡
G06F19-14 ..用于發展或進化的,例如:進化的保存區域決定或進化樹結構
G06F19-16 ..用于分子結構的,例如:結構排序,結構或功能關系,蛋白質折疊,結構域拓撲,用結構數據的藥靶,涉及二維或三維結構的
G06F19-18 ..用于功能性基因組學或蛋白質組學的,例如:基因型–表型關聯,不均衡連接,種群遺傳學,結合位置鑒定,變異發生,基因型或染色體組的注釋,蛋白質相互作用或蛋白質核酸的相互作用





