[發(fā)明專利]一種結(jié)合隨機(jī)森林和Relief-F的全基因組SNP位點(diǎn)分析方法有效
| 申請?zhí)枺?/td> | 201410765415.8 | 申請日: | 2014-12-11 |
| 公開(公告)號: | CN104462868A | 公開(公告)日: | 2015-03-25 |
| 發(fā)明(設(shè)計(jì))人: | 楊利英;黎成;殷黎洋;張軍英;袁細(xì)國 | 申請(專利權(quán))人: | 西安電子科技大學(xué) |
| 主分類號: | G06F19/18 | 分類號: | G06F19/18 |
| 代理公司: | 北京科億知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11350 | 代理人: | 湯東鳳 |
| 地址: | 710071 陜西省*** | 國省代碼: | 陜西;61 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 結(jié)合 隨機(jī) 森林 relief 基因組 snp 分析 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明屬于數(shù)據(jù)處理技術(shù)領(lǐng)域,基于全基因組單核苷酸多態(tài)性(SNP,Single?Nucleotide?Polymorphisms)數(shù)據(jù)進(jìn)行全基因組關(guān)聯(lián)研究,識別與疾病相關(guān)的SNP位點(diǎn),可用于闡釋復(fù)雜疾病的致病機(jī)理、疾病風(fēng)險(xiǎn)預(yù)測以及生物藥物研制。
背景技術(shù)
生物信息學(xué)是一門生命科學(xué)和計(jì)算機(jī)科學(xué)相結(jié)合的新興學(xué)科,研究生物信息的采集、處理、存儲、傳播,分析和解釋等,通過綜合利用生物學(xué)、計(jì)算機(jī)科學(xué)和信息技術(shù)來揭示復(fù)雜的生物數(shù)據(jù)所蘊(yùn)藏的生物學(xué)奧秘。全基因組關(guān)聯(lián)研究(GWAS,Genome-Wide?Association?Studies)的基本原理是在同層人群中選擇滿足一定統(tǒng)計(jì)學(xué)數(shù)量的病例組和對照組樣本,比較全基因組范圍內(nèi)SNP位點(diǎn)在病例組和對照組中的頻率差異,若某個(gè)SNP位點(diǎn)在病例組中出現(xiàn)的頻率明顯高于或低于對照組,則認(rèn)為該SNP位點(diǎn)與復(fù)雜疾病存在著某種關(guān)聯(lián)。與復(fù)雜疾病相關(guān)的SNP位點(diǎn)的發(fā)現(xiàn)和識別對復(fù)雜疾病的致病機(jī)理研究、疾病風(fēng)險(xiǎn)預(yù)測和生物藥物研制等都有重要的意義。
當(dāng)前,通過GWAS已經(jīng)發(fā)現(xiàn)了很多與復(fù)雜疾病相關(guān)的SNP位點(diǎn),但是發(fā)現(xiàn)的相關(guān)SNP位點(diǎn)中只有少數(shù)能夠增加復(fù)雜疾病的致病風(fēng)險(xiǎn),而且還有一些已經(jīng)被生物實(shí)驗(yàn)證明的與復(fù)雜疾病相關(guān)的SNP位點(diǎn)沒有被GWAS識別出來。因此,還存在著大量未被發(fā)現(xiàn)的SNP。這種結(jié)果主要由如下兩方面的原因所造成:
(1)目前GWAS在建模時(shí)大多只考慮單個(gè)SNP位點(diǎn)與復(fù)雜疾病的關(guān)聯(lián)關(guān)系,忽略了SNP位點(diǎn)可以通過與其它SNP位點(diǎn)或環(huán)境因素共同作用影響復(fù)雜疾病的情況。
(2)罕見SNP位點(diǎn)的識別難度大,這類SNP位點(diǎn)在正常人群中出現(xiàn)的頻率在1%-5%之間,在樣本數(shù)量非常少的情況下很難通過GWAS直接識別出來。
為克服GWAS在與復(fù)雜疾病相關(guān)的SNP位點(diǎn)識別上的不足,研究人員開始關(guān)注SNP位點(diǎn)之間的交互作用,在方法層面上進(jìn)行了更加深入的研究,提出了許多方法。這些方法可概括為兩大類,即基于模型的方法和模型無關(guān)方法?;谀P偷姆椒A(yù)先在基因組和表現(xiàn)型之間定義一種統(tǒng)計(jì)模型,然后擬合數(shù)據(jù)到假設(shè)的模型,得到顯著的SNP位點(diǎn),但是該類方法難以處理高維的GWAS數(shù)據(jù),面臨著“維數(shù)災(zāi)難”問題。模型無關(guān)方法為了有效處理高維SNP數(shù)據(jù),通常采用一些啟發(fā)式信息指導(dǎo)搜索,而不用提前對數(shù)據(jù)和模型作出假設(shè),該類方法只是通過統(tǒng)計(jì)技術(shù)測試每個(gè)可能存在的交互作用的SNP組,但沒有某種單一的方法能準(zhǔn)確地找到大部分與復(fù)雜疾病相關(guān)的SNP位點(diǎn)。
上述兩類常用的方法中,有些只是識別單個(gè)SNP位點(diǎn)的增加復(fù)雜疾病致病風(fēng)險(xiǎn)作用,有些則側(cè)重于SNP位點(diǎn)間的交互作用,大多沒有根據(jù)疾病的復(fù)雜生物機(jī)理,綜合考慮兩者的共同作用。針對當(dāng)前研究存在的這一問題,本發(fā)明提出了一種結(jié)合隨機(jī)森林和Relief-F的全基因組SNP位點(diǎn)分析方法。隨機(jī)森林是一種集成學(xué)習(xí)方法,通過將多個(gè)決策樹進(jìn)行集成來完成模式識別的任務(wù),其中決策樹屬性結(jié)點(diǎn)劃分的統(tǒng)計(jì)信息可用來進(jìn)行特征的重要性排名,如可用置換重要性或基尼(Gini)重要性對特征排序。用隨機(jī)森林對SNP高維數(shù)據(jù)集進(jìn)行處理時(shí),在識別單個(gè)SNP位點(diǎn)上有突出的優(yōu)勢,但處理特征之間的交互作用有所欠缺。Relief-F方法利用假設(shè)間隔最大化理論進(jìn)行特征排序,可以用來對SNP位點(diǎn)進(jìn)行排名,該方法能夠很好地識別SNP位點(diǎn)的交互作用,但是易受噪聲數(shù)據(jù)的影響,對單個(gè)位點(diǎn)的識別作用不理想。本發(fā)明將隨機(jī)森林和Relief-F有機(jī)結(jié)合起來,發(fā)揮各自的優(yōu)勢,從而達(dá)到同時(shí)識別單個(gè)位點(diǎn)和多個(gè)位點(diǎn)交互作用的目的,提高與復(fù)雜疾病相關(guān)的SNP位點(diǎn)的識別能力。
發(fā)明內(nèi)容
針對現(xiàn)有技術(shù)的不足,本發(fā)明旨在提出一種結(jié)合隨機(jī)森林和Relief-F的全基因組SNP位點(diǎn)分析方法,兼顧單個(gè)SNP位點(diǎn)的增加復(fù)雜疾病風(fēng)險(xiǎn)作用與多個(gè)SNP位點(diǎn)之間的交互作用,從方法層面保證了罕見與復(fù)雜疾病相關(guān)的SNP位點(diǎn)的識別效能,為疾病的生物學(xué)病理研究提供基礎(chǔ)。
為了實(shí)現(xiàn)上述目的,本發(fā)明采取如下技術(shù)方案:
一種結(jié)合隨機(jī)森林和Relief-F的全基因組SNP位點(diǎn)分析方法,包括如下步驟:
S1、對樣本數(shù)據(jù)進(jìn)行預(yù)處理:如果樣本數(shù)據(jù)是AA這種堿基對形式,則對每個(gè)SNP位點(diǎn)進(jìn)行編碼,編碼成最小等位基因的個(gè)數(shù);如果最小等位基因?yàn)閍,那么基因型AA、Aa、aa分別編碼成0、1、2,去掉最小等位基因頻率小于設(shè)定值的SNP位點(diǎn);
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于西安電子科技大學(xué),未經(jīng)西安電子科技大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410765415.8/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F19-00 專門適用于特定應(yīng)用的數(shù)字計(jì)算或數(shù)據(jù)處理的設(shè)備或方法
G06F19-10 .生物信息學(xué),即計(jì)算分子生物學(xué)中的遺傳或蛋白質(zhì)相關(guān)的數(shù)據(jù)處理方法或系統(tǒng)
G06F19-12 ..用于系統(tǒng)生物學(xué)的建?;蚍抡?,例如:概率模型或動態(tài)模型,遺傳基因管理網(wǎng)絡(luò),蛋白質(zhì)交互作用網(wǎng)絡(luò)或新陳代謝作用網(wǎng)絡(luò)
G06F19-14 ..用于發(fā)展或進(jìn)化的,例如:進(jìn)化的保存區(qū)域決定或進(jìn)化樹結(jié)構(gòu)
G06F19-16 ..用于分子結(jié)構(gòu)的,例如:結(jié)構(gòu)排序,結(jié)構(gòu)或功能關(guān)系,蛋白質(zhì)折疊,結(jié)構(gòu)域拓?fù)洌媒Y(jié)構(gòu)數(shù)據(jù)的藥靶,涉及二維或三維結(jié)構(gòu)的
G06F19-18 ..用于功能性基因組學(xué)或蛋白質(zhì)組學(xué)的,例如:基因型–表型關(guān)聯(lián),不均衡連接,種群遺傳學(xué),結(jié)合位置鑒定,變異發(fā)生,基因型或染色體組的注釋,蛋白質(zhì)相互作用或蛋白質(zhì)核酸的相互作用
- 隨機(jī)數(shù)生成設(shè)備及控制方法、存儲器存取控制設(shè)備及通信設(shè)備
- 隨機(jī)接入方法、用戶設(shè)備、基站及系統(tǒng)
- 真隨機(jī)數(shù)檢測裝置及方法
- 隨機(jī)元素生成方法及隨機(jī)元素生成裝置
- 數(shù)據(jù)交互方法、裝置、服務(wù)器和電子設(shè)備
- 一種隨機(jī)數(shù)發(fā)生器的多隨機(jī)源管理方法
- 用于彩票行業(yè)的隨機(jī)數(shù)獲取方法及系統(tǒng)
- 隨機(jī)接入方法、裝置及存儲介質(zhì)
- 偽隨機(jī)方法、系統(tǒng)、移動終端及存儲介質(zhì)
- 模型訓(xùn)練方法、裝置和計(jì)算設(shè)備
- 一種結(jié)合隨機(jī)森林和Relief-F的全基因組SNP位點(diǎn)分析方法
- 一種電網(wǎng)自動化系統(tǒng)及設(shè)備運(yùn)行狀態(tài)風(fēng)險(xiǎn)評估算法
- 一種基于Relief算法的乳腺腫瘤特征選擇方法
- 一種基于Relief和互信息的特征選擇算法
- 基于Relief特征過濾方法的人臉識別方法
- 配備加強(qiáng)剛性的平后角的立銑刀
- 基于Relief算法的webshell檢測方法及裝置
- 一種基于實(shí)例選擇和特征選擇的優(yōu)化數(shù)據(jù)集的方法
- 一種交聯(lián)聚乙烯電纜的健康狀態(tài)評估方法
- 一種基于PSO-BP神經(jīng)網(wǎng)絡(luò)的地下鏟運(yùn)機(jī)故障診斷方法





