[發明專利]一種結合隨機森林和Relief-F的全基因組SNP位點分析方法有效
| 申請號: | 201410765415.8 | 申請日: | 2014-12-11 |
| 公開(公告)號: | CN104462868A | 公開(公告)日: | 2015-03-25 |
| 發明(設計)人: | 楊利英;黎成;殷黎洋;張軍英;袁細國 | 申請(專利權)人: | 西安電子科技大學 |
| 主分類號: | G06F19/18 | 分類號: | G06F19/18 |
| 代理公司: | 北京科億知識產權代理事務所(普通合伙) 11350 | 代理人: | 湯東鳳 |
| 地址: | 710071 陜西省*** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 結合 隨機 森林 relief 基因組 snp 分析 方法 | ||
1.一種結合隨機森林和Relief-F的全基因組SNP位點分析方法,其特征在于,所述方法包括如下步驟:
S1、對樣本數據進行預處理:如果樣本數據是AA這種堿基對形式,則對每個SNP位點進行編碼,編碼成最小等位基因的個數;如果最小等位基因為a,那么基因型AA、Aa、aa分別編碼成0、1、2,去掉最小等位基因頻率小于設定值的SNP位點;
S2、設單核苷酸多態SNP的個數為m,設置進入下一階段處理的SNP個數的上限為Lu;若m<=Lu,則直接執行步驟S3,若m>Lu,則對每個SNP位點xj(j=1,2,...,m)與樣本類別變量y建立廣義線性模型以評估單個SNP的作用,建立的廣義線性模型如下:
其中g函數為logit函數,β為模型系數,樣本X=(x1,x2,...,xm)T;
根據廣義線性模型建模的結果,通過對每個SNP位點對應的p值進行遞增排序,篩選得到前Lu個SNP位點構成集合S,所述p值是統計學假設檢驗方法得到的概率值,表示變量的顯著性;設置SNP位點個數m=Lu并執行步驟S3;
S3、對SNP位點集合進行后向縮減,其中設置每次迭代時過濾SNP的比例為q,迭代次數為隨機森林排名的SNP位點個數和初始SNP位點總和的比例為r(r>q),SNP位點的排名結果隊列記為SNPrank,初始化SNP位點個數為u=m;單次迭代的過程如下:
3.1)利用Rel?ief-F方法對u個SNP位點進行權重排名,得到降序的u個SNP位點;
3.2)利用隨機森林方法對降序后的u個SNP位點中后面個SNP位點按照置換重要性值進行降序排名;
3.3)將排名末尾個SNP位點存到SNPrank隊列的頭部,并根據對u進行更新;
S4、將最后一次迭代后剩下的SNP位點集合添加到SNPrank隊列的頭部,這樣就得到了完整的SNP位點排名;
S5、取SNPrank前k個SNP位點為顯著SNP位點。
2.根據權利要求1所述的一種結合隨機森林和Rel?ief-F的全基因組SNP位點分析方法,其特征在于,步驟S1中所述設定值為0.05,即去掉最小等位基因頻率小于0.05的SNP位點。
3.根據權利要求1所述的一種結合隨機森林和Rel?ief-F的全基因組SNP位點分析方法,其特征在于,步驟3.1)具體實現過程為:
首先初始化每個SNP位點的權重為0,然后迭代n次,n設置為樣本數目,每次選擇一個樣本X,計算得到與這個樣本類別標簽一致的最近鄰樣本H,同時計算得到與這個樣本類別標簽不一樣的最近鄰樣本M,然后對每個位點gi(i=1,2,...,u)用如下公式更新權重:
W[gi]=W[gi]-diff(gi,X,H)/u+diff(gi,X,M)/u;
其中diff函數表示兩個樣本在這個位點上的間距,如果樣本P的SNP位點gi和樣本Q的SNP位點gi的基因型相同,則diff(gi,P,Q)=1,否則為0。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西安電子科技大學,未經西安電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410765415.8/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種信息處理方法及一種電子設備
- 下一篇:T波動態建模與多通道融合估計方法
- 同類專利
- 專利分類
G06F 電數字數據處理
G06F19-00 專門適用于特定應用的數字計算或數據處理的設備或方法
G06F19-10 .生物信息學,即計算分子生物學中的遺傳或蛋白質相關的數據處理方法或系統
G06F19-12 ..用于系統生物學的建模或仿真,例如:概率模型或動態模型,遺傳基因管理網絡,蛋白質交互作用網絡或新陳代謝作用網絡
G06F19-14 ..用于發展或進化的,例如:進化的保存區域決定或進化樹結構
G06F19-16 ..用于分子結構的,例如:結構排序,結構或功能關系,蛋白質折疊,結構域拓撲,用結構數據的藥靶,涉及二維或三維結構的
G06F19-18 ..用于功能性基因組學或蛋白質組學的,例如:基因型–表型關聯,不均衡連接,種群遺傳學,結合位置鑒定,變異發生,基因型或染色體組的注釋,蛋白質相互作用或蛋白質核酸的相互作用





