[發明專利]一種阿爾茨海默病發病風險預測模型的構建方法有效
| 申請號: | 201611190992.4 | 申請日: | 2016-12-21 |
| 公開(公告)號: | CN106636398B | 公開(公告)日: | 2021-01-29 |
| 發明(設計)人: | 蔣慶華;劉桂友;胡楊;王亞東 | 申請(專利權)人: | 哈爾濱工業大學 |
| 主分類號: | G16B20/20 | 分類號: | G16B20/20;G16B30/00;G16B40/00;G16H50/30;C12Q1/6883 |
| 代理公司: | 西安銘澤知識產權代理事務所(普通合伙) 61223 | 代理人: | 潘宏偉 |
| 地址: | 150000 黑龍*** | 國省代碼: | 黑龍江;23 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 阿爾茨海默病 發病 風險 預測 模型 構建 方法 | ||
1.一種阿爾茨海默病發病風險預測模型的構建方法,其特征在于,包括如下步驟:
(1)獲取阿爾茨海默病疾病個體和正常對照個體的基因型數據;
對于阿爾茨海默病,首先對大量阿爾茨海默病病人和正常人的常染色體進行基因測序,得到阿爾茨海默病病人和正常人的原始SNP基因型數據;對原始的SNP基因型數據進行質量控制,剔除最小等位基因頻率MAF小于0.02、不滿足哈迪-溫伯格平衡檢驗、分型成功率小于75%、及位于連鎖不平衡區域的SNP基因型數據;樣本所對應的所有SNP的分型成功率需在75%以上,否則,再從SNP基因型數據數據中剔除不滿足樣本的基因型缺失比控制的樣本;對滿足條件的SNP基因型數據保留下來,用于進一步分析;
(2)剔除不滿足控制條件的SNP基因型數據后,對保留的SNP基因型數據進行評分;根據SNP基因型數據中含有的高風險等位基因的個數,對于SNP基因型數據進行0,1,2評分,采用0,1,2分來表示相應的SNP基因型數據;
對于SNP基因型數據,規定有兩個高風險等位基因的純合子記為2分,有一個高風險等位基因雜合子記為1分,有兩個低風險等位基因的純合子記為0分;
(3)與阿爾茨海默病關聯性水平p<0.05的SNP被認為是與該病顯著相關;篩選出與阿爾茨海默病顯著相關的SNP以及SNP之間的相互作用對疾病有顯著相關的SNP-SNP對;
將患阿爾茨海默病病人用1表示,正常人用0表示;通過單因素logistic回歸算法得到校正年齡、性別后與阿爾茨海默病顯著相關的SNP,同時利用Lasso多重回歸方法得到Bonferroni校正后與阿爾茨海默病顯著有關的SNP-SNP對;
步驟(3)具體包括如下步驟:
1)對SNP基因型數據進行評分完成后,將每個樣本的SNP基因型通過0,1,2表示;在進行單因素logistic回歸分析時,將單個SNP作為自變量,樣本的患病狀態0,1作為因變量,同時把年齡、性別當作協變量;則得到該SNP與阿爾茨海默病關聯性水平、比值比以及95%置信區間;若SNP與阿爾茨海默病關聯性水平p<0.05的SNP被認為是與該病顯著相關,則保留下來;
2)利用Lasso多重回歸方法得到Bonferroni校正后與阿爾茨海默病顯著有關的SNP-SNP對;
(4)得到對阿爾茨海默病獨立影響的SNP以及SNP之間的相互作用對疾病有獨立影響的SNP-SNP對;
比值比OR值表示疾病與暴露之間關聯強度的指標,指暴露者的疾病危險性為非暴露者的倍數;對顯著相關的SNP和SNP對進行多因素logistic回歸算法分析,得到對阿爾茨海默病獨立影響的SNP、SNP-SNP對、相應的比值比OR值、95%置信區間以及logistic回歸的常量項α,對每一個SNP和SNP-SNP對的比值比OR值取自然對數,得到每個SNP和SNP-SNP對的權重值β;
步驟(4)具體包括如下步驟:
1)對顯著相關的SNP和SNP-SNP對進行多因素logistic回歸算法分析時,顯著相關的SNP基因型數據通過0,1,2表示,而顯著相關的SNP-SNP對通過兩個SNP基因型數據的乘積表示,并把每個顯著相關的SNP和SNP-SNP對都看作一個變量;通過多因素logistic回歸算法,得到每個變量與阿爾茨海默病關聯性水平p值、比值比OR值、95%置信區間以及logistic回歸的常量項α;認為關聯性水平p<0.05的變量是對阿爾茨海默病獨立影響的變量;
2)對每一個SNP和SNP-SNP對的比值比OR值取自然對數,得到每個SNP和SNP-SNP對的權重值β,即每個SNP和SNP-SNP對都有對應自己的權重值β;
(5)利用阿爾茨海默病獨立影響的SNP以及SNP-SNP對,建立改進的的wGRS模型;把每個SNP及SNP-SNP對都當作變量S,根據得到的每個SNP和SNP-SNP對的權重值β,于是改進的wGRS模型表示為各變量與自己的權重乘積之和,即其中n為SNP及SNP-SNP對的數量,βi表示第i個變量的權重值,Si表示第i個變量;
對阿爾茨海默病獨立影響的SNP及SNP-SNP對的OR值取自然對數得到相對應的權重βi;把阿爾茨海默病獨立影響的SNP及SNP-SNP對全部納入wGRS模型,則得到阿爾茨海默病發病風險的模型為logit P(D=1|G)=α+wGRS,其中D=1表示一個人患病,G表示一個人的SNP基因數據,P(D=1|G)為一個人根據自己SNP基因數據計算出可能患阿爾茨海默病的概率,α為logistic回歸的常量項;其中n為SNP及SNP-SNP對的數量,βi表示第i個變量的權重值,Si表示第i個變量。
2.如權利要求1所述的一種阿爾茨海默病發病風險預測模型的構建方法,其特征在于,步驟(1)中所述的對原始的SNP基因型數據進行質量控制,包括如下具體步驟:
1)對原始的SNP基因型數據,剔除最小等位基因頻率MAF小于0.02的SNP;
2)剔除不滿足哈迪-溫伯格平衡檢驗的SNP;
3)對于某個SNP在所有樣本中的分型成功率需控制在75%以上;剔除不滿足SNP分型成功率控制的SNP;
4)對于基因組范圍內關聯分析而言,對于一個需要檢驗的樣本;一般情況下,樣本所對應的所有SNP的分型成功率需控制在75%以上,對樣本的SNP基因型數據質量控制時,從分析數據中剔除不滿足樣本的基因型缺失比控制的樣本;
5)剔除位于連鎖不平衡區域的SNP;留下的SNP基因型數據進行下一步分析。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于哈爾濱工業大學,未經哈爾濱工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611190992.4/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:基于模板的多語言翻譯方法及翻譯系統
- 下一篇:穩定的起泡組合物和使用方法





