[發明專利]一種易感基因罕見變異位點縱向分析模型的建立方法在審
| 申請號: | 201911002493.1 | 申請日: | 2019-10-21 |
| 公開(公告)號: | CN110910955A | 公開(公告)日: | 2020-03-24 |
| 發明(設計)人: | 李淼新;蔣琳;代晟 | 申請(專利權)人: | 中山大學 |
| 主分類號: | G16B20/20 | 分類號: | G16B20/20;G16B20/50;G16B40/00 |
| 代理公司: | 廣州粵高專利商標代理有限公司 44102 | 代理人: | 林麗明 |
| 地址: | 510275 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基因 罕見 變異 縱向 分析 模型 建立 方法 | ||
1.一種易感基因罕見變異位點的縱向分析模型建立方法,其特征在于,包括以下步驟:
S1:獲取待分析的病人樣本的全基因組測序或外顯子組序列變異數據;
S2:觀察統計病人樣本中基因i上全部罕見變異等位基因數量的突變觀察值yi,對所述病人樣本中基因組的所有基因進行截斷負二項回歸,并構建用于預測基因i罕見突變等位基因數的基于截斷負二項分布的廣義線性回歸函數;
S3:根據所述廣義線性回歸函數采用最大似然估計函數計算截斷負二項回歸系數,以及基因i罕見變異等位基因數估算值的期望;
S4:根據所述基因i罕見變異等位基因數估算值的期望,計算所述病人樣本中基因i的突變觀察值與回歸估計基線突變數的標準化偏移殘差;
S5:將所述標準化偏移殘差轉換為統計顯著性程度;
S6:通過預設的閾值剔除所述基因i中的顯著基因,然后跳轉執行S2步驟,重新擬合得到截斷負二項回歸系數,至病人樣本中的所有顯著基因被剔除,得到易感基因罕見變異負荷的縱向分析模型。
2.根據權利要求1所述的縱向分析模型建立方法,其特征在于:所述S1步驟中的病人樣本中包括基因i,且基因i中含有mi個罕見變異位點,一個罕見變異位點j中含有ni,j個變異等位基因,其中i為正整數。
3.根據權利要求2所述的縱向分析模型建立方法,其特征在于:所述S2步驟中,其具體步驟如下:
S21:觀察統計基因i上每個變異位點的在病人樣本中的加權變異等位基因數ci,j,其計算公式如下:
ci,j=ni,j*wi,j
其中,ni,j表示罕見變異位點j在病人樣本中的實際變異等位基因數量;wi,j表示變異位點j上的功能評分,且wi,j為的正整數,如果加權值缺失則取1;
S22:根據所述加權變異等位基因數ci,j,計算基因i上全部罕見變異等位基因數量的突變觀察值yi,其計算公式如下:
其中,所述基因i的突變觀察值yi服從期望為μi,分布參數為θ的負二項分布;
S23:計算負二項分布的概率質量函數,其計算公式如下:
θ=eγ
其中,Γ(·)表示伽馬函數;e是自然對數符號;β為待擬合的回歸系數;γ表示分布參數系數;
S24:截取所述基因i中罕見變異等位基因數為0至t的基因,讓變異等位基因數服從截斷負二項分布模型,其中,在t點截斷的概率質量函數如下:
其中,g(y|μi,θ,t)表示基因i上的變異等位基因數目為y時的概率,y=t+1,t+2,...,且t=0,1,2,...;
S25:構建用于預測基因i罕見突變等位基因數的基于截斷負二項分布的廣義線性回歸函數,所述廣義線性回歸的連接函數如下式所示:
其中,x1,i是基因i的編碼區長度,x2,i是基因i的頻率評分,x3,i是基因i編碼區長度與頻率評分的乘積,x4,i是基因i的錯義突變保守評分,x5,i是基因i的失去功能突變保守評分,x5,i是基因i的鳥嘌呤和胞嘧啶所占的比率;參數β0,...,β6表示分別的回歸系數;EXP(yi)表示基因i的突變觀察值yi的期望。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中山大學,未經中山大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911002493.1/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種多內容同時顯示裝置、系統及應用方法
- 下一篇:一種新能源安全警示裝置





