[發明專利]目標區域測序中質控位點選取方法及裝置有效
| 申請號: | 201110287949.0 | 申請日: | 2011-09-26 |
| 公開(公告)號: | CN103020490A | 公開(公告)日: | 2013-04-03 |
| 發明(設計)人: | 蔣濤;李英睿;汪建;王俊;楊煥明 | 申請(專利權)人: | 深圳華大基因科技有限公司;深圳華大基因研究院 |
| 主分類號: | G06F19/20 | 分類號: | G06F19/20 |
| 代理公司: | 深圳市威世博知識產權代理事務所(普通合伙) 44280 | 代理人: | 何青瓦;丁建春 |
| 地址: | 518083 廣東省深圳市鹽田*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 目標 區域 測序中質控位點 選取 方法 裝置 | ||
1.一種目標區域測序中質控位點選取方法,其特征在于,包括以下步驟:
在測序得到的核酸序列中選取目標區域;
對目標區域中的各單核苷酸多態性位點,在數據庫中提取各單核苷酸多態性位點對于所有個體的基因型,得到第一位點數據,計算第一位點數據中的各單核苷酸多態性位點的檢出率以及次等位基因頻率;在實驗樣本中,對預測所得的目標區域內的各單核苷酸多態性位點進行篩選后,合并每個實驗個體目標區域內的單核苷酸多態性位點,得到第二位點數據,計算第二位點數據中的各單核苷酸多態性位點的檢出率以及次等位基因頻率;
選取在數據庫及實驗樣本中的次等位基因頻率最接近第一閾值且在數據庫及實驗樣本中的檢出率大于第二閾值的一組單核苷酸多態性位點作為質控位點。
2.根據權利要求1所述的目標區域測序中質控位點選取方法,其特征在于:
計算第二位點數據中的各單核苷酸多態性位點的檢出率以及次等位基因頻率的步驟之前,包括:采用單核苷酸多態性位點預測軟件預測實驗樣本中目標區域內的單核苷酸多態性位點。
3.根據權利要求1所述的目標區域測序中質控位點選取方法,其特征在于:
計算第二位點數據中的各單核苷酸多態性位點的檢出率以及次等位基因頻率的步驟之前,包括:對預測所得的實驗樣本中目標區域內的單核苷酸多態性位點進行篩選,所述對預測所得的實驗樣本中目標區域內的單核苷酸多態性位點進行篩選的條件參數包括位點被測序數據覆蓋的層數、位點附近區域的拷貝數和單核苷酸多態性位點預測軟件的得分。
4.根據權利要求3所述的目標區域測序中質控位點選取方法,其特征在于:
在對預測所得的實驗樣本中目標區域內的單核苷酸多態性位點進行篩選的步驟包括:排除未出現在數據庫中的單核苷酸多態性位點。
5.根據權利要求1~4任一項所述的目標區域測序中質控位點選取方法,其特征在于:
在選取在數據庫及實驗樣本中的次等位基因頻率最接近第一閾值且在數據庫及實驗樣本中的檢出率大于第二閾值的一組單核苷酸多態性位點作為質控位點的步驟之前,包括:對目標區域內的各單核苷酸多態性位點在數據庫中得到的檢出率、在實驗樣本中得到的檢出率、在數據庫中得到的次等位基因頻率以及在實驗樣本中得到的次等位基因頻率分別進行排序。
6.根據權利要求5所述的目標區域測序中質控位點選取方法,其特征在于:
在對目標區域內的各單核苷酸多態性位點在數據庫中得到的檢出率、在實驗樣本中得到的檢出率、在數據庫中得到的次等位基因頻率以及在實驗樣本中得到的次等位基因頻率分別進行排序之后,包括:根據排序結果選取在數據庫以及實驗樣本中的次等位基因頻率最接近0.5且在數據庫以及實驗樣本中的檢出率大于0.97的一組單核苷酸多態性位點作為質控位點。
7.根據權利要求1所述的目標區域測序中質控位點選取方法,其特征在于:
在選取在數據庫及實驗樣本中的次等位基因頻率最接近第一閾值且在數據庫及實驗樣本中的檢出率大于第二閾值的一組單核苷酸多態性位點作為質控位點的步驟之后,包括:分別計算所選取的質控位點在數據庫個體間以及實驗樣本個體間的一致性,分別得到數據庫個體間以及實驗樣本個體間的一致度,所述一致度為擁有不同位點個數樣本對在總樣本對中的比例。
8.根據權利要求7所述的目標區域測序中質控位點選取方法,其特征在于:
在分別計算所挑選的質控位點在數據庫個體間以及實驗樣本個體間的一致性的步驟之后,包括:根據擁有不同位點個數樣本對在總樣本對中的比例確定第三閾值來作為判斷不同個體間所應有的位點差異數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳華大基因科技有限公司;深圳華大基因研究院,未經深圳華大基因科技有限公司;深圳華大基因研究院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110287949.0/1.html,轉載請聲明來源鉆瓜專利網。
- 同類專利
- 專利分類
G06F 電數字數據處理
G06F19-00 專門適用于特定應用的數字計算或數據處理的設備或方法
G06F19-10 .生物信息學,即計算分子生物學中的遺傳或蛋白質相關的數據處理方法或系統
G06F19-12 ..用于系統生物學的建模或仿真,例如:概率模型或動態模型,遺傳基因管理網絡,蛋白質交互作用網絡或新陳代謝作用網絡
G06F19-14 ..用于發展或進化的,例如:進化的保存區域決定或進化樹結構
G06F19-16 ..用于分子結構的,例如:結構排序,結構或功能關系,蛋白質折疊,結構域拓撲,用結構數據的藥靶,涉及二維或三維結構的
G06F19-18 ..用于功能性基因組學或蛋白質組學的,例如:基因型–表型關聯,不均衡連接,種群遺傳學,結合位置鑒定,變異發生,基因型或染色體組的注釋,蛋白質相互作用或蛋白質核酸的相互作用





