[發明專利]目標區域測序中質控位點選取方法及裝置有效
| 申請號: | 201110287949.0 | 申請日: | 2011-09-26 |
| 公開(公告)號: | CN103020490A | 公開(公告)日: | 2013-04-03 |
| 發明(設計)人: | 蔣濤;李英睿;汪建;王俊;楊煥明 | 申請(專利權)人: | 深圳華大基因科技有限公司;深圳華大基因研究院 |
| 主分類號: | G06F19/20 | 分類號: | G06F19/20 |
| 代理公司: | 深圳市威世博知識產權代理事務所(普通合伙) 44280 | 代理人: | 何青瓦;丁建春 |
| 地址: | 518083 廣東省深圳市鹽田*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 目標 區域 測序中質控位點 選取 方法 裝置 | ||
技術領域
本發明涉及基因工程技術領域,特別是涉及一種目標區域測序中質控位點選取方法及裝置。
背景技術
單核苷酸多態性(Single?Nucleotide?Polymorphisms,簡稱SNP)位點,是指在基因組上單個核苷酸的變異形成的遺傳標記,其數量很多,多態性豐富。單核苷酸多態性,主要是指在基因組水平上由單個核苷酸的變異所引起的DNA序列多態性。它是人類可遺傳的變異中最常見的一種,占所有已知多態性的90%以上。SNP在人類基因組中廣泛存在,平均每500~1000個堿基對中就有1個,估計其總數可達300萬個甚至更多。
對目標區域應用第二代測序技術進行測序后,通過一定的算法或者軟件運算可以得到目標區域中潛在的SNP位點,所得到的這些SNP位點在實際應用中為了保證其準確性以及評估目標區域測序好壞,通常會挑選一部分進行質控驗證,如何從數以千計的SNP位點中挑選較有代表性的一組SNP位點作為質控位點進行生物學實驗驗證是現在面臨的一個難題。
發明內容
本發明主要解決的技術問題是提供一種目標區域測序中質控位點選取方法及裝置,能夠從數以千計的SNP位點中挑選較有代表性的一組SNP作為質控位點進行生物學實驗驗證。
為解決上述技術問題,本發明采用的一個技術方案是:提供一種目標區域測序中質控位點選取方法,包括以下步驟:在測序得到的核酸序列中選取目標區域;對目標區域中的各單核苷酸多態性位點,在數據庫中提取各單核苷酸多態性位點對于所有個體的基因型,得到第一位點數據,計算第一位點數據中的各單核苷酸多態性位點的檢出率以及次等位基因頻率;在實驗樣本中,對預測所得的目標區域內的各單核苷酸多態性位點進行篩選后,合并每個實驗個體目標區域內的單核苷酸多態性位點,得到第二位點數據,計算第二位點數據中的各單核苷酸多態性位點的檢出率以及次等位基因頻率;選取在數據庫及實驗樣本中的次等位基因頻率最接近第一閾值且在數據庫及實驗樣本中的檢出率大于第二閾值的一組單核苷酸多態性位點作為質控位點。
其中,計算第二位點數據中的各單核苷酸多態性位點的檢出率以及次等位基因頻率的步驟之前,包括:采用單核苷酸多態性位點預測軟件預測實驗樣本中目標區域內的單核苷酸多態性位點。
其中,計算第二位點數據中的各單核苷酸多態性位點的檢出率以及次等位基因頻率的步驟之前,包括:對預測所得的實驗樣本中目標區域內的單核苷酸多態性位點進行篩選,所述對預測所得的實驗樣本中目標區域內的單核苷酸多態性位點進行篩選的條件參數包括位點被測序數據覆蓋的層數、位點附近區域的拷貝數和單核苷酸多態性位點預測軟件的得分。
其中,在對預測所得的實驗樣本中目標區域內的單核苷酸多態性位點進行篩選的步驟包括:排除未出現在數據庫中的單核苷酸多態性位點。
其中,在選取在數據庫及實驗樣本中的次等位基因頻率最接近第一閾值且在數據庫及實驗樣本中的檢出率大于第二閾值的一組單核苷酸多態性位點作為質控位點的步驟之前,包括:對目標區域內的各單核苷酸多態性位點在數據庫中得到的檢出率、在實驗樣本中得到的檢出率、在數據庫中得到的次等位基因頻率以及在實驗樣本中得到的次等位基因頻率分別進行排序。
其中,在對目標區域內的各單核苷酸多態性位點在數據庫中得到的檢出率、在實驗樣本中得到的檢出率、在數據庫中得到的次等位基因頻率以及在實驗樣本中得到的次等位基因頻率分別進行排序之后,包括:根據排序結果選取在數據庫以及實驗樣本中的次等位基因頻率最接近0.5且在數據庫以及實驗樣本中的檢出率大于0.97的一組單核苷酸多態性位點作為質控位點。
其中,在選取在數據庫及實驗樣本中的次等位基因頻率最接近第一閾值且在數據庫及實驗樣本中的檢出率大于第二閾值的一組單核苷酸多態性位點作為質控位點的步驟之后,包括:分別計算所選取的質控位點在數據庫個體間以及實驗樣本個體間的一致性,分別得到數據庫個體間以及實驗樣本個體間的一致度,所述一致度為擁有不同位點個數樣本對在總樣本對中的比例。
其中,在分別計算所挑選的質控位點在數據庫個體間以及實驗樣本個體間的一致性的步驟之后,包括:根據擁有不同位點個數樣本對在總樣本對中的比例確定第三閾值來作為判斷不同個體間所應有的位點差異數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳華大基因科技有限公司;深圳華大基因研究院,未經深圳華大基因科技有限公司;深圳華大基因研究院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110287949.0/2.html,轉載請聲明來源鉆瓜專利網。
- 同類專利
- 專利分類
G06F 電數字數據處理
G06F19-00 專門適用于特定應用的數字計算或數據處理的設備或方法
G06F19-10 .生物信息學,即計算分子生物學中的遺傳或蛋白質相關的數據處理方法或系統
G06F19-12 ..用于系統生物學的建模或仿真,例如:概率模型或動態模型,遺傳基因管理網絡,蛋白質交互作用網絡或新陳代謝作用網絡
G06F19-14 ..用于發展或進化的,例如:進化的保存區域決定或進化樹結構
G06F19-16 ..用于分子結構的,例如:結構排序,結構或功能關系,蛋白質折疊,結構域拓撲,用結構數據的藥靶,涉及二維或三維結構的
G06F19-18 ..用于功能性基因組學或蛋白質組學的,例如:基因型–表型關聯,不均衡連接,種群遺傳學,結合位置鑒定,變異發生,基因型或染色體組的注釋,蛋白質相互作用或蛋白質核酸的相互作用





