[發(fā)明專利]樣本數(shù)據(jù)集合的構建方法及其遺傳出生地預測方法在審
| 申請?zhí)枺?/td> | 201811177713.X | 申請日: | 2018-10-10 |
| 公開(公告)號: | CN109473142A | 公開(公告)日: | 2019-03-15 |
| 發(fā)明(設計)人: | 鄭強;陳鋼;李鷹翔;胡振飛;莊喆 | 申請(專利權)人: | 深圳韋格納醫(yī)學檢驗實驗室 |
| 主分類號: | G16B20/20 | 分類號: | G16B20/20;G16B25/10;G16B40/20;G16B50/00 |
| 代理公司: | 深圳市徽正知識產(chǎn)權代理有限公司 44405 | 代理人: | 李想 |
| 地址: | 518000 廣東省深圳市坪山區(qū)坪*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 樣本數(shù)據(jù) 構建 遺傳 成分集合 集合 預測 族群 標注 應用 樣本 標簽 采集 拓展 | ||
本發(fā)明實施例公開了一種遺傳出生地樣本數(shù)據(jù)集合的構建方法及其遺傳出生地預測方法。該構建方法包括:采集若干個樣本數(shù)據(jù),所述樣本數(shù)據(jù)包括樣本SNP分型和祖籍地;根據(jù)祖源成分集合,計算所述樣本數(shù)據(jù)的祖源成分;所述祖源成分集合由若干個族群組成;將所述樣本數(shù)據(jù)的祖籍地設置為對應的祖源成分的標簽,生成標注數(shù)據(jù)。該遺傳出生地樣本數(shù)據(jù)集合的構建方法開創(chuàng)性的拓展了關于SNP分型結果的應用,更好的利用了SNP分型中包含的信息,具有良好的應用前景。
技術領域
本發(fā)明涉及生物信息技術領域,尤其涉及一種基于SNP分型的樣本數(shù)據(jù)集合的構建方法及其遺傳出生地預測方法。
背景技術
SNP是單核苷酸多態(tài)性(Single Nucleotide Polymorphism)的簡寫,是指基因組上單個核苷酸變異,即A、T、C、G四種堿基的互相改變,形成基因組上同一位置會有多種堿基存在的多態(tài)性。
SNP基因分型指的是確定SNP的堿基對類型,除了未檢出情況,總共有4*4=16種可能結果。基因分型的不同,可能導致樣本的表型不同。
SNP在人群中廣泛存在,多態(tài)性豐富,是很好的遺傳標記物。尤其高通量的SNP檢測方法出現(xiàn)之后,被廣泛用于生物信息學的分析。
在實現(xiàn)本發(fā)明過程中,發(fā)明人發(fā)現(xiàn)相關技術存在以下問題:隨著技術的發(fā)展成熟,目前由微陣列芯片、二代測序等都可以快速地對DNA樣本進行 SNP分型,但是如何針對性的利用SNP分型結果進行信息分析,挖掘其中的隱含的數(shù)據(jù),應用于其它場景仍然有待研究。
發(fā)明內(nèi)容
針對上述技術問題,本發(fā)明實施例提供了一種基于SNP分型的樣本數(shù)據(jù)集合的構建方法及其遺傳出生地預測方法,以解決現(xiàn)有技術中對SNP分型結果信息缺乏有效利用的問題。
本發(fā)明實施例的第一方面提供一種遺傳出生地樣本數(shù)據(jù)集合的構建方法。所述方法包括:采集若干個樣本數(shù)據(jù),所述樣本數(shù)據(jù)包括樣本SNP分型和祖籍地;根據(jù)祖源成分集合,計算所述樣本數(shù)據(jù)的祖源成分;所述祖源成分集合由若干個族群組成;將所述樣本數(shù)據(jù)的祖籍地設置為對應的祖源成分的標簽,生成標注數(shù)據(jù)。
可選地,所述祖源成分集合通過如下方法獲得:獲取若干個不同族群對應的參考SNP分型;將所述若干個參考SNP分型作為祖源成分集合,每個參考SNP分型均為所述祖源成分集合的元素。
可選地,所述樣本數(shù)據(jù)的祖源成分中,所述祖源成分集合中的每個族群所占的成分比例之和為1。
可選地,所述祖源成分集合包括北方漢族、南方漢族、高山族群以及藏族。
可選地,所述祖源成分集合包括至少42個族群。
可選地,通過線上調(diào)查問卷,確定所述樣本數(shù)據(jù)的祖籍地。
可選地,所述遺傳出生地樣本數(shù)據(jù)集合包括若干條標注數(shù)據(jù),每一條標注數(shù)據(jù)包括根據(jù)SNP分型確定的祖源成分及祖籍地。
可選地,所述方法還包括:將所述遺傳出生地樣本數(shù)據(jù)集合中的至少一部分標注數(shù)據(jù)作為訓練集,并且將剩余的標注數(shù)據(jù)作為測試集;所述測試集和訓練集之間的標注數(shù)據(jù)數(shù)量比例為0.2比0.8。
本發(fā)明實施例的第二方面提供一種遺傳出生地預測方法。該方法包括:應用如上所述的遺傳出生地樣本數(shù)據(jù)集合的構建方法構建獲得的遺傳出生地樣本數(shù)據(jù)集合計算待測樣本屬于不同祖籍地的概率;根據(jù)所述概率生成所述待測樣本的遺傳出生地預測結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳韋格納醫(yī)學檢驗實驗室,未經(jīng)深圳韋格納醫(yī)學檢驗實驗室許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811177713.X/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





