[發明專利]基于二維統計模型的體細胞拷貝數變異顯著性檢測方法有效
| 申請號: | 201410010002.9 | 申請日: | 2014-01-09 |
| 公開(公告)號: | CN103778350A | 公開(公告)日: | 2014-05-07 |
| 發明(設計)人: | 袁細國;張軍英;楊利英;張勝利 | 申請(專利權)人: | 西安電子科技大學 |
| 主分類號: | G06F19/18 | 分類號: | G06F19/18 |
| 代理公司: | 北京科億知識產權代理事務所(普通合伙) 11350 | 代理人: | 湯東鳳 |
| 地址: | 710071 陜西省*** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 二維 統計 模型 體細胞 拷貝 變異 顯著 檢測 方法 | ||
技術領域
本發明一種基于二維統計模型的體細胞拷貝數變異顯著性檢測方法。
背景技術
體細胞拷貝數變異(somatic?copy?number?alteration,SCNA)是癌癥基因組中的重要現象。它主要表現為拷貝數的擴增和缺失兩種狀態,與癌細胞的發生、發展有密切聯系。因此,對SCNA進行系統的分析為從分子水平上研究癌癥的致病機理提供了重要途徑,其最底層、最核心的問題是如何區分具有癌癥功能的SCNA模式與隨機發生的SCNA。
眾多研究表明,SCNA功能模式往往隱含于癌癥基因組樣本的一致變異區域中,那么建立以統計理論為基礎的計算方法,檢測SCNA在多個樣本中重復發生的(Recurrent)顯著性水平,為鑒定SCNA功能模式及發現潛在癌癥基因提供直接的、可行的技術手段,進而為生物醫學家對癌癥的預測和診斷提供重要信息。因此,建立合理而有效的統計檢驗模型至關重要。
高通量全基因組SCNA位點的密集性及其結構的復雜性,給統計檢驗模型的建立及SCNA顯著性的檢測帶來了極大的挑戰,主要體現在以下兩個方面。第一,問題本身的難點:a)位點數目高達180多萬而樣本數往往較少,形成了一種高緯度小樣本的數據格局;b)SCNA位點之間存在較強的關聯性,并非獨立,使得檢測因子之間存在交互影響;c)拷貝數擴增或缺失狀態包括兩方面的特征,即變異頻率和變異幅度,這要求一個合理的權衡這兩個特征的機制;d)SCNA結構模式的長度不盡相同,這要求考慮不同長度的SCNA具有不同的背景分布。第二,解決問題的理論和方法的挑戰性:a)數據規模大,對計算時間和空間復雜度的有效控制是一個挑戰問題;b)如何充分考慮SCNA位點間的關聯性、降低SCNA顯著性水平估計的保守性,是一個難點問題;c)如何建立與統計量具有一致性的零假設分布,增強顯著性水平估計的統計意義,是一個重點且目前尚未突破的問題。
發明內容
為了解決上述問題,本發明一種基于二維統計模型的體細胞拷貝數變異顯著性檢測方法,其特征在于:其包括,
S1采集SCNA數據,并對SCNA數據進行預處理;
S2計算SCNA鄰近位點間的關系系數,將染色體分割成多個相對獨立的SCNA結構單元;
S3計算每個SCNA結構單元的統計量,并在全基因組上實施二維隨機置換;
S4針對SCNA結構單元的不同長度L,通過計算置換樣本中任意長度為L的SCNA模式的統計量,在二維空間中構造基于L的零分布DL;將相應SCNA的統計量與DL進行對比,將所述SCNA的統計量與所述DL記為p值;若p值小于設定的閾值,則相應的SCNA顯著,具有潛在的癌癥功能。
在上述技術方案的基礎上,所述步驟S1包括:
對SCNA信號進行處理,以獲取可對比的SCNA信號;利用分割算法對噪聲進行處理,并定義SCNA擴增與缺失狀態。
在上述技術方案的基礎上,所述步驟S2包括:利用Pearson公式計算SCNA鄰近位點間的關系系數,并將染色體分割成多個相對獨立的SCNA結構單元。
在上述技術方案的基礎上,步驟S3包括
利用已知的SCNA功能模式構造訓練集,學習頻率w1和幅度的權重w2,計算統計量,
Stest=w1*f+w2*a
其中,f,a,Stest分別指訓練集中SCNA功能模式的頻率,幅度,及統計量的值。
在上述技術方案的基礎上,所述步驟S3還包括:
所述二維隨機置換具體過程如下:
a)針對SCNA出現的頻率,隨機置換其在全基因組中出現的位置;針對每個置換樣本集,計算隨機SCNA的發生頻率,建立基于頻率的零分布Df;
b)針對SCNA的變異幅度,隨機置換幅度在全基因組中出現的位置;針對每個置換樣本集,計算隨機SCNA的幅度,建立基于幅度的零分布Da
c)利用有監督學習的權重,w1和w2,構造零分布D,以檢測統計量的顯著性水平:
其中D=w1*Df+w2*Da。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西安電子科技大學,未經西安電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410010002.9/2.html,轉載請聲明來源鉆瓜專利網。
- 同類專利
- 專利分類
G06F 電數字數據處理
G06F19-00 專門適用于特定應用的數字計算或數據處理的設備或方法
G06F19-10 .生物信息學,即計算分子生物學中的遺傳或蛋白質相關的數據處理方法或系統
G06F19-12 ..用于系統生物學的建模或仿真,例如:概率模型或動態模型,遺傳基因管理網絡,蛋白質交互作用網絡或新陳代謝作用網絡
G06F19-14 ..用于發展或進化的,例如:進化的保存區域決定或進化樹結構
G06F19-16 ..用于分子結構的,例如:結構排序,結構或功能關系,蛋白質折疊,結構域拓撲,用結構數據的藥靶,涉及二維或三維結構的
G06F19-18 ..用于功能性基因組學或蛋白質組學的,例如:基因型–表型關聯,不均衡連接,種群遺傳學,結合位置鑒定,變異發生,基因型或染色體組的注釋,蛋白質相互作用或蛋白質核酸的相互作用





