[發明專利]基因變異數據的GDS-Huffman壓縮方法在審
| 申請號: | 201810836104.4 | 申請日: | 2018-07-26 |
| 公開(公告)號: | CN109192245A | 公開(公告)日: | 2019-01-11 |
| 發明(設計)人: | 鄧元帥;李偉忠 | 申請(專利權)人: | 中山大學 |
| 主分類號: | G16B30/00 | 分類號: | G16B30/00;H03M7/40 |
| 代理公司: | 廣州粵高專利商標代理有限公司 44102 | 代理人: | 林麗明 |
| 地址: | 510275 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 壓縮 基因變異 整型 基因型頻率 基因型 字段 | ||
本發明涉及一種基因變異數據的GDS?Huffman壓縮方法,對于GVCF文件,基于GDS壓縮方法根據基因型頻率采用Huffman編碼對GVCF文件中的基因型進行編碼,而采用變長整型編碼的方式對GVCF文件中的整型字段進行編碼,得到壓縮后的GDS文件。
技術領域
本發明涉及生命組學分析技術領域,更具體地,涉及一種基因變異數據的GDS-Huffman壓縮方法。
背景技術
隨著生命組學分析樣本數的增多,基因組和全外顯子組分析產生的基因突變數據VCF文件越來越大。例如,在精準醫療計劃中研究的樣本數可達到上萬個,這么多樣本的全外顯子分析產生的VCF可能達到TB量級,而大文件讀寫速度慢,處理起來是很困難的,嚴重降低了分析速度,成為計算瓶頸。研究新的基因突變數據VCF文件組織方法,降低文件大小是解決這個問題的有效途徑。
一個典型的VCF格式如圖1所示。從圖中的示例可以看到,VCF文件一般可以分成兩部分內容:以“#”開頭的注釋部分;沒有“#”開頭的數據部分。注釋部分解釋了VCF文件產生的一些原始信息以及出現在數據部分中各個字段的含義。數據部分每行代表了一個變異位點的詳細信息。
表1對VCF文件數據部分各列含義進行了詳細描述。數據部分的最后兩列是兩個樣本的基因型信息,這些基因型信息是與格式(FORMAT)中定義的字段格式相對應的。各個字段含義在注釋部分有相關說明。
表1 VCF數據部分各列描述
GDS格式是一種分層的數據格式,用來儲存可伸縮的面向數組的數據集。它在處理較大的數據集上有優勢,特別是針對比內存大得多的數據集。在此基礎上開發了名為gdsfmt的R包。gdsfmt針對小于一個字節的的整數數據提供了高效的操作,因為一個二倍體基因型,通常占用不到一個字節的空間。gdsfmt采用的壓縮為無損壓縮,并提供高效的隨機訪問。利用R中的parallel包,實現了對GDS文件的并行讀取。
GDS利用分層結構儲存VCF文件,針對VCF文件不同的區域采取相應的壓縮方式進行儲存。對于VCF文件中的DP,GQ,PL等整型字段GDS采用變長編碼的方式進行編碼儲存,例如,對于一個-64到63的32位的整數,只需要用一個字節儲存而不是四個字節。
32位有符號整型變長編碼的示意圖如圖2所示,bi表示每個字節向量中第i個位置的比特值,bi取0或1。b1表示符號位,每個字節的最高位表示下個字節是否需要,比如b8=0,那么說明這個整數只占據這一個字節,后面的字節是不需要的。48被編碼為01100000,64被編碼為1000000000000001。采取這種方式可以有效降低整數儲存空間。
對于VCF中的基因型(GT字段),GDS采用一個2-bit的數組來儲存,比如一個二倍體基因型的儲存數組M2x3x4。M2x3x4是一個三維數組,第一維表示倍型,比如人類基因型就是2,第二維表示樣本個數,第三維表示變異位點所占的空間。如果一個2bits不能表示一個位點的所有等位基因,那么就要進行擴充。
針對GDS文件,有很多R工具包對其進行后續的下游分析,比如SNPRelate,SeqVarTools和GENESIS,這些工具可以在Bioconductor中獲取。這些工具可以直接處理GDS文件完成下游的統計分析,從而形成一套完整的從上游到下游的分析流程。
GVCF格式是在多樣本全外顯子分析過程中常用的一種儲存變異信息的格式,如果能將上述GDS方法應用在GVCF上,就能有效降低中間文件大小,提高分析效率。而GDS面向的是標準的VCF格式,它核心是對整數和基因型的編碼。而GVCF文件中的基因型的分布是非常不均的,如基因型0/0占到98%。GDS并未考慮基因型分布的特點。若根據基因型頻率特點采用新的編碼方式,將進一步提高壓縮率。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中山大學,未經中山大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810836104.4/2.html,轉載請聲明來源鉆瓜專利網。





