[發明專利]基因測序數據壓縮方法、系統及計算機可讀介質有效
| 申請號: | 201710982696.6 | 申請日: | 2017-10-20 |
| 公開(公告)號: | CN110111851B | 公開(公告)日: | 2020-07-24 |
| 發明(設計)人: | 李根;宋卓;劉蓬俠;王振國;馮博倫 | 申請(專利權)人: | 人和未來生物科技(長沙)有限公司 |
| 主分類號: | G16B50/50 | 分類號: | G16B50/50 |
| 代理公司: | 湖南兆弘專利事務所(普通合伙) 43008 | 代理人: | 譚武藝 |
| 地址: | 410152 湖南省長沙*** | 國省代碼: | 湖南;43 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基因 序數 壓縮 方法 系統 計算機 可讀 介質 | ||
本發明公開了一種基因測序數據壓縮方法、系統及計算機可讀介質,壓縮方法包括遍歷獲取讀長為Lr的讀序列,針對每一條讀序列生成短串K?mer,選擇原始基因字符串CS0并確定正負鏈類型d,通過預測數據模型P1獲取每個短串K?mer的預測字符c得到預測字符集PS,將讀序列R的Lr?k位、預測字符集PS編碼后通過可逆函數進行可逆運算;將讀序列R的正負鏈類型d、CS0及可逆運算結果壓縮輸出。本發明具有壓縮率低,壓縮時間短,壓縮性能穩定的優點,不需要對基因數據進行精準比對,有較高的計算效率,預測數據模型P1的預測準確度越高,則可逆運算結果中的重復字符串就越多,壓縮的壓縮率就越低。
技術領域
本發明涉及基因測序和數據壓縮技術,具體涉及一種基因測序數據壓縮方法、系統及計算機可讀介質。
背景技術
近年來,隨著下一代測序技術(Next Generation Sequence, NGS)的持續進步,基因測序的速度更快,成本更低,基因測序技術得以在更加廣泛的生物、醫療、健康、刑偵、農業等等許多領域被推廣應用,從而導致基因測序產生的原始數據量以每年3到5倍、甚至更快的速度爆炸式增長。而且,每個基因測序樣本數據又很大,例如一個人的55x全基因組測序數據大約是400GB。因此,海量的基因測試數據的存儲、管理、檢索和傳輸面臨技術和成本的挑戰。
數據壓縮(data compression)就是緩解這個挑戰的技術之一。數據壓縮,是為了減少存儲空間而把數據轉換成比原始格式更緊湊形式的過程。原始的輸入數據包含我們需要壓縮或減小尺寸的符號序列。這些符號被壓縮器編碼,輸出結果是編碼過的數據。通常在之后的某個時間,編碼后的數據會被輸入到一個解壓縮器,在這里數據被解碼、重建,并以符號序列的形式輸出原始數據。如果輸出數據和輸入數據始終完全相同,那么這個壓縮方案被稱為無損的(lossless),也稱無損編碼器。否則,它就是一個有損的(lossy)壓縮方案。
目前,世界各國研究人員已經開發出多種用于基因測序數據的壓縮方法。基于基因測序數據的用途,其壓縮后必須隨時可以重建、恢復成原始數據,因此,有實際意義的基因測序數據壓縮方法都是無損壓縮。如果按總的技術路線分類,可以將基因測序數據壓縮方法分成三大類:通用(general purpose)壓縮算法、有參考基因組(reference-based)的壓縮算法和無參考基因組(reference-free)的壓縮算法。
通用壓縮算法,就是不考慮基因測序數據的特點,采用通用的壓縮方法進行數據壓縮。
無參考基因組壓縮算法,就是不使用參考基因組,只是利用基因測序數據自身的特點,采用某種壓縮方法對目標樣本數據直接進行數據壓縮。已有的無參考基因組壓縮算法常用的壓縮方法有霍夫曼編碼、以LZ77和LZ78為代表的字典方法、算術編碼等基礎的壓縮算法及其變種和優化。
有參考基因組壓縮算法,就是選取某個基因組數據作為參考基因組,利用基因測序數據自身的特點,以及目標樣本數據和參考基因組數據之間的相似性,間接進行數據壓縮。已有的有參考基因組壓縮算法常用的相似性表示、編碼和壓縮方法主要還是霍夫曼編碼、以LZ77和LZ78為代表的字典方法、算術編碼等基礎的壓縮算法及其變種和優化。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于人和未來生物科技(長沙)有限公司,未經人和未來生物科技(長沙)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710982696.6/2.html,轉載請聲明來源鉆瓜專利網。





