[發明專利]一種DNA自索引區間解壓縮方法有效
| 申請號: | 202110377573.6 | 申請日: | 2021-04-08 |
| 公開(公告)號: | CN113098526B | 公開(公告)日: | 2022-04-12 |
| 發明(設計)人: | 李楊;劉博;王亞東 | 申請(專利權)人: | 哈爾濱工業大學 |
| 主分類號: | H03M7/30 | 分類號: | H03M7/30 |
| 代理公司: | 哈爾濱華夏松花江知識產權代理有限公司 23213 | 代理人: | 岳昕 |
| 地址: | 150001 黑龍*** | 國省代碼: | 黑龍江;23 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 dna 索引 區間 解壓縮 方法 | ||
一種DNA自索引區間解壓縮方法,它屬于DNA壓縮數據的解壓縮技術領域。本發明解決了現有的解壓縮算法需要的解壓縮時間長,且解壓縮后的數據需要的存儲空間大的問題。本發明的自索引區間解壓縮算法可以根據需求來選取解壓縮的范圍,相對于全局靜態TPBWT解壓縮算法來說,很大程度的降低了解壓縮時間,同時也降低了解壓縮數據的存儲空間。相對于傳統解壓縮算法,該算法更加靈活能夠依據不同需求,解壓縮出不同含義的數據,適用性更強。本發明可以應用于對DNA壓縮數據的解壓縮。
技術領域
本發明涉及DNA壓縮數據的解壓縮技術領域,具體涉及一種DNA自索引區間解壓縮方法。
背景技術
隨著DNA測序技術的發展,生物醫學研究面臨著如何存儲和傳輸DNA數據的問題。對DNA數據進行壓縮后,然后再進行解壓縮的技術成為其中解決問題的重要方法之一。
LYZip工具基于TPBWT算法進行數據壓縮得到短讀測序數據后,采用現有的解壓縮算法只能實現全局的、靜態的解壓縮。現有的解壓縮算法雖然能夠實現DNA數據的解壓縮,但是需要的解壓縮時間較長、且解壓縮后的數據需要的存儲空間也較大,因此,提出一種減少解壓縮時間和存儲空間的方法是十分必要的。
發明內容
本發明的目的是為解決現有的解壓縮算法需要的解壓縮時間長,且解壓縮后的數據需要的存儲空間大的問題,而提出了一種DNA自索引區間解壓縮方法。
本發明為解決上述技術問題采取的技術方案是:一種DNA自索引區間解壓縮方法,所述方法具體包括以下步驟:
步驟一、輸入待解壓縮的序列數據文件,并配置索引區間參數和解壓縮輸出模式參數;
步驟二、根據索引區間參數,確定出待解壓縮的序列數據文件中需要解壓縮的區間范圍;
步驟三、根據待解壓縮序列數據文件的頭文件信息,確定出需要解壓縮區間范圍內的測序短讀堿基比特信息,比對到參考基因組上堿基的測序質量分數比特信息,無法比對到參考基因組上單核苷酸變異的測序質量分數比特信息,單核苷酸變異、插入刪除變異、結構變異比特信息以及表示位置、長度比特信息的具體位置;
步驟四、分別對測序短讀堿基比特信息,比對到參考基因組上堿基的測序質量分數比特信息,無法比對到參考基因組上單核苷酸變異的測序質量分數比特信息,單核苷酸變異、插入刪除變異、結構變異比特信息以及表示位置、長度比特信息進行字節變換處理后,獲得字節變換后的壓縮文件;
步驟五、對字節變換后的壓縮文件進行字符變換,還原出每一列所包含的信息;
步驟六、將還原出的每一列所包含的信息進行存儲后,并按照步驟一配置的解壓縮輸出模式參數進行輸出。
本發明的有益效果是:本發明提出了一種DNA自索引區間解壓縮方法,本發明的自索引區間解壓縮算法可以根據需求來選取解壓縮的范圍,相對于全局靜態TPBWT解壓縮算法來說,很大程度的降低了解壓縮時間,同時也降低了解壓縮數據的存儲空間。相對于傳統解壓縮算法,該算法更加靈活能夠依據不同需求,解壓縮出不同含義的數據,適用性更強。
附圖說明
圖1為自索引區間解壓縮方法的流程圖;
圖2為DTPBWT算法的流程圖。
具體實施方式
具體實施方式一:結合圖1說明本實施方式。本實施方式所述的一種DNA自索引區間解壓縮方法,所述方法具體通過以下步驟實現:
步驟一、輸入待解壓縮的序列數據文件,并配置索引區間參數([start,end])和解壓縮輸出模式參數(mode);
步驟二、根據索引區間參數,確定出待解壓縮的序列數據文件中需要解壓縮的區間范圍;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于哈爾濱工業大學,未經哈爾濱工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110377573.6/2.html,轉載請聲明來源鉆瓜專利網。





