[發明專利]一種DNA自索引區間解壓縮方法有效
| 申請號: | 202110377573.6 | 申請日: | 2021-04-08 |
| 公開(公告)號: | CN113098526B | 公開(公告)日: | 2022-04-12 |
| 發明(設計)人: | 李楊;劉博;王亞東 | 申請(專利權)人: | 哈爾濱工業大學 |
| 主分類號: | H03M7/30 | 分類號: | H03M7/30 |
| 代理公司: | 哈爾濱華夏松花江知識產權代理有限公司 23213 | 代理人: | 岳昕 |
| 地址: | 150001 黑龍*** | 國省代碼: | 黑龍江;23 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 dna 索引 區間 解壓縮 方法 | ||
1.一種DNA自索引區間解壓縮方法,其特征在于,該方法包括以下步驟:
步驟一、輸入待解壓縮的序列數據文件,并配置索引區間參數和解壓縮輸出模式參數;
步驟二、根據索引區間參數,確定出待解壓縮的序列數據文件中需要解壓縮的區間范圍;
步驟三、根據待解壓縮序列數據文件的頭文件信息,確定出需要解壓縮區間范圍內的測序短讀堿基比特信息,比對到參考基因組上堿基的測序質量分數比特信息,無法比對到參考基因組上單核苷酸變異的測序質量分數比特信息,單核苷酸變異、插入刪除變異、結構變異比特信息以及表示位置、長度比特信息的具體位置;
步驟四、分別對測序短讀堿基比特信息,比對到參考基因組上堿基的測序質量分數比特信息,無法比對到參考基因組上單核苷酸變異的測序質量分數比特信息,單核苷酸變異、插入刪除變異、結構變異比特信息以及表示位置、長度比特信息進行字節變換處理后,獲得字節變換后的壓縮文件;
對測序短讀堿基比特信息進行字節變換處理的方式為:
對測序短讀堿基比特信息進行游程解碼,將原始的測序短讀堿基比特信息還原為整型的{0,1}數據,得到堿基序列;
對比對到參考基因組上堿基的測序質量分數比特信息,無法比對到參考基因組上單核苷酸變異的測序質量分數比特信息以及單核苷酸變異、插入刪除變異、結構變異比特信息進行字節變換處理的方式為:
采用霍夫曼解碼,將比對到參考基因組上堿基的測序質量分數比特信息,無法比對到參考基因組上單核苷酸變異的測序質量分數比特信息以及單核苷酸變異、插入刪除變異、結構變異比特信息還原為字符型數據,得到正常比對質量分數隊列、異常質量分數隊列以及異常值哈希表;
對表示位置、長度比特信息進行字節變換處理的方式為:
采用算術編碼壓縮對表示位置、長度比特信息進行解碼,得到整型信息;
步驟五、對字節變換后的壓縮文件進行字符變換,還原出每一列所包含的信息;
所述步驟五的具體過程為:
步驟五一、對字節變換后的壓縮文件的每一列進行DTPBWT解壓縮變換,改變每一列中的堿基序列和異常值哈希表的異常值順序;
步驟五二、對正常比對質量分數隊列進行解壓縮,解壓縮策略是有損均值化分箱處理的逆過程;
步驟五三、對異常質量分數隊列進行解壓縮,解壓縮策略是有損離散化分箱處理的逆過程;
步驟五四、采用從頭解壓縮的策略對整型信息進行解壓縮,得到起始比對位置信息start和終止比對位置信息end;
步驟六、將還原出的每一列所包含的信息進行存儲后,并按照步驟一配置的解壓縮輸出模式參數進行輸出。
2.根據權利要求1所述的一種DNA自索引區間解壓縮方法,其特征在于,所述解壓縮輸出模式參數決定解壓縮輸出的數據類型。
3.根據權利要求2所述的一種DNA自索引區間解壓縮方法,其特征在于,所述解壓縮輸出模式參數設置為1時,則解壓縮輸出的數據類型為基因序列,當解壓縮輸出模式參數設置為2時,則解壓縮輸出的數據類型為短讀序列,當解壓縮輸出模式參數設置為3時,則解壓縮輸出的數據類型為全基因組序列。
4.根據權利要求3所述的一種DNA自索引區間解壓縮方法,其特征在于,所述待解壓縮序列數據文件的頭文件信息包括100位比特信息。
5.根據權利要求4所述的一種DNA自索引區間解壓縮方法,其特征在于,所述步驟五一的具體過程為:
對每一個位點的堿基序列進行解壓縮,則解壓縮比特數據所代表的游程編碼數據將組成數據集合{0,1,2,3};
字符‘0’表示該位點與標準的參考基因組在該位點的堿基一致,該位點是匹配堿基序列;
字符‘1’表示該位點與標準的參考基因組在該位點的堿基不同,或該位點是未知堿基‘N’,通過搜索異常值哈希表在該位點上填補短讀序列‘1’所對應的異常堿基序列;
當字符‘2’不連續出現時,則表示該位點存在異常堿基序列,當字符‘2’連續出現時,則表示該位點無堿基序列覆蓋;
字符‘3’表示一條完整序列的終止結束。
6.根據權利要求5所述的一種DNA自索引區間解壓縮方法,其特征在于,所述按照步驟一配置的解壓縮輸出模式參數進行輸出,輸出數據的長度為|end-start|。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于哈爾濱工業大學,未經哈爾濱工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110377573.6/1.html,轉載請聲明來源鉆瓜專利網。





