[發(fā)明專利]一種基于外顯子區(qū)域插入的數(shù)據(jù)壓縮方法有效
| 申請(qǐng)?zhí)枺?/td> | 202110388432.4 | 申請(qǐng)日: | 2021-04-12 |
| 公開(公告)號(hào): | CN112863600B | 公開(公告)日: | 2022-05-24 |
| 發(fā)明(設(shè)計(jì))人: | 張?jiān)葡?/a>;李楊;劉博;王亞東 | 申請(qǐng)(專利權(quán))人: | 哈爾濱工業(yè)大學(xué) |
| 主分類號(hào): | G16B30/00 | 分類號(hào): | G16B30/00;G16B30/20 |
| 代理公司: | 哈爾濱華夏松花江知識(shí)產(chǎn)權(quán)代理有限公司 23213 | 代理人: | 岳昕 |
| 地址: | 150001 黑龍*** | 國省代碼: | 黑龍江;23 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 外顯子 區(qū)域 插入 數(shù)據(jù)壓縮 方法 | ||
一種基于外顯子區(qū)域插入的數(shù)據(jù)壓縮方法,涉及數(shù)據(jù)壓縮領(lǐng)域。本發(fā)明是為了解決現(xiàn)有的數(shù)據(jù)壓縮方法壓縮時(shí)運(yùn)行速度慢、壓縮適應(yīng)范圍窄、壓縮存儲(chǔ)量消耗大的問題。本發(fā)明包括:對(duì)測(cè)序短讀DNA數(shù)據(jù)進(jìn)行預(yù)處理獲取外顯子數(shù)據(jù)集合;對(duì)外顯子數(shù)據(jù)集合進(jìn)行質(zhì)控獲取異常值并將異常值存儲(chǔ)在哈希表中;將哈希表中的異常值進(jìn)行有序存放;使用霍夫曼編碼對(duì)存放在哈希表中的異常值中的堿基進(jìn)行壓縮存儲(chǔ);利用LYZip局部解壓縮方法判斷此時(shí)累積插入序列深度是否已經(jīng)達(dá)到30X,如果大于30X則表明無法進(jìn)行插入壓縮;如果小于30X,并且累加上新加入的插入序列仍然小于30X,則重復(fù)壓縮步驟。本發(fā)明用于對(duì)數(shù)據(jù)的壓縮。
技術(shù)領(lǐng)域
本發(fā)明屬于數(shù)據(jù)壓縮領(lǐng)域,具體涉及一種基于外顯子區(qū)域插入的數(shù)據(jù)壓縮方法。
背景技術(shù)
隨著生物信息學(xué)的發(fā)展測(cè)序技術(shù)已經(jīng)發(fā)展為三代測(cè)序時(shí)代,三代測(cè)序技術(shù)已經(jīng)成為目前生物信息領(lǐng)域主要研究的方向。但是隨著三代測(cè)序技術(shù)的迅速發(fā)展也帶來了測(cè)序生成序列與數(shù)據(jù)庫存儲(chǔ)空間不匹配,數(shù)據(jù)增長速度與計(jì)算機(jī)容量增長不匹配等問題,因此為了對(duì)應(yīng)測(cè)序數(shù)據(jù)的高速生長,對(duì)于測(cè)序數(shù)據(jù)的壓縮方法成為目前急需解決的難題。
目前針對(duì)此類壓縮問題——已有一定壓縮數(shù)據(jù),輸入新的測(cè)序數(shù)據(jù),壓縮新的測(cè)序數(shù)據(jù)到之前的壓縮數(shù)據(jù)中,壓縮主要采用兩種方法;一種是將壓縮輸數(shù)據(jù)解壓縮,然后解壓縮數(shù)據(jù)和新的測(cè)序數(shù)據(jù)合并進(jìn)行排序再壓縮,但是這種方法序列之間的排序使用的是samtools的sort功能,該功能會(huì)隨著序列的增多而消耗大量時(shí)間,從而減緩運(yùn)行速度,且壓縮時(shí)將正常比對(duì)堿基序列也進(jìn)行了壓縮,增大了壓縮的存儲(chǔ)消耗。第二種方法是LYZip增量壓縮方法,但是LYZip增量壓縮方法的壓縮深度只能是10X,其壓縮適應(yīng)范圍不夠廣且壓縮的數(shù)據(jù)比較少。因此目前的數(shù)據(jù)壓縮方法存在運(yùn)行速度慢、壓縮適應(yīng)范圍窄、壓縮存儲(chǔ)消耗大的的問題。
發(fā)明內(nèi)容
本發(fā)明目的是為了解決現(xiàn)有的數(shù)據(jù)壓縮方法壓縮時(shí)運(yùn)行速度慢、壓縮適應(yīng)范圍窄、壓縮存儲(chǔ)量消耗大的問題,而提出了一種基于外顯子區(qū)域插入的數(shù)據(jù)壓縮方法。
一種基于外顯子區(qū)域插入的數(shù)據(jù)壓縮方法,具體過程為:
步驟一、對(duì)測(cè)序短讀DNA數(shù)據(jù)進(jìn)行預(yù)處理獲取外顯子數(shù)據(jù)集合;
步驟二、對(duì)外顯子數(shù)據(jù)集合進(jìn)行質(zhì)控獲取異常值并將異常值存儲(chǔ)在哈希表中;
步驟三、將哈希表中的異常值進(jìn)行有序存放;
步驟四、使用霍夫曼編碼對(duì)存放在哈希表中的異常值中的堿基進(jìn)行壓縮存儲(chǔ);
步驟五、利用LYZip局部解壓縮方法判斷此時(shí)累積插入序列深度是否已經(jīng)達(dá)到30X,如果大于30X則表明無法進(jìn)行插入壓縮;如果小于30X,并且累加上新加入的插入序列仍然小于30X,則重復(fù)步驟一到三再次進(jìn)行插入壓縮。
本發(fā)明的有益效果為:
本發(fā)明是對(duì)LYZip中增量壓縮算法的改進(jìn),在原有一定深度的,經(jīng)過TPBWT算法壓縮的測(cè)序短讀數(shù)據(jù)基礎(chǔ)上,提取其中的基因區(qū)域的外顯子區(qū)間數(shù)據(jù),在不全部解壓縮原有測(cè)序數(shù)據(jù)壓縮文件的基礎(chǔ)上,將提出的外顯子數(shù)據(jù)插入到既定位置,同時(shí)完成壓縮操作,本發(fā)明針對(duì)外顯子進(jìn)行壓縮省略了排序的過程,節(jié)省了壓縮的時(shí)間進(jìn)而提高了整體壓縮的速度,且壓縮過程中沒有壓縮正常比對(duì)堿基序列,節(jié)省了壓縮時(shí)間的同時(shí)也節(jié)省了存儲(chǔ)消耗。本發(fā)明還利用了TPBWT結(jié)構(gòu)能夠通過前一列存儲(chǔ)索引結(jié)構(gòu)變換后一列而不需要額外存儲(chǔ)索引結(jié)構(gòu)以及TPBWT結(jié)構(gòu)中所有位點(diǎn)都包含標(biāo)識(shí)符'2'的特性,保證了插入操作不需要額外對(duì)索引信息進(jìn)行改動(dòng),減少了處理步驟,提高了運(yùn)行速度,以及通過設(shè)置標(biāo)識(shí)符'2'可以占據(jù)壓縮區(qū)間的所有位點(diǎn),保證了后續(xù)的插入壓縮算法能夠在線性時(shí)間快速定位到所要插入的位點(diǎn)位置,使插入壓縮在壓縮速度上得到了提升的同時(shí)將最大壓縮深度提升到了31X,提高了數(shù)據(jù)壓縮的適應(yīng)范圍,進(jìn)而提高了壓縮存儲(chǔ)量。
附圖說明
圖1為本發(fā)明結(jié)構(gòu)框圖。
具體實(shí)施方式
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于哈爾濱工業(yè)大學(xué),未經(jīng)哈爾濱工業(yè)大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110388432.4/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。





