[發(fā)明專利]一種基于參考序列的基因壓縮方法有效
| 申請?zhí)枺?/td> | 201910598102.0 | 申請日: | 2019-07-04 |
| 公開(公告)號: | CN110310709B | 公開(公告)日: | 2022-08-16 |
| 發(fā)明(設(shè)計)人: | 季一木;陳帥;堯海昌;李奎;劉尚東;方厚之;劉強(qiáng) | 申請(專利權(quán))人: | 南京郵電大學(xué) |
| 主分類號: | G16B50/50 | 分類號: | G16B50/50 |
| 代理公司: | 南京瑞弘專利商標(biāo)事務(wù)所(普通合伙) 32249 | 代理人: | 彭雄 |
| 地址: | 210000 江蘇*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 參考 序列 基因 壓縮 方法 | ||
1.一種基于參考序列的基因壓縮方法,其特征在于,包括以下步驟:
步驟1)、遍歷參考基因文件;將其中小寫字符寫入內(nèi)存,此小寫字符信息包括堿基、N字符和其他字符在內(nèi)的所有小寫字符信息;遍歷過程中遇到大寫的堿基字符時,將其寫入內(nèi)存;遇到小寫的堿基字符時,將其轉(zhuǎn)成大寫字符,然后寫入內(nèi)存,并且使用開始位置與長度二元組記錄參考基因文件小寫字符的位置信息,得到參考基因文件小寫字符二元組;
步驟2)、參考基因文件堿基信息Hash值計算;使用k-mer方法將基因分段,對堿基ACGT分別編碼,并計算Hash值,使得每一個Hash值代表一個基因片段;
使用k-mer方法將基因分段,對堿基ACGT分別編碼,并計算Hash值,使得每一個Hash值代表一個基因片段的方法:
首先將A、C、G、T信息編碼,分別使用0、1、2、3表示;其次從首位開始,選取連續(xù)的11位字符,將第一位的數(shù)字與4的10次方相乘,將第二位的數(shù)字與4的9次方相乘,以此類推,直至最后一位數(shù)字與4的0次方相乘,然后將各個結(jié)果相加得到最終的結(jié)果即為Hash值,并存入Hash表中;
Hash值計算方法:
對于一段字符x10x9x8x7x6x5x4x3x2x1x0,其中xi對應(yīng)的編碼為code(xi),則計算Hash值的方式為
其中,HashValue表示Hash值;
步驟3)、遍歷待壓縮基因文件;將其中小寫字符寫入內(nèi)存,此小寫字符信息包括堿基、N字符和其他字符在內(nèi)的所有小寫字符信息;遍歷過程中遇到大寫的堿基字符、N字符和其他字符時,將其寫入內(nèi)存;遇到小寫的堿基字符、N字符和其他字符時,將其轉(zhuǎn)成大寫字符,然后寫入內(nèi)存;同時將換行信息也寫入內(nèi)存;并且使用開始位置與長度二元組記錄壓縮基因文件小寫字符的位置信息,得到壓縮基因文件小寫字符二元組;
步驟4)、小寫字符寫入壓縮文件;對比已經(jīng)生成的小寫字符二元組,將待壓縮基因文件的小寫字符二元組對比參考基因文件的小寫字符二元組,進(jìn)一步將相同的部分用二元組表示,并寫入壓縮文件;不同的部分直接寫入壓縮文件;
步驟5)、換行信息、N字符和其他字符寫入壓縮文件;將帶壓縮文件中換行信息、N字符和其他字符以二元組形式表示并將二元組寫入壓縮文件;
步驟6)、堿基信息寫入壓縮文件;使用k-mer方法對帶壓縮基因文件每一段求取Hash值,并根據(jù)Hash值匹配得到與參考基因文件相同的k-mer段,記錄該k-mer段的開始位置與連續(xù)重復(fù)最大長度為一個新二元組,直至遍歷待壓縮基因文件小寫字符二元組完成,生成新二元組寫入壓縮文件。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于南京郵電大學(xué),未經(jīng)南京郵電大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910598102.0/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





