[發明專利]基因組測序數據的Leon-RC壓縮方法有效
| 申請號: | 201810834127.1 | 申請日: | 2018-07-26 |
| 公開(公告)號: | CN109256178B | 公開(公告)日: | 2022-03-29 |
| 發明(設計)人: | 雷志強;李偉忠 | 申請(專利權)人: | 中山大學 |
| 主分類號: | G16B20/30 | 分類號: | G16B20/30 |
| 代理公司: | 廣州粵高專利商標代理有限公司 44102 | 代理人: | 林麗明 |
| 地址: | 510275 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基因組 序數 leon rc 壓縮 方法 | ||
1.一種基因組測序數據的Leon-RC壓縮方法,對LEON算法構造錨點字典的步驟進行改進,其特征在于:包括以下步驟:
(1)將短讀劃分為多個Kmer;
(2)選擇一個Kmer,計算其直接重復、鏡像重復、反轉重復、互補回文的Kmer值,比較這四個值,獲得最小的Kmer值;
(3)將最小的Kmer值放入布隆過濾器中進行匹配查找,布隆過濾器中存放有SolidKmer,判斷Solid Kmer中是否存在最小的Kmer值;若存在,則向錨點字典中添加該最小的Kmer值,并結束查找;若不存在,則獲取下一個Kmer,重復步驟(2)、(3);
(4)若所有Kmer的最小的Kmer值都不存在于Solid Kmer中,則說明該短讀不存在錨點;
(5)通過步驟(1)~(4)構造錨點字典;
所述方法構造得到錨點字典后,對短讀進行壓縮,其具體過程如下:
S1.在短讀開始編碼的位置尋找錨點;在錨點字典中檢索Kmer,計算他們的最小值Kmer,當其中一個最小值Kmer出現在錨點字典中,則停止檢索,記錄下標至映射表的anchor中;映射表中的anchor記錄位置為該Kmer在錨點字典中的下標為1,并且用一個變量readAnchorRevcompModel來記錄錨點類型;如果錨點不存在的話,則將第一個Kmer加入到錨點字典中;
S2.記錄錨點左右兩邊剩下的路徑長;
S3.記錄有差異的堿基位置,從錨點開始向右查找,判斷短讀的下一個Kmer是否存在于布隆過濾器中,若不存在,則記錄該Kmer和相對于錨點的位置,若存在,則判斷是否在布隆過濾器中唯一,若唯一,則不做操作,若不唯一,則記錄選擇;
S4.經過以上三個步驟完成了對短讀的壓縮。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中山大學,未經中山大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810834127.1/1.html,轉載請聲明來源鉆瓜專利網。





