[發明專利]基因測序數據壓縮方法、系統及計算機可讀介質有效
| 申請號: | 201710982696.6 | 申請日: | 2017-10-20 |
| 公開(公告)號: | CN110111851B | 公開(公告)日: | 2020-07-24 |
| 發明(設計)人: | 李根;宋卓;劉蓬俠;王振國;馮博倫 | 申請(專利權)人: | 人和未來生物科技(長沙)有限公司 |
| 主分類號: | G16B50/50 | 分類號: | G16B50/50 |
| 代理公司: | 湖南兆弘專利事務所(普通合伙) 43008 | 代理人: | 譚武藝 |
| 地址: | 410152 湖南省長沙*** | 國省代碼: | 湖南;43 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基因 序數 壓縮 方法 系統 計算機 可讀 介質 | ||
1.一種基因測序數據壓縮方法,其特征在于所述方法包括:
1)從基因測序數據樣本data中遍歷獲取讀長為Lr的讀序列R;
2)針對每一條讀序列R,選擇k位原始基因字母作為原始基因字符串CS0,從原始基因字符串CS0開始以長度為k的滑動窗口順序生成定長的k位字符串作為短串K-mer,根據短串K-mer確定讀序列R的正負鏈類型d,且通過預設的預測數據模型P1獲取每一個短串K-mer對應相鄰位的預測字符c得到長度為Lr-k位的預測字符集PS,所述預測數據模型P1包含參考基因組的正鏈及負鏈中任意短串K-mer及其對應相鄰位的預測字符c;將讀序列R中不含k位原始基因字母的Lr-k位原始基因字母、預測字符集PS編碼后通過可逆函數進行可逆運算,所述可逆函數對任意一對相同的字符編碼的運算輸出結果相同;將讀序列R的正負鏈類型d、原始基因字符串CS0以及可逆運算結果作為三條數據流壓縮輸出。
2.根據權利要求1所述的基因測序數據壓縮方法,其特征在于,步驟2)的實施步驟包括:
2.1)從基因測序數據樣本data中遍歷獲取一條讀長為Lr的讀序列R,針對讀序列R選擇k位原始基因字母作為原始基因字符串CS0,從原始基因字符串CS0開始以長度為k的滑動窗口順序生成定長子字符串作為短串K-mer得到讀序列短串集合KR;
2.2)按照順序生成定長子字符串作為短串K-mer,根據短串K-mer確定讀序列R的正負鏈類型d,且通過預設的預測數據模型P1獲取每一個短串K-mer對應相鄰位的預測字符c得到長度為Lr-k位的預測字符集PS,所述預測數據模型P1包含參考基因組的正鏈及負鏈中任意短串K-mer及其對應相鄰位的預測字符c;
2.3)將讀序列R中不含k位原始基因字母的Lr-k位原始基因字母、預測字符集PS編碼后通過可逆函數進行可逆運算,所述可逆函數對任意一對相同的字符編碼的運算輸出結果相同;
2.4)將讀序列R的正負鏈類型d、原始基因字符串CS0以及可逆運算結果作為三條數據流壓縮輸出;
2.5)判斷基因測序數據樣本data中的讀序列R是否遍歷完畢,如果尚未遍歷完畢,則跳轉執行步驟2.1);否則結束并退出。
3.根據權利要求2所述的基因測序數據壓縮方法,其特征在于,步驟2.2)的詳細步驟包括:
2.2.1)針對讀序列短串集合KR順序提取短串K-mer,基于短串K-mer構造正鏈預測序列KP1,正鏈預測序列KP1中對于讀序列短串集合KR中任意短串K-mer均存在一個對應的元組(k-mer,0),其中k-mer為短串K-mer,0表示假設該短串K-mer來自正鏈;
2.2.2)針對正鏈預測序列KP1中的每一個元組(k-mer,0)通過預測數據模型P1獲取其對應的預測字符c,得到所有預測字符c構成的正鏈預測字符序列PS1;所述預測數據模型P1包含參考基因組的正鏈及負鏈中任意短串K-mer及其相鄰位對應的預測字符c;
2.2.3)針對讀序列短串集合KR順序提取短串K-mer,基于短串K-mer構造負鏈預測序列KP2,負鏈預測序列KP2中對于讀序列短串集合KR中任意短串K-mer均存在一個對應的元組(k-mer,1),其中k-mer為短串K-mer,1表示假設該短串K-mer來自負鏈;
2.2.4)針對負鏈預測序列KP2中的每一個元組(k-mer,1)通過預測數據模型P1獲取其相鄰位對應的預測字符c,得到所有預測字符c構成的負鏈預測字符序列PS2;
2.2.5)計算正鏈預測字符序列PS1、讀序列R中不含k位原始基因字母的Lr-k位原始基因字母兩者之間的編輯距離L1,計算負鏈預測字符序列PS2、讀序列R中不含k位原始基因字母的Lr-k位原始基因字母兩者之間的編輯距離L2;
2.2.6)判斷編輯距離L1小于L2是否成立,如果成立則判定讀序列R的正負鏈類別d為正鏈,將正鏈預測字符序列PS1作為Lr-k位的預測字符集PS;否則,判定讀序列R的正負鏈類別d為負鏈,將負鏈預測字符序列PS2作為Lr-k位的預測字符集PS。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于人和未來生物科技(長沙)有限公司,未經人和未來生物科技(長沙)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710982696.6/1.html,轉載請聲明來源鉆瓜專利網。





