[發明專利]一種基因數據壓縮方法及系統在審
| 申請號: | 202210839728.8 | 申請日: | 2022-10-27 |
| 公開(公告)號: | CN115512774A | 公開(公告)日: | 2022-12-23 |
| 發明(設計)人: | 王剛;李為民;陳亞鑫;畢力允;朱琳;王成弟;汪周峰 | 申請(專利權)人: | 四川大學華西醫院 |
| 主分類號: | G16B50/50 | 分類號: | G16B50/50;G16B50/00;G06F16/172;G06F16/174;G06F16/906;G06F11/14 |
| 代理公司: | 北京智行陽光知識產權代理事務所(普通合伙) 11738 | 代理人: | 林浩書 |
| 地址: | 610044 四*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基因 數據壓縮 方法 系統 | ||
1.一種基因數據壓縮方法,其特征在于:包括以下步驟:
S1、獲取基因數據并將其傳輸到壓縮系統中,壓縮系統中基因原始數據為fastq格式;
S2、壓縮系統檢測基因數據的格式類型對基因數據進行分類;
S3、對原始數據類型的基因數據使用fastq算法進行壓縮,并上傳到對象存儲中,存儲自動將文件切割成若干小份,保存到不同的磁盤,當出現故障的磁盤低于總數的一半時,數據不丟失;
S4、將壓縮文件上傳到對象存儲中,存儲自動將文件切割成若干小份,保存到不同的磁盤,當出現故障的磁盤低于總數的一半時,數據不丟失;
S5、對非原始文件格式的文件使用pigz壓縮算法(開源算法),對文件進行壓縮,壓縮后自動傳輸到對象存儲中,存儲自動將文件切割成若干小份,保存到不同的磁盤,當出現故障的磁盤低于總數的一半時,數據不丟失;
S6、數據壓縮好以后,系統自動在存儲中先檢查是否有該用戶的目錄,如果沒有目錄,則以用戶名為目錄名在對象存儲的桶中創建目錄;
S7、通過S3協議將壓縮后的文件傳送到對應用戶目錄中。
所述S3包括以下步驟:
1)、輸入基因原始文件;
2)、識別基因原始文件中的序列描述信息、堿基序列、序列描述、堿基質量信息;
3)、分別壓縮描述信息、壓縮堿基、壓縮序列、壓縮堿基質量;
4)、將壓縮的描述信息、堿基、序列、堿基質量整合為壓縮文件上傳到對象存儲中。
2.根據權利要求1所述的一種基因數據壓縮方法,其特征在于:所有數據的保存都是以用戶為基礎,每個用戶在對象存儲的桶中保存自己的數據。
3.根據權利要求1所述的一種基因數據壓縮方法其特征在于:數據以用戶為基礎進行隔離,每個用戶只能瀏覽和操作自己的數據,無法觸及別人的數據。
4.根據權利要求1所述的一種基因數據壓縮方法,其特征在于:任何輸入文件經過系統壓縮后,自動上傳到對象存儲中。
5.根據權利要求1所述的一種基因數據壓縮方法,其特征在于:故障的磁盤低于總數的一半時,將故障的磁盤更換為新的的磁盤后,無需人工介入數據自動恢復。
6.一種基因數據壓縮系統,其特征在于:包括數據輸入單元、數據識別單元、數據傳輸單元、數據壓縮單元和數據儲存單元,所述數據輸入單元信號連接有數據識別單元,所述數據識別單元信號連接有數據傳輸單元,所述數據傳輸單元信號連接有數據壓縮單元和數據儲存單元,所述數據壓縮單元和數據儲存單元信號連接。
7.根據權利要求6所述的一種基因數據壓縮方法,其特征在于:所述數據壓縮單元的內部設置有fastq壓縮算法和pigz壓縮算法。
8.根據權利要求7所述的一種基因數據壓縮方法,其特征在于:所述數據儲存單元信號連接有磁盤,所述數據儲存單元的內部設置有數據分隔模塊、數據備份模塊和數據恢復模塊。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于四川大學華西醫院,未經四川大學華西醫院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210839728.8/1.html,轉載請聲明來源鉆瓜專利網。





