[發(fā)明專利]一種基因數(shù)據(jù)壓縮方法及系統(tǒng)在審
| 申請?zhí)枺?/td> | 202210839728.8 | 申請日: | 2022-10-27 |
| 公開(公告)號: | CN115512774A | 公開(公告)日: | 2022-12-23 |
| 發(fā)明(設計)人: | 王剛;李為民;陳亞鑫;畢力允;朱琳;王成弟;汪周峰 | 申請(專利權)人: | 四川大學華西醫(yī)院 |
| 主分類號: | G16B50/50 | 分類號: | G16B50/50;G16B50/00;G06F16/172;G06F16/174;G06F16/906;G06F11/14 |
| 代理公司: | 北京智行陽光知識產(chǎn)權代理事務所(普通合伙) 11738 | 代理人: | 林浩書 |
| 地址: | 610044 四*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基因 數(shù)據(jù)壓縮 方法 系統(tǒng) | ||
本發(fā)明公開了一種基因數(shù)據(jù)壓縮方法及系統(tǒng),涉及數(shù)據(jù)壓縮技術領域,包括以下步驟:S1、獲取基因數(shù)據(jù)并將其傳輸?shù)綁嚎s系統(tǒng)中,壓縮系統(tǒng)中基因原始數(shù)據(jù)為fastq格式;S2、壓縮系統(tǒng)檢測基因數(shù)據(jù)的格式類型對基因數(shù)據(jù)進行分類;S3、對原始數(shù)據(jù)類型的基因數(shù)據(jù)使用fastq算法進行壓縮,并上傳到對象存儲中,存儲自動將文件切割成若干小份,保存到不同的磁盤。本發(fā)明的優(yōu)點在于:獨創(chuàng)的壓縮fastq文件的算法,是gzip壓縮率的2.25倍,可以節(jié)省一半多的存儲空間,成本投入減少一半以上,內嵌壓縮算法系統(tǒng),可以自動化進行批量數(shù)據(jù)備份及歸檔;數(shù)據(jù)存儲在對象存儲中,在硬盤損壞的情況下數(shù)據(jù)不丟失,新硬盤安裝后,數(shù)據(jù)自動補全,全程無需人工操作。
技術領域
本發(fā)明涉及數(shù)據(jù)壓縮技術領域,具體為一種基因數(shù)據(jù)壓縮方法及系統(tǒng)。
背景技術
目前隨著二代測序成本的降低,各個單位的測序項目的檢測量在與日俱增。所以需要長期保存的基因數(shù)據(jù)量成指數(shù)級增長。這些數(shù)據(jù)通常有兩種保存形式:1.無壓縮存儲;2.壓縮存儲。
無壓縮存儲占用空間巨大,存儲成本高;壓縮存儲行業(yè)內采用壓縮比相對比較高的gzip壓縮算法,對存儲量帶來一定的緩解,但是仍然不能解決大樣本量對大量存儲量的需求。
另外,目前市場上沒有對基因原始數(shù)據(jù)全面管理的系統(tǒng),測序單位對基因數(shù)據(jù)的管理通常都是單個樣本保存在文件系統(tǒng)中,數(shù)據(jù)存儲安全無法保證,并缺乏系統(tǒng)和全面的管理方法。
針對上述問題,特提出一種基因數(shù)據(jù)壓縮方法及系統(tǒng)。
發(fā)明內容
(一)解決的技術問題
針對現(xiàn)有技術的不足,本發(fā)明提供了一種基因數(shù)據(jù)壓縮方法及系統(tǒng),具備節(jié)約儲存空間、降低成本、數(shù)據(jù)自動補全等優(yōu)點,解決了大樣本量對大量存儲量的需求,數(shù)據(jù)存儲安全無法保證的問題。
(二)技術方案
為實現(xiàn)上述目的,本發(fā)明提供如下技術方案:一種基因數(shù)據(jù)壓縮方法及系統(tǒng),包括以下步驟:
S1、獲取基因數(shù)據(jù)并將其傳輸?shù)綁嚎s系統(tǒng)中,壓縮系統(tǒng)中基因原始數(shù)據(jù)為fastq格式;
S2、壓縮系統(tǒng)檢測基因數(shù)據(jù)的格式類型對基因數(shù)據(jù)進行分類;
S3、對原始數(shù)據(jù)類型的基因數(shù)據(jù)使用fastq算法進行壓縮,并上傳到對象存儲中,存儲自動將文件切割成若干小份,保存到不同的磁盤,當出現(xiàn)故障的磁盤低于總數(shù)的一半時,數(shù)據(jù)不丟失;
S4、將壓縮文件上傳到對象存儲中,存儲自動將文件切割成若干小份,保存到不同的磁盤,當出現(xiàn)故障的磁盤低于總數(shù)的一半時,數(shù)據(jù)不丟失;
S5、對非原始文件格式的文件使用pigz壓縮算法(開源算法),對文件進行壓縮,壓縮后自動傳輸?shù)綄ο蟠鎯χ校鎯ψ詣訉⑽募懈畛扇舾尚》荩4娴讲煌拇疟P,當出現(xiàn)故障的磁盤低于總數(shù)的一半時,數(shù)據(jù)不丟失;
S6、數(shù)據(jù)壓縮好以后,系統(tǒng)自動在存儲中先檢查是否有該用戶的目錄,如果沒有目錄,則以用戶名為目錄名在對象存儲的桶中創(chuàng)建目錄;
S7、通過S3協(xié)議將壓縮后的文件傳送到對應用戶目錄中。
所述S3包括以下步驟:
1)、輸入基因原始文件;
2)、識別基因原始文件中的序列描述信息、堿基序列、序列描述、堿基質量信息;
3)、分別壓縮描述信息、壓縮堿基、壓縮序列、壓縮堿基質量;
4)、將壓縮的描述信息、堿基、序列、堿基質量整合為壓縮文件上傳到對象存儲中。
系統(tǒng)除了壓縮基因數(shù)據(jù),也可以處理其他類型的任何數(shù)據(jù),總共包括以下幾類:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于四川大學華西醫(yī)院,未經(jīng)四川大學華西醫(yī)院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210839728.8/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。
- 基于WLAN網(wǎng)絡的數(shù)據(jù)壓縮傳輸方法、STA及AP
- 一種數(shù)據(jù)壓縮存儲方法、裝置,及分布式文件系統(tǒng)
- 數(shù)據(jù)傳輸、數(shù)據(jù)接收方法及裝置
- 一種數(shù)據(jù)壓縮存儲方法以及數(shù)據(jù)壓縮存儲裝置
- 數(shù)據(jù)的傳輸方法、數(shù)據(jù)傳輸裝置及計算機可讀存儲介質
- 數(shù)據(jù)壓縮系統(tǒng)、有損數(shù)據(jù)壓縮的方法和數(shù)據(jù)壓縮的方法
- 數(shù)據(jù)壓縮方法、數(shù)據(jù)壓縮系統(tǒng)以及采用該系統(tǒng)的車輛ECU
- 數(shù)據(jù)壓縮方法、裝置、電子設備及計算機可讀介質
- 口授系統(tǒng)
- 具有幾個數(shù)據(jù)壓縮信道的數(shù)據(jù)壓縮組件





