[發(fā)明專利]基因組核酸片段數(shù)量的快速計(jì)數(shù)算法在審

申請(qǐng)?zhí)枺?/td>	201410757812.0	申請(qǐng)日：	2014-12-11
公開（公告）號(hào)：	CN104361264A	公開（公告）日：	2015-02-18
發(fā)明（設(shè)計(jì)）人：	陳科;黃煥舟;厲國(guó)強(qiáng)	申請(qǐng)（專利權(quán)）人：	天津工業(yè)大學(xué)
主分類號(hào)：	G06F19/24	分類號(hào)：	G06F19/24
代理公司：	暫無(wú)信息	代理人：	暫無(wú)信息
地址：	300387 ***	國(guó)省代碼：	天津;12
權(quán)利要求書：	查看更多	說(shuō)明書：	查看更多
摘要：
搜索關(guān)鍵詞：	基因組核酸片段數(shù)量快速計(jì)數(shù) 算法
鉆瓜網(wǎng) 技術(shù)展會(huì) 專利詞庫(kù) 專利權(quán)人專利榜在售專利公布日期熱門專利

【說(shuō)明書】：

技術(shù)領(lǐng)域

本研究主要涉及到生物信息數(shù)據(jù)處理，生物大數(shù)據(jù)挖掘，基因組分析與全基因組拼接。

背景技術(shù)

k-mer，即為kilo?mer，指的是將一條基因序列，連續(xù)切割，挨個(gè)堿基劃動(dòng)得到的一序列長(zhǎng)度為K的核苷酸片段。在生物信息學(xué)項(xiàng)目的研究中，對(duì)k-核酸片段的計(jì)量是解讀基因組信息的重要環(huán)節(jié)，我們可以通過(guò)k-核酸片段了解到基因組的大小，深度，頻率，同時(shí)，k-核酸片段計(jì)量廣泛應(yīng)用于基因組拼裝拼接，評(píng)估基因組測(cè)序覆蓋度，測(cè)序數(shù)據(jù)的糾錯(cuò)，多序列比對(duì)，重復(fù)序列檢測(cè)等研究中。

近年來(lái)，隨著生物信息學(xué)的發(fā)展，國(guó)外研究出了一些此類算法，如Jellyfish，BFCounter等。Jellyfish，一種已有的k-核酸片段計(jì)量算法，采用了并行無(wú)鎖哈希表(lock-free?hash?table)數(shù)據(jù)結(jié)構(gòu)，在速率上比較高效，但需要非常大的內(nèi)存和硬盤空間(在處理160G的人類基因組數(shù)據(jù)需要70G內(nèi)存和211G硬盤)，這嚴(yán)重阻礙了在沒有小型機(jī)等大型計(jì)算設(shè)備的普通實(shí)驗(yàn)室環(huán)境下的數(shù)據(jù)處理。BFCounter，采用概率型數(shù)據(jù)結(jié)構(gòu)Bloom_filter，使其不需要硬盤操作，完全使用內(nèi)存即可實(shí)現(xiàn)計(jì)量。但其消耗內(nèi)存過(guò)大(處理上述數(shù)據(jù)需要56G內(nèi)存)，而且速率過(guò)慢(處理上述數(shù)據(jù)時(shí)間超過(guò)40小時(shí))所以，在有限的內(nèi)存和硬盤空間限制下，尚未有可合理權(quán)衡上述要求的高效算法。同時(shí)，在數(shù)據(jù)處理中，現(xiàn)有方法并沒有深刻發(fā)掘基因組本身信息，如頻率，深度，而這些信息可以幫助我們?nèi)ズ侠硖幚碇貜?fù)基因和錯(cuò)誤基因，從而極大的提升算法效率。

發(fā)明內(nèi)容

本發(fā)明是為了解決現(xiàn)有技術(shù)中的問(wèn)題，而提供了一種快速、低內(nèi)存需求、低硬盤需求的k-核酸片段s計(jì)量算法。

本發(fā)明為解決公知技術(shù)中存在的技術(shù)問(wèn)題所采用的技術(shù)方案包括：合理分配內(nèi)存和硬盤空間，采用合理的數(shù)據(jù)結(jié)構(gòu)來(lái)表示k-核酸片段s，優(yōu)化k-核酸片段s的索引結(jié)構(gòu)和排序。算法具體步驟如下：

1)讀取原始數(shù)據(jù)文件，設(shè)定參數(shù)，包括要統(tǒng)計(jì)k-核酸片段的長(zhǎng)度k，限定硬盤空間D(bits)，內(nèi)存空間M(bits)，數(shù)據(jù)深度(depth)。

2)遍歷數(shù)據(jù)文件一次，將文件利用位運(yùn)算壓縮成二進(jìn)制，并且建立長(zhǎng)度為8-核酸片段的索引index。同時(shí)，獲得k-核酸片段的總個(gè)數(shù)

3)利用參數(shù)劃分迭代次數(shù)和k-核酸片段劃分段。

4)遍歷8-核酸片段索引一次，等量分配每一個(gè)區(qū)段內(nèi)的k-核酸片段個(gè)數(shù)。

5)按照不同的數(shù)據(jù)結(jié)構(gòu)初始化兩種種存儲(chǔ)存儲(chǔ)空間，分配在內(nèi)存，硬盤中，用于存儲(chǔ)和計(jì)算k-核酸片段。

6)根據(jù)迭代順序開始計(jì)量工作。

7)按照索引區(qū)index[i](i∈(劃分段)讀取壓縮文件至內(nèi)存R，直到內(nèi)存R使用量達(dá)到設(shè)定內(nèi)存空間的40％為止。

8)快速排序已存于R的k-核酸片段，并合并相同的k-核酸片段，進(jìn)行計(jì)量，得出的結(jié)果存儲(chǔ)于Lx(x∈1，2，3..)中。

9)迭代7，8操作，直到已使用內(nèi)存超過(guò)60％。合并L1...n中的k-核酸片段，并且建立次數(shù)索引

10)遍歷已統(tǒng)計(jì)的k-核酸片段，根據(jù)基因組的深度劃分正確基因和錯(cuò)誤基因，將重復(fù)次數(shù)少的寫入硬盤，次數(shù)多的保存在內(nèi)存Lx中。每次寫入硬盤的文件必須按照劃分段來(lái)標(biāo)記，同時(shí)，通過(guò)遍歷索引找到相應(yīng)的k-核酸片段寫入的最低次數(shù)，保證寫入k-核酸片段至硬盤必須釋放60％的內(nèi)存。

11)迭代7-10操作，直到所有文件讀完。

12)此時(shí)所有的k-核酸片段都已經(jīng)存儲(chǔ)于內(nèi)存(計(jì)量次數(shù)多的k-核酸片段)和硬盤(次數(shù)少的k-核酸片段)中。根據(jù)劃分段，將內(nèi)存和硬盤中處于同一區(qū)段的k-核酸片段進(jìn)行合并排序，合并排序的順序遵循哈弗曼編碼方法

13)完成所有的迭代次數(shù)，完成計(jì)量工作。

附圖說(shuō)明

圖1：程序運(yùn)行圖1；

圖2：內(nèi)存CPU使用圖1；

圖3：程序運(yùn)行圖2；

圖4：內(nèi)存CPU使用圖2；

圖5：程序運(yùn)行圖3；

圖6：內(nèi)存CPU使用圖3；

具體實(shí)施方式

下面結(jié)合實(shí)施例進(jìn)一步描述本發(fā)明。本發(fā)明的范圍不受這些實(shí)施例的限制，本發(fā)明的范圍在權(quán)利要求書中提出。

本算法中具體的實(shí)施步驟如下：

1.在NCBI上下載的基因組數(shù)據(jù)，利用SRA?Toolkit工具包將其轉(zhuǎn)成fastq和fasta格式的數(shù)據(jù)文件。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會(huì)員可以免費(fèi)下載。

免登錄下載普通用戶下載升級(jí)VIP會(huì)員，免費(fèi)下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于天津工業(yè)大學(xué)，未經(jīng)天津工業(yè)大學(xué)許可，擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請(qǐng)聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201410757812.0/2.html，轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。

上一篇：設(shè)有定位功能的二維碼標(biāo)簽的數(shù)據(jù)交互系統(tǒng)
下一篇：一種信息檢索方法及裝置

同類專利

專利分類

G 物理

G06 計(jì)算；推算；計(jì)數(shù)
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F19-00 專門適用于特定應(yīng)用的數(shù)字計(jì)算或數(shù)據(jù)處理的設(shè)備或方法
G06F19-10 .生物信息學(xué)，即計(jì)算分子生物學(xué)中的遺傳或蛋白質(zhì)相關(guān)的數(shù)據(jù)處理方法或系統(tǒng)
G06F19-12 ..用于系統(tǒng)生物學(xué)的建模或仿真，例如：概率模型或動(dòng)態(tài)模型，遺傳基因管理網(wǎng)絡(luò)，蛋白質(zhì)交互作用網(wǎng)絡(luò)或新陳代謝作用網(wǎng)絡(luò)
G06F19-14 ..用于發(fā)展或進(jìn)化的，例如：進(jìn)化的保存區(qū)域決定或進(jìn)化樹結(jié)構(gòu)
G06F19-16 ..用于分子結(jié)構(gòu)的，例如：結(jié)構(gòu)排序，結(jié)構(gòu)或功能關(guān)系，蛋白質(zhì)折疊，結(jié)構(gòu)域拓?fù)洌媒Y(jié)構(gòu)數(shù)據(jù)的藥靶，涉及二維或三維結(jié)構(gòu)的
G06F19-18 ..用于功能性基因組學(xué)或蛋白質(zhì)組學(xué)的，例如：基因型–表型關(guān)聯(lián)，不均衡連接，種群遺傳學(xué)，結(jié)合位置鑒定，變異發(fā)生，基因型或染色體組的注釋，蛋白質(zhì)相互作用或蛋白質(zhì)核酸的相互作用

免登錄下載普通用戶下載升級(jí)VIP會(huì)員，免費(fèi)下載

專利文獻(xiàn)下載

說(shuō)明：

1、專利原文基于中國(guó)國(guó)家知識(shí)產(chǎn)權(quán)局專利說(shuō)明書；

2、支持發(fā)明專利、實(shí)用新型專利、外觀設(shè)計(jì)專利（升級(jí)中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級(jí)為極速版,下載速度顯著提升！歡迎使用！

請(qǐng)您登陸后，進(jìn)行下載，點(diǎn)擊【登陸】【注冊(cè)】