[發(fā)明專利]基因組核酸片段數(shù)量的快速計數(shù)算法在審
| 申請?zhí)枺?/td> | 201410757812.0 | 申請日: | 2014-12-11 |
| 公開(公告)號: | CN104361264A | 公開(公告)日: | 2015-02-18 |
| 發(fā)明(設(shè)計)人: | 陳科;黃煥舟;厲國強 | 申請(專利權(quán))人: | 天津工業(yè)大學(xué) |
| 主分類號: | G06F19/24 | 分類號: | G06F19/24 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 300387 *** | 國省代碼: | 天津;12 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基因組 核酸 片段 數(shù)量 快速 計數(shù) 算法 | ||
1.一種快速統(tǒng)計基因組核酸片段數(shù)量的算法,該方法可在有限內(nèi)存的限制條件下完成核酸片段數(shù)量的統(tǒng)計。本發(fā)明總是優(yōu)先將高倍數(shù)的核酸片段放置于內(nèi)存,而將低倍數(shù)的核酸不斷移除到硬盤中。通過不斷排序與迭代上述過程,盡可能地提高在內(nèi)存中計算的比例。其期特征在于,
(1)讀取原始數(shù)據(jù)文件,設(shè)定參數(shù),包括要統(tǒng)計k-核酸片段(表示長度為k的核酸片段)的長度k,限定硬盤空間D(bits),內(nèi)存空間M(bits),數(shù)據(jù)深度(depth)。
(2)遍歷數(shù)據(jù)文件一次,將文件利用位運算壓縮成二進制,并且建立長度為8-核酸片段的索引index。同時,獲得k-核酸片段的總個數(shù)N。
(3)劃分迭代次數(shù)和k-核酸片段區(qū)段。
(4)遍歷8-核酸片段索引一次,等量分配每一個區(qū)段內(nèi)的k-核酸片段個數(shù)。
(5)按照不同的數(shù)據(jù)結(jié)構(gòu)初始化兩種存儲存儲空間,分配在內(nèi)存,硬盤中,用于存儲和計算k-核酸片段。
(6)根據(jù)迭代順序開始計量工作。
(7)按照索引區(qū)index[i](i∈(劃分段)讀取壓縮文件至內(nèi)存R,直到內(nèi)存R使用量達到設(shè)定內(nèi)存空間的40%為止。
(8)快速排序已存于R的k-核酸片段,并合并相同的k-核酸片段,進行計量,得出的結(jié)果存儲于Lx(x∈1,2,3..)中。
(9)迭代7,8操作,直到已使用內(nèi)存超過60%。合并L1...n中的k-核酸片段,并且建立次數(shù)索引
(10)遍歷已統(tǒng)計的k-核酸片段,根據(jù)基因組的深度劃分正確基因和錯誤基因,將重復(fù)次數(shù)少的寫入硬盤,次數(shù)多的保存在內(nèi)存Lx中。每次寫入硬盤的文件必須按照劃分段來標(biāo)記,同時,通過遍歷索引找到相應(yīng)的k-核酸片段寫入的最低次數(shù),保證寫入k-核酸片段至硬盤必須釋放60%的內(nèi)存。
(11)迭代7-10操作,直到所有文件讀完。
(12)此時所有的k-核酸片段都已經(jīng)存儲于內(nèi)存(計量次數(shù)多的k-核酸片段)和硬盤(次數(shù)少的k-核酸片段)中。根據(jù)劃分段,將內(nèi)存和硬盤中處于同一區(qū)段的k-核酸片段進行合并排序,合并排序的順序遵循哈弗曼編碼方法。
(13)完成所有的迭代次數(shù),完成計量工作。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于天津工業(yè)大學(xué),未經(jīng)天津工業(yè)大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410757812.0/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F19-00 專門適用于特定應(yīng)用的數(shù)字計算或數(shù)據(jù)處理的設(shè)備或方法
G06F19-10 .生物信息學(xué),即計算分子生物學(xué)中的遺傳或蛋白質(zhì)相關(guān)的數(shù)據(jù)處理方法或系統(tǒng)
G06F19-12 ..用于系統(tǒng)生物學(xué)的建模或仿真,例如:概率模型或動態(tài)模型,遺傳基因管理網(wǎng)絡(luò),蛋白質(zhì)交互作用網(wǎng)絡(luò)或新陳代謝作用網(wǎng)絡(luò)
G06F19-14 ..用于發(fā)展或進化的,例如:進化的保存區(qū)域決定或進化樹結(jié)構(gòu)
G06F19-16 ..用于分子結(jié)構(gòu)的,例如:結(jié)構(gòu)排序,結(jié)構(gòu)或功能關(guān)系,蛋白質(zhì)折疊,結(jié)構(gòu)域拓?fù)洌媒Y(jié)構(gòu)數(shù)據(jù)的藥靶,涉及二維或三維結(jié)構(gòu)的
G06F19-18 ..用于功能性基因組學(xué)或蛋白質(zhì)組學(xué)的,例如:基因型–表型關(guān)聯(lián),不均衡連接,種群遺傳學(xué),結(jié)合位置鑒定,變異發(fā)生,基因型或染色體組的注釋,蛋白質(zhì)相互作用或蛋白質(zhì)核酸的相互作用





