[發(fā)明專利]通過應(yīng)用參考基因組的分層結(jié)構(gòu)使詫異數(shù)據(jù)最小的方法和系統(tǒng)有效
| 申請(qǐng)?zhí)枺?/td> | 201380026006.X | 申請(qǐng)日: | 2013-05-15 |
| 公開(公告)號(hào): | CN104335213B | 公開(公告)日: | 2017-04-26 |
| 發(fā)明(設(shè)計(jì))人: | J.克雷默;R.弗里德蘭德 | 申請(qǐng)(專利權(quán))人: | 國際商業(yè)機(jī)器公司 |
| 主分類號(hào): | G06F19/22 | 分類號(hào): | G06F19/22 |
| 代理公司: | 北京市柳沈律師事務(wù)所11105 | 代理人: | 周少杰,張貴東 |
| 地址: | 美國紐*** | 國省代碼: | 暫無信息 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 通過 應(yīng)用 參考 基因組 分層 結(jié)構(gòu) 詫異 數(shù)據(jù) 最小 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及使與參考基因組比較時(shí)生成的詫異數(shù)據(jù)(surprisal data)最小,尤其涉及通過應(yīng)用參考基因組的分層結(jié)構(gòu)使詫異數(shù)據(jù)最小。
背景技術(shù)
例如,人類的DNA基因測(cè)序產(chǎn)生約30億(3×109)個(gè)核苷酸堿基。當(dāng)前人們傳輸,存儲(chǔ)和分析所有30億個(gè)核苷酸堿基,每個(gè)堿基對(duì)通常被表示成2個(gè)位。與測(cè)序相聯(lián)系的數(shù)據(jù)的存儲(chǔ)是巨大的,至少需要3千兆字節(jié)的計(jì)算機(jī)數(shù)據(jù)存儲(chǔ)空間來存儲(chǔ)整個(gè)基因組,這還只包括核苷酸測(cè)序數(shù)據(jù),而不包括像注釋那樣的其它數(shù)據(jù)或信息。如果整個(gè)基因組包括像注釋那樣的其它信息,則該基因組可能需要相當(dāng)于兆兆字節(jié)的存儲(chǔ)體。巨大數(shù)量的數(shù)據(jù)、包含數(shù)據(jù)所需的巨量存儲(chǔ)體、和直接傳輸數(shù)據(jù)所需的資源妨礙了數(shù)據(jù)在學(xué)院、實(shí)驗(yàn)室和研究機(jī)構(gòu)之間的移動(dòng)。例如,一些研究機(jī)構(gòu)可能花費(fèi)200萬以上的美元來傳輸基因數(shù)據(jù)和發(fā)送大的基因數(shù)據(jù),例如,包括有關(guān)基因序列或基因組的注釋和細(xì)節(jié)的兆兆字節(jié)數(shù)據(jù)。極大的基因序列的轉(zhuǎn)移可能要在網(wǎng)絡(luò)數(shù)據(jù)處理系統(tǒng)上花費(fèi)巨量時(shí)間。
發(fā)明內(nèi)容
按照本發(fā)明的一個(gè)實(shí)施例,提供了一種使詫異數(shù)據(jù)最小的方法。該方法包含如下步驟:在源頭(source)上,計(jì)算機(jī)讀取和識(shí)別生物體的基因序列的特性;該計(jì)算機(jī)接收生物體的基因序列的至少兩種所識(shí)別特性的等級(jí)的輸入;該計(jì)算機(jī)根據(jù)生物體的基因序列的至少兩種所識(shí)別特性的等級(jí)生成分級(jí)的所識(shí)別特性的分層結(jié)構(gòu);該計(jì)算機(jī)將分級(jí)的所識(shí)別特性的分層結(jié)構(gòu)與參考基因組的中心庫相比較;以及如果來自中心庫的至少一個(gè)參考基因組與分級(jí)的所識(shí)別特性的分層結(jié)構(gòu)匹配,則i)該計(jì)算機(jī)將至少一個(gè)匹配參考基因組存儲(chǔ)在中心庫中;ii)該計(jì)算機(jī)將生物體的基因序列的核苷酸與來自至少一個(gè)匹配參 考基因組的核苷酸相比較,以找出生物體的基因序列的核苷酸與來自至少一個(gè)匹配參考基因組的核苷酸不同的差異;以及iii)該計(jì)算機(jī)使用該差異創(chuàng)建詫異數(shù)據(jù)并將該詫異數(shù)據(jù)存儲(chǔ)在中心庫中,該詫異數(shù)據(jù)包含參考基因組內(nèi)該差異的開始地點(diǎn)、和與參考基因組的核苷酸不同的來自生物體的基因序列的核苷酸;如果來自中心庫的另一個(gè)參考基因組與分級(jí)的所識(shí)別特性的分層結(jié)構(gòu)匹配,則重復(fù)步驟(i)-(iii)。
優(yōu)選的是,本發(fā)明提供了這樣的方法,其進(jìn)一步包含該計(jì)算機(jī)向目的地發(fā)送壓縮基因組,該壓縮基因組包含詫異數(shù)據(jù)和至少一個(gè)匹配參考基因組的指示,該壓縮基因組省略了在生物體的基因序列和至少一個(gè)匹配參考基因組中相同的核苷酸的序列。
優(yōu)選的是,本發(fā)明提供了這樣的方法,其進(jìn)一步包含接收生物體的壓縮基因組,其包含如下步驟:計(jì)算機(jī)從源頭接收壓縮基因組,該壓縮基因組包含詫異數(shù)據(jù)和用于壓縮基因組的至少一個(gè)匹配參考基因組的指示;該計(jì)算機(jī)從中心庫中檢索至少一個(gè)所指示匹配參考基因組;以及該計(jì)算機(jī)通過讓該詫異數(shù)據(jù)指定的至少一個(gè)匹配參考基因組中每個(gè)地點(diǎn)上的核苷酸被與該地點(diǎn)相聯(lián)系的詫異數(shù)據(jù)中來自生物體的基因序列的核苷酸取代,根據(jù)該詫異數(shù)據(jù)變更至少一個(gè)匹配參考基因組;得出生物體的整個(gè)基因組重復(fù)如下步驟:該計(jì)算機(jī)從中心庫中檢索至少一個(gè)所指示匹配參考基因組;以及該計(jì)算機(jī)通過讓該詫異數(shù)據(jù)指定的至少一個(gè)匹配參考基因組中每個(gè)地點(diǎn)上的核苷酸被與該地點(diǎn)相聯(lián)系的詫異數(shù)據(jù)中來自生物體的基因序列的核苷酸取代,根據(jù)該詫異數(shù)據(jù)變更至少一個(gè)匹配參考基因組;如果來自中心庫的另一個(gè)參考基因組與分級(jí)的所識(shí)別特性的分層結(jié)構(gòu)匹配,則得出生物體的整個(gè)基因組。
優(yōu)選的是,本發(fā)明提供了這樣的方法,其中該詫異數(shù)據(jù)進(jìn)一步包含參考基因組內(nèi)的地點(diǎn)上的差異的數(shù)量的計(jì)數(shù)。
優(yōu)選的是,本發(fā)明提供了這樣的方法,其中該生物體是動(dòng)物。
優(yōu)選的是,本發(fā)明提供了這樣的方法,其中該生物體是微生物。
優(yōu)選的是,本發(fā)明提供了這樣的方法,其中該生物體是植物。
優(yōu)選的是,本發(fā)明提供了這樣的方法,其中該生物體是菌類。
優(yōu)選的是,本發(fā)明提供了這樣的方法,其中該生物體是人類。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于國際商業(yè)機(jī)器公司,未經(jīng)國際商業(yè)機(jī)器公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201380026006.X/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F19-00 專門適用于特定應(yīng)用的數(shù)字計(jì)算或數(shù)據(jù)處理的設(shè)備或方法
G06F19-10 .生物信息學(xué),即計(jì)算分子生物學(xué)中的遺傳或蛋白質(zhì)相關(guān)的數(shù)據(jù)處理方法或系統(tǒng)
G06F19-12 ..用于系統(tǒng)生物學(xué)的建模或仿真,例如:概率模型或動(dòng)態(tài)模型,遺傳基因管理網(wǎng)絡(luò),蛋白質(zhì)交互作用網(wǎng)絡(luò)或新陳代謝作用網(wǎng)絡(luò)
G06F19-14 ..用于發(fā)展或進(jìn)化的,例如:進(jìn)化的保存區(qū)域決定或進(jìn)化樹結(jié)構(gòu)
G06F19-16 ..用于分子結(jié)構(gòu)的,例如:結(jié)構(gòu)排序,結(jié)構(gòu)或功能關(guān)系,蛋白質(zhì)折疊,結(jié)構(gòu)域拓?fù)洌媒Y(jié)構(gòu)數(shù)據(jù)的藥靶,涉及二維或三維結(jié)構(gòu)的
G06F19-18 ..用于功能性基因組學(xué)或蛋白質(zhì)組學(xué)的,例如:基因型–表型關(guān)聯(lián),不均衡連接,種群遺傳學(xué),結(jié)合位置鑒定,變異發(fā)生,基因型或染色體組的注釋,蛋白質(zhì)相互作用或蛋白質(zhì)核酸的相互作用
- 在線應(yīng)用平臺(tái)上應(yīng)用間通信的回調(diào)應(yīng)答方法、應(yīng)用及在線應(yīng)用平臺(tái)
- 應(yīng)用使用方法、應(yīng)用使用裝置及相應(yīng)的應(yīng)用終端
- 應(yīng)用管理設(shè)備、應(yīng)用管理系統(tǒng)、以及應(yīng)用管理方法
- 能力應(yīng)用系統(tǒng)及其能力應(yīng)用方法
- 應(yīng)用市場(chǎng)的應(yīng)用搜索方法、系統(tǒng)及應(yīng)用市場(chǎng)
- 使用應(yīng)用的方法和應(yīng)用平臺(tái)
- 應(yīng)用安裝方法和應(yīng)用安裝系統(tǒng)
- 使用遠(yuǎn)程應(yīng)用進(jìn)行應(yīng)用安裝
- 應(yīng)用檢測(cè)方法及應(yīng)用檢測(cè)裝置
- 應(yīng)用調(diào)用方法、應(yīng)用發(fā)布方法及應(yīng)用發(fā)布系統(tǒng)
- 減毒的人-牛嵌合呼吸道合胞病毒疫苗的生產(chǎn)
- 減毒的人-牛嵌合呼吸道合胞病毒疫苗的生產(chǎn)
- 用于對(duì)基因組進(jìn)行壓縮和解壓縮的方法和裝置
- 一種基因組重測(cè)序分析系統(tǒng)及方法
- 病原微生物基因組數(shù)據(jù)庫及其建立方法
- 宏基因組的重組裝方法、重組裝裝置及終端設(shè)備
- 用于保存和使用基因組及基因組數(shù)據(jù)的方法
- 識(shí)別胚胎中染色體異常的系統(tǒng)和方法
- 菌株基因組注釋查詢方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 真菌基因組測(cè)序數(shù)據(jù)自動(dòng)分析方法及系統(tǒng)





