[發(fā)明專利]一種蛋白質(zhì)鑒定的大規(guī)模分布式并行加速方法及其系統(tǒng)有效
| 申請(qǐng)?zhí)枺?/td> | 201010292031.0 | 申請(qǐng)日: | 2010-09-26 |
| 公開(公告)號(hào): | CN102411679A | 公開(公告)日: | 2012-04-11 |
| 發(fā)明(設(shè)計(jì))人: | 王樂珩;王文平;遲浩;吳妍潔;周郴;付巖;孫瑞祥;賀思敏 | 申請(qǐng)(專利權(quán))人: | 中國科學(xué)院計(jì)算技術(shù)研究所 |
| 主分類號(hào): | G06F19/18 | 分類號(hào): | G06F19/18 |
| 代理公司: | 北京律誠同業(yè)知識(shí)產(chǎn)權(quán)代理有限公司 11006 | 代理人: | 祁建國;梁揮 |
| 地址: | 100080 北*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 蛋白質(zhì) 鑒定 大規(guī)模 分布式 并行 加速 方法 及其 系統(tǒng) | ||
1.一種蛋白質(zhì)鑒定的大規(guī)模分布式并行加速方法,其特征在于,包括:
步驟1,輸入蛋白質(zhì)序列,采用并行處理方法對(duì)所述蛋白質(zhì)序列進(jìn)行理論酶切得到肽序列,對(duì)所述肽序列按照理論母離子質(zhì)量進(jìn)行排序、去冗余處理,以創(chuàng)建肽索引文件塊,并根據(jù)所述肽索引文件塊生成肽索引元數(shù)據(jù)文件;
步驟2,輸入質(zhì)譜譜圖,采用并行處理方法對(duì)所述質(zhì)譜譜圖按照實(shí)驗(yàn)?zāi)鸽x子質(zhì)量進(jìn)行排序,并將排序后的質(zhì)譜譜圖進(jìn)行平均劃分,得到多個(gè)譜圖數(shù)據(jù)塊,并根據(jù)所述譜圖數(shù)據(jù)塊生成質(zhì)譜元數(shù)據(jù)文件;
步驟3,將所述譜圖數(shù)據(jù)塊平均分配給多個(gè)主進(jìn)程,各主進(jìn)程管理多個(gè)從進(jìn)程,各主進(jìn)程對(duì)所分配的譜圖數(shù)據(jù)塊進(jìn)行排序,依次指派給空閑的從進(jìn)程進(jìn)行肽譜匹配鑒定,并當(dāng)所述肽索引文件塊不止一塊時(shí),將同一個(gè)所述譜圖數(shù)據(jù)塊分配給多個(gè)從進(jìn)程,由該多個(gè)從進(jìn)程遍歷單塊所述肽索引文件塊進(jìn)行肽譜匹配鑒定;
步驟4,采用并行處理方法,匯總鑒定結(jié)果,利用鑒定到的肽序列推斷對(duì)應(yīng)的蛋白質(zhì)序列,生成輸出文件。
2.根據(jù)權(quán)利要求1所述的蛋白質(zhì)鑒定的大規(guī)模分布式并行加速方法,其特征在于,
所述步驟1中,還包括:
11,將所述蛋白質(zhì)序列平均劃分為多個(gè)蛋白質(zhì)序列子文件,每個(gè)所述蛋白質(zhì)序列子文件的容量小于集群節(jié)點(diǎn)的本地存儲(chǔ)器空間;
12,對(duì)每個(gè)所述蛋白質(zhì)序列子文件由一個(gè)肽索引映射處理器進(jìn)程處理,所述肽索引映射處理器進(jìn)程之間相互獨(dú)立并行處理,所述肽索引映射處理器進(jìn)程將所處理的蛋白質(zhì)序列子文件中的每一條蛋白質(zhì)序列依次進(jìn)行理論酶切得到肽序列,再將所述肽序列按照質(zhì)量范圍劃分到相應(yīng)的隊(duì)列中,去除冗余肽序列后,將各個(gè)隊(duì)列存儲(chǔ)到不同的肽序列中間文件;
13,對(duì)不同的質(zhì)量范圍,每個(gè)質(zhì)量范圍由一個(gè)肽索引歸約處理器進(jìn)程處理,所述肽索引歸約處理器進(jìn)程之間相互獨(dú)立并行處理,所述肽索引歸約處理器進(jìn)程讀取本質(zhì)量范圍內(nèi)的所有肽序列中間文件中的肽序列,并先按照理論母離子質(zhì)量大小排列,當(dāng)所述肽序列的理論母離子質(zhì)量相同時(shí),再根據(jù)所述肽序列的字符串的常規(guī)英文字典序排序,排序后去除冗余,創(chuàng)建肽索引文件塊;
14,收集所有所述肽索引文件塊的信息,并根據(jù)所述信息生成所述肽索引元數(shù)據(jù)文件。
3.根據(jù)權(quán)利要求2所述的蛋白質(zhì)鑒定的大規(guī)模分布式并行加速方法,其特征在于,
所述步驟12中,還包括:
當(dāng)所述蛋白質(zhì)序列子文件的個(gè)數(shù)大于集群中處理器核的個(gè)數(shù)時(shí),或大于所述肽索引映射處理器進(jìn)程數(shù)時(shí),對(duì)所述蛋白質(zhì)序列子文件進(jìn)行多輪處理,完成任務(wù)的肽索引映射處理器進(jìn)程繼續(xù)領(lǐng)取新任務(wù),先到先得,直到所有蛋白質(zhì)序列子文件都處理完。
4.根據(jù)權(quán)利要求2所述的蛋白質(zhì)鑒定的大規(guī)模分布式并行加速方法,其特征在于,
所述步驟13中,還包括:
當(dāng)所述質(zhì)量范圍的個(gè)數(shù)大于集群中處理器核的個(gè)數(shù)時(shí),或大于所述肽索引歸約處理器進(jìn)程數(shù)時(shí),對(duì)所述質(zhì)量范圍進(jìn)行多輪處理,完成任務(wù)的肽索引歸約處理器進(jìn)程繼續(xù)領(lǐng)取新任務(wù),先到先得,直到所有所述肽序列中間文件都處理完。
5.根據(jù)權(quán)利要求1、2、3或4所述的蛋白質(zhì)鑒定的大規(guī)模分布式并行加速方法,其特征在于,
所述步驟2中,還包括:
21,解析所述質(zhì)譜譜圖,將所述質(zhì)譜譜圖平均劃分為多個(gè)原始數(shù)據(jù)塊,每個(gè)所述原始數(shù)據(jù)塊的容量小于集群節(jié)點(diǎn)的本地存儲(chǔ)器空間;
22,對(duì)每個(gè)所述原始數(shù)據(jù)塊由一個(gè)譜圖映射處理器進(jìn)程處理,所述譜圖映射處理器進(jìn)程依次讀入所處理的原始數(shù)據(jù)塊中的每一張質(zhì)譜譜圖,按照質(zhì)量范圍將所述質(zhì)譜譜圖劃分到相應(yīng)的隊(duì)列中,再將各個(gè)隊(duì)列存儲(chǔ)到不同的譜圖中間文件中;
23,對(duì)不同的質(zhì)量范圍,每個(gè)質(zhì)量范圍由一個(gè)譜圖歸約處理器進(jìn)程處理,所述譜圖歸約處理器進(jìn)程之間相互獨(dú)立并行處理,所述譜圖歸約處理器進(jìn)程將讀取本質(zhì)量范圍內(nèi)的所有譜圖中間文件,對(duì)輸入的質(zhì)譜譜圖先按實(shí)驗(yàn)?zāi)鸽x子質(zhì)量大小排列,當(dāng)實(shí)驗(yàn)?zāi)鸽x子質(zhì)量相同時(shí),再根據(jù)譜圖標(biāo)題名的常規(guī)英文字典序排序,排序后依次存入多塊譜圖數(shù)據(jù)塊,每塊中包含的質(zhì)譜譜圖數(shù)目相等;
24,收集所有所述質(zhì)譜數(shù)據(jù)塊的信息,并根據(jù)所述信息生成所述質(zhì)譜元數(shù)據(jù)文件。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國科學(xué)院計(jì)算技術(shù)研究所,未經(jīng)中國科學(xué)院計(jì)算技術(shù)研究所許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201010292031.0/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種手提袋音箱
- 下一篇:1-甲基異喹啉的制備方法
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F19-00 專門適用于特定應(yīng)用的數(shù)字計(jì)算或數(shù)據(jù)處理的設(shè)備或方法
G06F19-10 .生物信息學(xué),即計(jì)算分子生物學(xué)中的遺傳或蛋白質(zhì)相關(guān)的數(shù)據(jù)處理方法或系統(tǒng)
G06F19-12 ..用于系統(tǒng)生物學(xué)的建模或仿真,例如:概率模型或動(dòng)態(tài)模型,遺傳基因管理網(wǎng)絡(luò),蛋白質(zhì)交互作用網(wǎng)絡(luò)或新陳代謝作用網(wǎng)絡(luò)
G06F19-14 ..用于發(fā)展或進(jìn)化的,例如:進(jìn)化的保存區(qū)域決定或進(jìn)化樹結(jié)構(gòu)
G06F19-16 ..用于分子結(jié)構(gòu)的,例如:結(jié)構(gòu)排序,結(jié)構(gòu)或功能關(guān)系,蛋白質(zhì)折疊,結(jié)構(gòu)域拓?fù)洌媒Y(jié)構(gòu)數(shù)據(jù)的藥靶,涉及二維或三維結(jié)構(gòu)的
G06F19-18 ..用于功能性基因組學(xué)或蛋白質(zhì)組學(xué)的,例如:基因型–表型關(guān)聯(lián),不均衡連接,種群遺傳學(xué),結(jié)合位置鑒定,變異發(fā)生,基因型或染色體組的注釋,蛋白質(zhì)相互作用或蛋白質(zhì)核酸的相互作用
- 細(xì)菌鑒定裝置
- 一種移動(dòng)式藝術(shù)品遠(yuǎn)程鑒定方法及系統(tǒng)
- 物品鑒定方法、裝置、區(qū)塊鏈節(jié)點(diǎn)設(shè)備及可讀存儲(chǔ)介質(zhì)
- 一種基于鑒定扣的交易方法、裝置和計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 疾病鑒定數(shù)據(jù)處理方法、裝置、存儲(chǔ)介質(zhì)及電子設(shè)備
- 樣本鑒定方法及系統(tǒng)
- 一種扁豆菌核病的分子鑒定引物及鑒定方法
- 一種基于區(qū)塊鏈的藝術(shù)品鑒定方法及平臺(tái)
- 核電廠環(huán)境鑒定設(shè)備可延續(xù)使用的評(píng)估方法
- 西瓜種子純度的葉形鑒定方法





