[發(fā)明專利]一種蛋白質鑒定的大規(guī)模分布式并行加速方法及其系統(tǒng)有效
| 申請?zhí)枺?/td> | 201010292060.7 | 申請日: | 2010-09-26 |
| 公開(公告)號: | CN102411666A | 公開(公告)日: | 2012-04-11 |
| 發(fā)明(設計)人: | 王樂珩;王文平;遲浩;吳妍潔;周郴;付巖;孫瑞祥;賀思敏 | 申請(專利權)人: | 中國科學院計算技術研究所 |
| 主分類號: | G06F19/00 | 分類號: | G06F19/00;G06F17/30 |
| 代理公司: | 北京律誠同業(yè)知識產權代理有限公司 11006 | 代理人: | 祁建國;梁揮 |
| 地址: | 100080 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 蛋白質 鑒定 大規(guī)模 分布式 并行 加速 方法 及其 系統(tǒng) | ||
1.一種蛋白質鑒定的大規(guī)模分布式并行加速方法,其特征在于,包括:
步驟1,輸入蛋白質序列,采用并行處理方法對所述蛋白質序列進行理論酶切得到肽序列,對所述肽序列按照理論母離子質量進行排序、去冗余處理,以創(chuàng)建肽索引文件塊,并根據(jù)所述肽索引文件塊生成肽索引元數(shù)據(jù)文件;
步驟2,輸入質譜譜圖,對所述質譜譜圖按照實驗母離子質量進行排序,并將排序后的質譜譜圖進行平均劃分,得到多個譜圖數(shù)據(jù)塊,并根據(jù)所述譜圖數(shù)據(jù)塊生成質譜元數(shù)據(jù)文件;
步驟3,將所述譜圖數(shù)據(jù)塊平均分配給多個主進程,各主進程管理多個從進程,各主進程對所分配的譜圖數(shù)據(jù)塊進行排序,依次指派給空閑的從進程進行肽譜匹配鑒定,并當所述肽索引文件塊不止一塊時,將同一個所述譜圖數(shù)據(jù)塊分配給多個從進程,由該多個從進程遍歷單塊所述肽索引文件塊進行肽譜匹配鑒定;
步驟4,采用并行處理方法,匯總鑒定結果,利用鑒定到的肽序列推斷對應的蛋白質序列,生成輸出文件。
2.根據(jù)權利要求1所述的蛋白質鑒定的大規(guī)模分布式并行加速方法,其特征在于,
所述步驟1中,還包括:
11,將所述蛋白質序列平均劃分為多個蛋白質序列子文件,每個所述蛋白質序列子文件的容量小于集群節(jié)點的本地存儲器空間;
12,對每個所述蛋白質序列子文件由一個肽索引映射處理器進程處理,所述肽索引映射處理器進程之間相互獨立并行處理,所述肽索引映射處理器進程將所處理的蛋白質序列子文件中的每一條蛋白質序列依次進行理論酶切得到肽序列,再將所述肽序列按照質量范圍劃分到相應的隊列中,去除冗余肽序列后,將各個隊列存儲到不同的肽序列中間文件;
13,對不同的質量范圍,每個質量范圍由一個肽索引歸約處理器進程處理,所述肽索引歸約處理器進程之間相互獨立并行處理,所述肽索引歸約處理器進程讀取本質量范圍內的所有肽序列中間文件中的肽序列,并先按照理論母離子質量大小排列,當所述肽序列的理論母離子質量相同時,再根據(jù)所述肽序列的字符串的常規(guī)英文字典序排序,排序后去除冗余,創(chuàng)建肽索引文件塊;
14,收集所有所述肽索引文件塊的信息,并根據(jù)所述信息生成所述肽索引元數(shù)據(jù)文件。
3.根據(jù)權利要求2所述的蛋白質鑒定的大規(guī)模分布式并行加速方法,其特征在于,
所述步驟12中,還包括:
當所述蛋白質序列子文件的個數(shù)大于集群中處理器核的個數(shù)時,或大于所述肽索引映射處理器進程數(shù)時,對所述蛋白質序列子文件進行多輪處理,完成任務的肽索引映射處理器進程繼續(xù)領取新任務,先到先得,直到所有蛋白質序列子文件都處理完。
4.根據(jù)權利要求2所述的蛋白質鑒定的大規(guī)模分布式并行加速方法,其特征在于,
所述步驟13中,還包括:
當所述質量范圍的個數(shù)大于集群中處理器核的個數(shù)時,或大于所述肽索引歸約處理器進程數(shù)時,對所述質量范圍進行多輪處理,完成任務的肽索引歸約處理器進程繼續(xù)領取新任務,先到先得,直到所有所述肽序列中間文件都處理完。
5.根據(jù)權利要求1、2、3或4所述的蛋白質鑒定的大規(guī)模分布式并行加速方法,其特征在于,
所述步驟3中,所述主進程指派空閑的從進程進行肽譜匹配鑒定的步驟包括:
所述主進程讀入所述質譜元數(shù)據(jù)文件和所述肽索引元數(shù)據(jù)文件,根據(jù)得到的統(tǒng)計信息,將分配給自己負責鑒定的所述譜圖數(shù)據(jù)塊按照質量范圍從高到低排序,依次指派給所述從進程,如果所述肽索引文件塊為多塊,則同一所述譜圖數(shù)據(jù)塊被指派多次,每次對應一塊肽索引文件塊;所述從進程采用先到先得的方式領取任務,每當鑒定任務完成,存入鑒定結果子塊,與所述主進程通訊,發(fā)回所述鑒定結果子塊的文件名,并索要下一步任務對應的譜圖數(shù)據(jù)塊和肽索引文件塊的信息,直到完成所有譜圖數(shù)據(jù)塊的鑒定。
6.根據(jù)權利要求5所述的蛋白質鑒定的大規(guī)模分布式并行加速方法,其特征在于,
所述步驟3中,所述從進程進行肽譜匹配鑒定的步驟包括:
所述從進程讀入肽索引文件塊,在原始肽序列的基礎上計算出所發(fā)生修飾變化的可能情況,利用待鑒定的譜圖數(shù)據(jù)塊中的母離子質量誤差窗口尋找符合設定質量范圍的修飾肽序列,將符合要求的修飾肽序列輸入給肽譜匹配打分算法以實現(xiàn)對肽序列的鑒定。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院計算技術研究所,未經中國科學院計算技術研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201010292060.7/1.html,轉載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種高溫粘結劑及其制備方法和應用
- 下一篇:電泳顯示器的驅動方法和波形
- 同類專利
- 專利分類
G06F 電數(shù)字數(shù)據(jù)處理
G06F19-00 專門適用于特定應用的數(shù)字計算或數(shù)據(jù)處理的設備或方法
G06F19-10 .生物信息學,即計算分子生物學中的遺傳或蛋白質相關的數(shù)據(jù)處理方法或系統(tǒng)
G06F19-12 ..用于系統(tǒng)生物學的建模或仿真,例如:概率模型或動態(tài)模型,遺傳基因管理網(wǎng)絡,蛋白質交互作用網(wǎng)絡或新陳代謝作用網(wǎng)絡
G06F19-14 ..用于發(fā)展或進化的,例如:進化的保存區(qū)域決定或進化樹結構
G06F19-16 ..用于分子結構的,例如:結構排序,結構或功能關系,蛋白質折疊,結構域拓撲,用結構數(shù)據(jù)的藥靶,涉及二維或三維結構的
G06F19-18 ..用于功能性基因組學或蛋白質組學的,例如:基因型–表型關聯(lián),不均衡連接,種群遺傳學,結合位置鑒定,變異發(fā)生,基因型或染色體組的注釋,蛋白質相互作用或蛋白質核酸的相互作用





