[發明專利]一種蛋白質鑒定的大規模分布式并行加速方法及其系統有效
| 申請號: | 201010292032.5 | 申請日: | 2010-09-26 |
| 公開(公告)號: | CN102411680A | 公開(公告)日: | 2012-04-11 |
| 發明(設計)人: | 王樂珩;王文平;遲浩;吳妍潔;周郴;付巖;孫瑞祥;賀思敏 | 申請(專利權)人: | 中國科學院計算技術研究所 |
| 主分類號: | G06F19/18 | 分類號: | G06F19/18 |
| 代理公司: | 北京律誠同業知識產權代理有限公司 11006 | 代理人: | 祁建國;梁揮 |
| 地址: | 100080 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 蛋白質 鑒定 大規模 分布式 并行 加速 方法 及其 系統 | ||
1.一種蛋白質鑒定的大規模分布式并行加速方法,其特征在于,包括:
步驟1,輸入蛋白質序列,對所述蛋白質序列進行理論酶切得到肽序列,對所述肽序列按照理論母離子質量進行排序、去冗余處理,以創建肽索引文件塊,并根據所述肽索引文件塊生成肽索引元數據文件;
步驟2,輸入質譜譜圖,采用并行處理方法對所述質譜譜圖按照實驗母離子質量進行排序,并將排序后的質譜譜圖進行平均劃分,得到多個譜圖數據塊,并根據所述譜圖數據塊生成質譜元數據文件;
步驟3,將所述譜圖數據塊平均分配給多個主進程,各主進程管理多個從進程,各主進程對所分配的譜圖數據塊進行排序,依次指派給空閑的從進程進行肽譜匹配鑒定,并當所述肽索引文件塊不止一塊時,將同一個所述譜圖數據塊分配給多個從進程,由該多個從進程遍歷單塊所述肽索引文件塊進行肽譜匹配鑒定;
步驟4,采用并行處理方法,匯總鑒定結果,利用鑒定到的肽序列推斷對應的蛋白質序列,生成輸出文件。
2.根據權利要求1所述的蛋白質鑒定的大規模分布式并行加速方法,其特征在于,
所述步驟2中,還包括:
21,解析所述質譜譜圖,將所述質譜譜圖平均劃分為多個原始數據塊,每個所述原始數據塊的容量小于集群節點的本地存儲器空間;
22,對每個所述原始數據塊由一個譜圖映射處理器進程處理,所述譜圖映射處理器進程依次讀入所處理的原始數據塊中的每一張質譜譜圖,按照質量范圍將所述質譜譜圖劃分到相應的隊列中,再將各個隊列存儲到不同的譜圖中間文件中;
23,對不同的質量范圍,每個質量范圍由一個譜圖歸約處理器進程處理,所述譜圖歸約處理器進程之間相互獨立并行處理,所述譜圖歸約處理器進程將讀取本質量范圍內的所有譜圖中間文件,對輸入的質譜譜圖先按實驗母離子質量大小排列,當實驗母離子質量相同時,再根據譜圖標題名的常規英文字典序排序,排序后依次存入多塊譜圖數據塊,每塊中包含的質譜譜圖數目相等;
24,收集所有所述質譜數據塊的信息,并根據所述信息生成所述質譜元數據文件。
3.根據權利要求2所述的蛋白質鑒定的大規模分布式并行加速方法,其特征在于,
所述步驟22中,還包括:
當所述原始數據塊的個數大于集群中處理器核的個數時,或大于所述譜圖映射處理器進程數時,對所述原始數據塊進行多輪處理,完成任務的譜圖映射處理器進程繼續領取新任務,先到先得,直到所有所述原始數據塊都處理完。
4.根據權利要求2所述的蛋白質鑒定的大規模分布式并行加速方法,其特征在于,
所述步驟23中,還包括:
當所述質量范圍的個數大于集群中處理器核的個數時,或大于所述譜圖歸約處理器進程數時,對所述質量范圍進行多輪處理,完成任務的譜圖歸約處理器進程繼續領取新任務,先到先得,直到所有所述譜圖中間文件都處理完。
5.根據權利要求1、2、3或4所述的蛋白質鑒定的大規模分布式并行加速方法,其特征在于,
所述步驟3中,所述主進程指派空閑的從進程進行肽譜匹配鑒定的步驟包括:
所述主進程讀入所述質譜元數據文件和所述肽索引元數據文件,根據得到的統計信息,將分配給自己負責鑒定的所述譜圖數據塊按照質量范圍從高到低排序,依次指派給所述從進程,如果所述肽索引文件塊為多塊,則同一所述譜圖數據塊被指派多次,每次對應一塊肽索引文件塊;所述從進程采用先到先得的方式領取任務,每當鑒定任務完成,存入鑒定結果子塊,與所述主進程通訊,發回所述鑒定結果子塊的文件名,并索要下一步任務對應的譜圖數據塊和肽索引文件塊的信息,直到完成所有譜圖數據塊的鑒定。
6.根據權利要求5所述的蛋白質鑒定的大規模分布式并行加速方法,其特征在于,
所述步驟3中,所述從進程進行肽譜匹配鑒定的步驟包括:
所述從進程讀入所述肽索引文件塊,在原始肽序列的基礎上計算出所發生修飾變化的可能情況,利用待鑒定的譜圖數據塊中的母離子質量誤差窗口尋找符合設定質量范圍的修飾肽序列,將符合要求的修飾肽序列輸入給肽譜匹配打分算法以實現對肽序列的鑒定。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院計算技術研究所,未經中國科學院計算技術研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201010292032.5/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:具發光功能的化妝品盒
- 下一篇:一種應用甘草提升煙梗品質的方法
- 同類專利
- 專利分類
G06F 電數字數據處理
G06F19-00 專門適用于特定應用的數字計算或數據處理的設備或方法
G06F19-10 .生物信息學,即計算分子生物學中的遺傳或蛋白質相關的數據處理方法或系統
G06F19-12 ..用于系統生物學的建模或仿真,例如:概率模型或動態模型,遺傳基因管理網絡,蛋白質交互作用網絡或新陳代謝作用網絡
G06F19-14 ..用于發展或進化的,例如:進化的保存區域決定或進化樹結構
G06F19-16 ..用于分子結構的,例如:結構排序,結構或功能關系,蛋白質折疊,結構域拓撲,用結構數據的藥靶,涉及二維或三維結構的
G06F19-18 ..用于功能性基因組學或蛋白質組學的,例如:基因型–表型關聯,不均衡連接,種群遺傳學,結合位置鑒定,變異發生,基因型或染色體組的注釋,蛋白質相互作用或蛋白質核酸的相互作用





