[發明專利]一種生物病毒的計算機自動分類方法無效
| 申請號: | 200710100246.6 | 申請日: | 2007-06-06 |
| 公開(公告)號: | CN101320404A | 公開(公告)日: | 2008-12-10 |
| 發明(設計)人: | 王守覺;貊睿 | 申請(專利權)人: | 中國科學院半導體研究所 |
| 主分類號: | G06F19/00 | 分類號: | G06F19/00 |
| 代理公司: | 中科專利商標代理有限責任公司 | 代理人: | 周國城 |
| 地址: | 100083北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 生物 病毒 計算機 自動 分類 方法 | ||
技術領域
本發明涉及生物信息學技術領域,尤其涉及一種生物病毒的計算機自動分類方法。
背景技術
隨著基因組計劃的實施,產生了海量生物序列數據,研究如何去組織、分類和分析那些隨著基因工程而產生的海量的生物序列數據是一項重要的工作。
雖然確定生物分子結構和功能最可靠的方式依然是通過直接的生物實驗,但是因為獲得DNA基因序列以及相應的RNA和蛋白質序列比通過生物試驗確定它們的結構和功能容易的多,所以研究如何能從這些生物序列獲取生物信息的計算方法就變得十分有意義。
長期以來病毒的分類主要依靠形態學方法,隨著分子生物學和生物信息學的發展,從分子水平上研究物種進化成為可能,這為研究病毒分類提供了新的途徑。
早期的研究工作主要是利用不同物種中同一基因序列的異同或其編碼的氨基酸序列的異同來研究生物的進化,以及通過對比不同物種中同一蛋白質的結構來研究生物的進化,取得了相當的成果。因為生物的所有遺傳信息都包含在其全基因組序列中,所以如果能從完整基因組的角度來研究物種進化,將會取得更好的效果。
近年來,由于較多模式生物基因組測序任務的完成,為從整個基因組的角度來研究分子進化提供了條件。
目前,最流行的研究病毒進化關系的辦法是通過多重序列比對(MSA)的方法。然而使用這種方法無論是去研究全基因組序列還是研究基因序列中編碼氨基酸的區域,都有非常明顯的缺陷。
如果研究編碼區,進行序列分析的時候將被限定在基因序列中特定的區域。為此,我們必須首先知道基因序列中,哪一部分是編碼區,而且我們還必須通過主觀決定選擇哪些區域來比較,選擇不同的區域將會產生不同的進化樹。如果參與比對的多個序列在長度上差異很大或者序列之間的相似程度很低,都會導致多重序列比對得到的結果質量很差,從而產生不可信的進化樹。病毒在進化過程中通常會有基因重組的現象出現,這進一步使得多重序列比對的結果變得不可信。更重要的是,對很長的序列進行多序列比對,計算時間復雜度將會非常大,在實際中經常是不可能實現的。
盡管多重序列比對方法有可能為病毒種系分析提供很好的基準,它卻不適于被用來研究病毒分類問題,因為構建多重序列比對本身就是一個讓人困惑的問題。
發明內容
(一)要解決的技術問題
有鑒于此,本發明的主要目的在于提供一種生物病毒的計算機自動分類方法,使利用計算機實現生物病毒的自動分類成為可能,為病毒的研究提供更便捷的方式和更廣闊的空間。
(二)技術方案
為達到上述目的,本發明提供了一種生物病毒的計算機自動分類方法,該方法包括:
A、對病毒的全基因組序列進行特征提取,將病毒序列映射到特征空間;
B、對所述特征空間的某類病毒類型樣本構建種系進化樹;
C、根據所述種系進化樹反映的同類型病毒樣本之間的相互關系,采用超橢球對每類樣本子空間進行近似覆蓋;
D、形成封閉的同類病毒的樣本子空間。
上述方案中,所述步驟A包括:通過統計多核苷酸出現頻率及全基因組序列長度,將不同長度的病毒全基因組序列映射到同一特征空間中。
上述方案中,所述步驟B包括:通過計算病毒在特征空間的歐式距離,近似描述同類病毒在進化上的遠近關系。
上述方案中,所述步驟C包括:按照構建的種系進化樹關系,采用超橢球這一幾何形體對該類病毒樣本子空間進行近似覆蓋。
上述方案中,所述步驟D包括:所有映射點落在這個封閉子空間里的病毒都屬于同一類,而映射點落在封閉子空間以外的病毒都屬于其它類。
(三)有益效果
從上述技術方案可以看出,本發明具有以下有益效果:
1、本發明提出了基于序列特征來進行全基因組序列比較的方法,使利用計算機實現生物病毒的自動分類成為了可能,為病毒的研究提供了更便捷的方式和更廣闊的空間,不再必須依靠直接的生物試驗。
2、利用本發明,只需知道病毒的全基因組序列即可,這在病毒研究中幾乎是最容易獲得的數據。
3、利用本發明,通過訓練樣本得到的樣本子空間是一個封閉的有限空間,這符合知道的是“有限的”,未知的是“無限的”這一基本事實。
4、利用本發明,在構建某一類病毒的識別系統的時候,只用到了本類的樣本,這就保證了,在繼續往系統中添加新的需要識別的病毒類的時候,不用改變以前已經構建好的部分,這是一個可以增量學習的分類系統。
附圖說明
圖1為本發明提供的生物病毒的計算機自動分類的方法流程圖;
圖2為依照本發明實施例對序列進行特征提取的示意圖;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院半導體研究所,未經中國科學院半導體研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200710100246.6/2.html,轉載請聲明來源鉆瓜專利網。
- 同類專利
- 專利分類
G06F 電數字數據處理
G06F19-00 專門適用于特定應用的數字計算或數據處理的設備或方法
G06F19-10 .生物信息學,即計算分子生物學中的遺傳或蛋白質相關的數據處理方法或系統
G06F19-12 ..用于系統生物學的建模或仿真,例如:概率模型或動態模型,遺傳基因管理網絡,蛋白質交互作用網絡或新陳代謝作用網絡
G06F19-14 ..用于發展或進化的,例如:進化的保存區域決定或進化樹結構
G06F19-16 ..用于分子結構的,例如:結構排序,結構或功能關系,蛋白質折疊,結構域拓撲,用結構數據的藥靶,涉及二維或三維結構的
G06F19-18 ..用于功能性基因組學或蛋白質組學的,例如:基因型–表型關聯,不均衡連接,種群遺傳學,結合位置鑒定,變異發生,基因型或染色體組的注釋,蛋白質相互作用或蛋白質核酸的相互作用





