[發明專利]一種基于間隙譜的生物序列分析方法無效
| 申請號: | 200810057200.5 | 申請日: | 2008-01-30 |
| 公開(公告)號: | CN101497924A | 公開(公告)日: | 2009-08-05 |
| 發明(設計)人: | 安冬;蘇謙 | 申請(專利權)人: | 中國農業大學 |
| 主分類號: | C12Q1/68 | 分類號: | C12Q1/68;G06F19/00 |
| 代理公司: | 北京路浩知識產權代理有限公司 | 代理人: | 王朋飛 |
| 地址: | 100083*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 間隙 生物 序列 分析 方法 | ||
技術領域
本發明屬于生物信息學領域,具體涉及一種生物序列的非比對的分析方法。
背景技術
眾所周知,生物序列包括核酸、氨基酸序列,含有大量生命信息。目前,生物序列測序已經不是一件難事。在國內外的各數據庫中,已積聚了海量的生物序列數據。為了使用好這些海量數據,揭示出生物序列數據背后更深層次的結構、功能信息,產生了計算機化的生物序列分析方法。傳統的計算機化的生物序列分析方法的基本思想是當兩個分子具有相似的序列時,它們很可能具有相似的三維結構和功能。因此,從數據庫中浩瀚的生物序列資源里搜索目的生物序列的同源序列,尋找保守的生物序列模式成為傳統生物序列分析的核心內容。根據同時進行比對的生物序列數目,序列比對分為雙序列比對和多序列比對。序列比對也可分為全局比對和局部比對,全局比對考慮序列的全局相似性,局部比對考慮序列片段之間的相似性。
用于雙序列比對的算法開發于19世紀70年代,開始于由Needleman和Wunsch提出的全局序列比對Needleman-Wunsch算法。Needleman-Wunsch算法的主要思想是利用動態規劃的方法計算兩條序列之間的最佳比對。根據動態規劃算法的復雜性分析,動態規劃算法的運算速度與待檢序列的長度和數據庫大小密切相關。因此對于大規模生物序列的分析,Needleman-Wunsch算法的時間復雜性和空間復雜性都很高。至19世紀80年代,Smith和Waterman提出了局部序列比對的Smith-Waterman算法。Smith-Waterman算法與Needleman-Wunsch算法相似,也存在計算速度慢的問題。
目前,FASTA算法和BLAST算法是替代Smith-Waterman算法的兩個流行的局部序列比對算法。與Smith-Waterman算法不同,雖然它們的計算速度比較快,但不能保證找到最佳比對,即靈敏度低。
雖然雙序列比對是傳統生物序列分析的基礎,但對于成組序列,必須進行多序列比對。在目前發展的眾多多序列比對方法中,最常用的是來自Da-Fei?Feng和Russell?Doolittle的Clustal算法。這種方法需要先對所有的序列計算兩兩比對的分值,然后從關系最近的一對序列開始,逐步加入其他序列。ClustalW是最常用的多序列比對程序之一。多序列比對方法同樣不能同時保證計算的高速度和高靈敏度。
人們應用基于序列相似性的傳統序列比對分析方法成功地預測出一部分基因的結構和功能。但是隨著研究的深入,發現相當一部分功能相似的分子之間并不存在保守序列或共同的功能結構域,如RNA沉默抑制子。這就決定了無法利用基于序列相似性的傳統方法來研究這些分子的結構和功能。并且,傳統的計算機化生物序列分析是以犧牲靈敏度來換取速度提高的。在處理海量數據時,也不能同時滿足高速度和高靈敏度。
發明內容
本發明的目的是提供一種高速度、高靈敏度和高準確性的生物序列的分析方法。
為了實現本發明的目的,本發明的一種生物序列的分析方法,其包括如下步驟:
(1)、計算生物序列的間隙譜:計算生物序列中字符之間的距離,分別統計字符之間相同距離的出現頻率,構成間隙譜;
(2)、計算不同生物序列間的相似度;
(3)、推導不同生物序列的同源性或生物學功能:根據步驟(2)計算得到的相似度,如果相似性高,則推導這些生物序列之間可能具有同源性,或可能具有相似的生物學功能。
所述的步驟(1)后還包括如下步驟(1)′:①將間隙譜中的頻率數據進行歸一化,得到歸一化后的頻率數據;②計算間隙譜中頻率最大值、最小值、均值、中位值、方差中的一種或多種;③將步驟①②得到的數據依次排列組合成一個特征向量,表示一條生物序列,再用線性相關系數或距離法計算不同生物序列間的相似度。
所述的步驟(1)′還包括如下步驟統計歸一化后的間隙譜中字符相同距離出現的頻率值的高低或者差別,如果在不同生物序列的間隙譜中,某一字符對的某一頻率值都較高,則這一字符對是這些生物序列的一種相似(保守)序列模式;如果這一頻率值在不同生物序列中差別較大,則這一頻率值對應的字符對是這些生物序列的一種差別序列模式。
所述的步驟②還包括計算間隙譜中出現頻率最大值、最小值時字符之間的距離。
所述的計算生物序列中字符之間的距離的方法包括如下步驟:
在用一維坐標標識的長度為n的生物序列中,沿正鏈方向或反鏈方向找到第一次出現某特定字符的坐標;
沿著該方向找到第二次、第三次、直至第p(p≤n)次出現某特定字符坐標;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國農業大學,未經中國農業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200810057200.5/2.html,轉載請聲明來源鉆瓜專利網。





