[發明專利]一種宏基因組和宏轉錄組樣本相異度的比較方法有效
| 申請號: | 201610100159.X | 申請日: | 2016-02-24 |
| 公開(公告)號: | CN105787296B | 公開(公告)日: | 2018-07-17 |
| 發明(設計)人: | 王穎;廖偉楠;劉暾東 | 申請(專利權)人: | 廈門大學 |
| 主分類號: | G06F19/22 | 分類號: | G06F19/22 |
| 代理公司: | 廈門南強之路專利事務所(普通合伙) 35200 | 代理人: | 馬應森 |
| 地址: | 361005 *** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 樣本 相異 頻度向量 聚類 宏基因組 轉錄組 馬爾克夫模型 矩陣 矩陣生成 人工選擇 頻度 自動地 定階 概率 生物技術 統計 | ||
一種宏基因組和宏轉錄組樣本相異度的比較方法,涉及信息和生物技術。生成樣本的tuple頻度向量,對樣本中出現的長度為1~10的tuple的頻度進行統計,并生成相應樣本的頻度向量;計算tuple的馬爾克夫概率,基于變階次馬爾克夫模型估計頻度向量中每一個tuple的馬爾克夫概率;生成樣本間相異度矩陣,計算各個樣本頻度向量間的距離,生成一個樣本間的相異度矩陣;生成聚類樹,根據相異度矩陣生成一個聚類樹。無需人工選擇馬爾克夫階次,能根據數據特效自動地選擇馬爾克夫階次;對宏基因組和宏轉錄組數據的聚類效果明顯優于定階次馬爾克夫模型的聚類效果。
技術領域
本發明涉及信息和生物技術,尤其是涉及一種宏基因組和宏轉錄組樣本相異度的比較方法。
背景技術
微生物群落間的比較對于理解微生物和環境之間的關系至關重要。高通量測序技術已經成為表征微生物群落的一個強有力的工具。對于不同基因間的比較,基于配準的序列比較方法,如Smith-Waterman算法和Blast算法已經被廣泛應用。然而對于高通量測序數據,基于配準的方法變得不再適用,主要由于以下原因:首先,基于配準的方法高度依賴已知數據庫或已知基因,然而許多微生物的基因是未知的,這就影響了配準的準確性。其次,基于配準的方法要對短序列進行組裝,這項工程太耗時。因此,免配準的方法為基因間的比較提供了更好的選擇。k-tuple方法是一個經典的免配準方法。生物樣本是由A、C、G、T四種堿基組成的序列,因此可以看成是由A、C、G、T四種字符組成的文本序列。k-tuple是指長度為k的連續字符串。之前的研究表明,來自同一個基因組的k-tuple頻度相近,但不同基因組的k-tuple頻度有很大區別。因此,基于k-tuple頻度的相異度方法D2被提出用來評估比較兩個生物樣本之間的距離。此后,在D2基礎上改進的和相繼被提出用于比較樣本之間的距離。
用和計算距離時需要用到一個合適的背景模型。在之前的研究中,用到的是定階次馬爾克夫模型。然而由于微生物群落是各種基因組的混合物,很難用幾個確定的階次模擬背景模型。對于定階次馬爾克夫模型,階次越高模型越準確,然而階次越高,需要的數據量也越多,一般情況下,我們獲取的數據量是很難滿足需求的。
發明內容
本發明的目的是針對宏基因組合宏轉錄組樣本,提供一種宏基因組和宏轉錄組樣本相異度的比較方法。
本發明包括以下步驟:
步驟1:生成樣本的tuple頻度向量,對樣本中出現的長度為1~10的tuple的頻度進行統計,并生成相應樣本的頻度向量;
步驟2:計算tuple的馬爾克夫概率,基于變階次馬爾克夫模型估計頻度向量中每一個tuple的馬爾克夫概率;
步驟3:生成樣本間相異度矩陣,計算各個樣本頻度向量間的距離,生成一個樣本間的相異度矩陣;
步驟4:生成聚類樹,根據相異度矩陣生成一個聚類樹。
在步驟1中,所述樣本中可能出現的字符串組合為tuple元素,并選擇長度為1~10的字符串組合作為tuple元素。
在步驟2中,所述計算tuple的馬爾克夫概率的具體方法可為:
步驟2-1:基于樣本的頻度向量構建前綴樹;
步驟2-2:基于相對熵對所述前綴樹進行剪枝;
步驟2-3:基于剪枝后的前綴樹計算tuple的馬爾克夫概率。
在步驟2-1中,所述基于樣本的頻度向量構建前綴樹時,前綴樹父節點和子節點的關系是:子節點表示的tuple包含父節點表示的tuple,并且子節點tuple比父節點tuple多出的一個字符出現在父節點表示的tuple之前;例如,父節點tuple為CGT,則子節點tuple可能為ACGT,CCGT,TCGT或者GCGT。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廈門大學,未經廈門大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610100159.X/2.html,轉載請聲明來源鉆瓜專利網。
- 同類專利
- 專利分類
G06F 電數字數據處理
G06F19-00 專門適用于特定應用的數字計算或數據處理的設備或方法
G06F19-10 .生物信息學,即計算分子生物學中的遺傳或蛋白質相關的數據處理方法或系統
G06F19-12 ..用于系統生物學的建模或仿真,例如:概率模型或動態模型,遺傳基因管理網絡,蛋白質交互作用網絡或新陳代謝作用網絡
G06F19-14 ..用于發展或進化的,例如:進化的保存區域決定或進化樹結構
G06F19-16 ..用于分子結構的,例如:結構排序,結構或功能關系,蛋白質折疊,結構域拓撲,用結構數據的藥靶,涉及二維或三維結構的
G06F19-18 ..用于功能性基因組學或蛋白質組學的,例如:基因型–表型關聯,不均衡連接,種群遺傳學,結合位置鑒定,變異發生,基因型或染色體組的注釋,蛋白質相互作用或蛋白質核酸的相互作用





