[發明專利]水平轉移基因的預測有效
| 申請號: | 201210170762.7 | 申請日: | 2012-05-29 |
| 公開(公告)號: | CN103294934B | 公開(公告)日: | 2018-02-23 |
| 發明(設計)人: | 沙米拉·謝克哈·馬休;瓦倫·梅拉;塔里尼·山卡·果時 | 申請(專利權)人: | 塔塔咨詢服務有限公司 |
| 主分類號: | G06F19/18 | 分類號: | G06F19/18 |
| 代理公司: | 廣州粵高專利商標代理有限公司44102 | 代理人: | 倪小敏 |
| 地址: | 印度*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 水平 轉移 基因 預測 | ||
1.一種識別水平轉移基因的方法,所述方法包括:
在三維空間內界定一個立方體,其中所述立方體包括對應于來自多個測序的微生物基因組的基因組片段的片段點;
將所述立方體劃分成多個網格;
從所述多個網格中選擇對應于一個選定基因組的一個或多個網格;
基于多個閾值,其中第一閾值界定在網格中對應于選定基因組的片段點的最小數目,該網格被分類成少數網格,其中第二閾值界定在網格中對應于選定基因組的片段點的最大數目,該第二閾值用于待被分類為多數網格的網格,其中第三閾值界定在網格中對應于選定基因組的片段點的數目,該第三閾值小于第二閾值并大于第一閾值,該網格被分類成混合網格;將每個被選擇的網格分類成多數網格、少數網格和混合網格中的一種;以及
基于距離比評價,從所述少數網格和所述混合網格中識別出對應所述水平轉移基因的至少一個成分上不同的基因組片段作為水平轉移基因片段。
2.如權利要求1所述的方法,所述方法進一步包括基于一組參考點將所述基因組片段轉換為片段點。
3.如權利要求2所述的方法,其中所述一組參考點是通過計算由多個參考基因組確定的單位聚類向量間的成對點產物而獲得的。
4.如權利要求1所述的方法,其中所述劃分包括利用第二組參考點將多個網格中的密集網格劃分成多個較小網格,其中密集網格中的片段點的數目大于基因組片段總數的預定百分比。
5.如權利要求1所述的方法,其中所述分類包括基于四分位值和基因組特異值計算用于分類一個或多個被選擇的網格的閾值,其中選定基因組的基因組特異值基于被屬于選定基因組的片段點占據的網格的數目和選定基因組的尺寸。
6.如權利要求1所述的方法,其中所述距離比評價包括對每個鄰網格計算出一個片段點到主網格的質心的距離與主網格質心到該鄰網格質心的距離之間的比率,其中主網格涉及基因組的片段點所在的網格,并且鄰網格涉及鄰近主網格的網格。
7.如權利要求6所述的方法,其中對應于一個基因組片段的每個片段點,對于每個鄰網格距離比都小于預定值,則被識別為屬于水平轉移基因。
8.如權利要求6所述的方法,所述方法進一步包括將一個置信度值與所識別的水平轉移基因片段相關聯,其中所述置信度值是通過計算對應水平轉移基因片段的片段點在多個二維平面上的投影與該主網格的質心在多個二維平面上的投影之間的距離而獲得的。
9.如權利要求8所述的方法,其中通過疊加多個二維平面的置信度值而獲得的累積置信度值被等級標準化。
10.一種水平轉移基因(HGT)預測系統(100),其包括:
處理器(104);和
存儲器(106),其連接至所述處理器(104),所述存儲器(106)包括:
轉換模塊(112),其被配置用來:
基于從多個參考基因組(128)中獲得的一組參考點而將基因組片段轉換成三維空間內的片段點;
界定出包括所述片段點的立方體;和
將所述立方體劃分為網格,其中每個網格內的對應基因組片段的片段點的數目少于基因組片段總數的預定百分比;以及
HGT預測模塊(114),其被配置用來:
基于多個閾值,其中第一閾值界定在網格中對應于選定基因組的片段點的最小數目,該網格被分類成少數網格,其中第二閾值界定在網格中對應于選定基因組的片段點的最大數目,該第二閾值用于待被分類為多數網格的網格,其中第三閾值界定在網格中對應于選定基因組的片段點的數目,該第三閾值小于第二閾值并大于第一閾值,該網格被分類成混合網格;將每個被選擇的網格分類為少數網格、多數網格和混合網格中的一種;
基于被分類的對應于選定基因組的多個被選擇的網格,在少數網格和混合網格中識別出一個或多個水平轉移基因片段;和
將一個置信度值與每個水平轉移基因片段相關聯,其中置信度值是被識別的一個或多個水平轉移基因是真正的水平轉移基因的置信指數的衡量標準。
11.如權利要求10所述的一種水平轉移基因預測系統(100),其中所述轉換模塊(112)被進一步配置用來從基因組數據庫(124)中獲取多個基因組(126)和多個參考基因組(128)。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于塔塔咨詢服務有限公司,未經塔塔咨詢服務有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210170762.7/1.html,轉載請聲明來源鉆瓜專利網。
- 同類專利
- 專利分類
G06F 電數字數據處理
G06F19-00 專門適用于特定應用的數字計算或數據處理的設備或方法
G06F19-10 .生物信息學,即計算分子生物學中的遺傳或蛋白質相關的數據處理方法或系統
G06F19-12 ..用于系統生物學的建模或仿真,例如:概率模型或動態模型,遺傳基因管理網絡,蛋白質交互作用網絡或新陳代謝作用網絡
G06F19-14 ..用于發展或進化的,例如:進化的保存區域決定或進化樹結構
G06F19-16 ..用于分子結構的,例如:結構排序,結構或功能關系,蛋白質折疊,結構域拓撲,用結構數據的藥靶,涉及二維或三維結構的
G06F19-18 ..用于功能性基因組學或蛋白質組學的,例如:基因型–表型關聯,不均衡連接,種群遺傳學,結合位置鑒定,變異發生,基因型或染色體組的注釋,蛋白質相互作用或蛋白質核酸的相互作用





