[發明專利]一種病原微生物鑒定方法有效
| 申請號: | 202210344311.4 | 申請日: | 2022-04-02 |
| 公開(公告)號: | CN114496089B | 公開(公告)日: | 2022-07-15 |
| 發明(設計)人: | 王輝;郭一凡;孫世俊;尹玉瑤 | 申請(專利權)人: | 北京大學人民醫院 |
| 主分類號: | G16B30/10 | 分類號: | G16B30/10;G16B40/00 |
| 代理公司: | 北京領創律師事務所 11778 | 代理人: | 沈斌;習文峰 |
| 地址: | 100044 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 病原微生物 鑒定 方法 | ||
本發明提供一種微生物鑒定方法,所述方法通過對測序數據進行數據獲取、數據過濾、數據聚類、序列選取、數據比對、物種比對和多重比對結果分析等步驟,實現縮短微生物鑒定分析時間,同時保證鑒定準確性。
技術領域
本發明屬于生信分析領域,具體涉及一種病原微生物鑒定方法。
背景技術
宏基因組學是由Handelman最先提出的一種直接對微生物群體中包含的全部基因組信息進行研究的手段。之后,Kevin等對Metagenomics進行了定義,即“繞過對微生物個體進行分離培養,應用基因組學技術對自然環境中的微生物群落進行研究的學科”。它規避了對樣品的微生物進行分離培養,提供了一種對不可分離培養的微生物進行研究的路徑,更真實的反應了樣本中微生物的組成。
在危急重癥感染中,患者往往因為遺傳性疾病,腫瘤,營養不良,器官移植,藥物等因素導致免疫缺陷,除了遭受普通感染外,尤其容易受到機會性感染,即條件致病菌引起的感染。這類感染涉及的微生物種類復雜,不能根據經驗提前預判,常規檢測方法無法覆蓋,相比之下宏基因組可以報告所有已知基因組序列的病原體,為危急和疑難感染患者的臨床診斷提供了行之有效的技術手段。
大多數宏基因組病原鑒定的策略是與數據庫比對,大量的算法和工具均可以用于這個場景。如blast,bowtie2,minimap2等比對軟件,通過比對結果可以找出每條序列與數據庫中相似性以此來推測樣本中的病原。在病原鑒定的整個生信分析中,分析的時效性和準確性是非常關鍵的,能夠快速,準確地鑒定出病原可以有效地幫助醫生對患者進行治療。傳統比對的算法準確度是非常高的,但將百萬條的reads與上百G的數據庫比對對計算資源的消耗太大分析時間太長。
雖然現有的比對軟件通過與數據庫比對可以達到鑒定病原的目的,然而,宏基因組數據量和比對數據庫是非常大的,如果直接將其與數據庫進行比對是非常耗時的,在比對前采用UMAP算法將測序數據進行聚類篩選代表性序列以減少參與后續比對的reads數目,然后計算數據庫序列與代表性序列的距離值以篩選后續參與比對的數據庫序列,這樣可以大大減少比對過程的時間同時保證鑒定的準確性。
有鑒于此,提出本發明。
發明內容
本發明的目的是提供一種病原微生物鑒定的方法,采用此方法可以快速、準確地鑒定出病原微生物。
具體提供如下技術方案。
本發明首先提供一種宏基因組微生物測序數據的比對方法,包括如下步驟
1)數據獲?。韩@取高通量測序得到的基因組測序數據;
2)數據過濾:將上述得到的測序數據依次進行低質量過濾和宿主過濾,得到過濾后的序列;
3)數據聚類:將上述過濾后的序列進行聚類得到聚類結果;
4)代表性序列獲?。夯谒鼍垲惤Y果獲取代表性序列;
5)數據庫序列選取:用計算數據庫中每條序列與上述代表性序列的距離值,依據距離值來篩選數據庫中的序列;
6)物種比對:將步驟4)所選代表性序列與步驟5)中選取的數據庫中的序列進行比對,并統計比對結果:當一序列唯一比對一個物種定義為該物種的唯一比對序列,當一序列比對至少兩個物種定義為多重比對序列;
7)多重比對結果分析:對于每條多重比對序列,統計其與各個物種的核苷酸相似度,比較其與各個物種之間的核苷酸相似度值,優先將該多重比對序列分配到最大核苷酸相似度的物種,如果核苷酸相似度相等,舍棄該多重比對序列。
步驟1)中所述的測序數據是一代、二代、三代測序數據,優選的是三代測序數據;優選的為ONT測序數據。
進一步的,步驟3)中,所述聚類基于UMAP算法進行聚類,根據聚類結果將測序數據分成相應數目的cluster。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京大學人民醫院,未經北京大學人民醫院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210344311.4/2.html,轉載請聲明來源鉆瓜專利網。





