[發明專利]用以分析細菌菌種的測序數據的系統及其方法在審
| 申請號: | 201610083766.X | 申請日: | 2016-02-06 |
| 公開(公告)號: | CN106778071A | 公開(公告)日: | 2017-05-31 |
| 發明(設計)人: | 鄭佳揚;徐仁徽;劉韋驛;蔡孟勳;盧子彬;賴亮全;莊曜宇 | 申請(專利權)人: | 財團法人資訊工業策進會 |
| 主分類號: | G06F19/20 | 分類號: | G06F19/20 |
| 代理公司: | 北京律誠同業知識產權代理有限公司11006 | 代理人: | 徐金國 |
| 地址: | 中國臺灣臺北市*** | 國省代碼: | 臺灣;71 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用以 分析 細菌 菌種 序數 系統 及其 方法 | ||
技術領域
本發明涉及一種用以分析細菌菌種的測序數據的系統及其方法,且特別是涉及一種針對單一檢體及跨檢體重復序列進行檢測的用以分析細菌菌種的測序數據的系統及其方法。
背景技術
隨著生物科技的日益發展,基因測序的工作越來越完整,對于人體共生菌的研究變得非常重要。目前已知人體身上約100兆的共生菌所組成,這些共生菌的數量比人體全部的細胞整整多了十倍。此外,人體的腸胃道、皮膚、口腔、呼吸道、生殖道等等地方也有共生菌的存在,統稱為菌相,這些菌相與免疫、代謝、發育,神經系統等等皆息息相關。
其中,科學家們已知利用16S核糖體RNA(16S rRNA)序列的測序,解構出人類腸道菌的種類分布,因此可利用將16S rRNA基因標定并擴增復制序列后,經過測序及根據測序的質量做前處理,再將序列與16S rRNA數據庫做組序、貼序的步驟,以區分出物種。而相似性高的物種將會歸類到同一個可操作性的分類單位體(operational taxonomic unit,OTU),最后統計分析不同檢體的菌向差異。
然而,在傳統上,若要分析多組檢體數據,則需要耗費的時程及運算量是相當可觀的,因此如何減少系統的運算量,以提升分析檢體數據的速度,已成為本領域需要解決的問題之一。
發明內容
為解決上述的問題,本發明的一個方面提供一種用以分析細菌菌種的測 序數據的系統。用以分析細菌菌種的測序數據的系統包含:單一檢體去重復序列模塊、跨檢體重復序列判斷模塊、重復序列記錄模塊以及運算貼序模塊。單一檢體去重復序列模塊用以搜索第一基因樣本序列中的第一保守區域及特定變異區域,并將第一保守區域移除。跨檢體重復序列判斷模塊用以判斷特定變異區域是否存在與第二基因序列中的另一特定變異區域相同的跨檢體子序列。重復序列記錄模塊用以當特定變異區域存在與第二菌體樣本中的另一特定變異區域相同的跨檢體子序列時,儲存跨檢體子序列至記錄表中。運算貼序模塊用以當存在跨檢體子序列時,將跨檢體子序列與數據庫模塊中的多個已知菌種基因序列進行比對,以分析第一基因樣本序列與第二基因樣本序列中對應跨檢體子序列的菌種。
本發明的另一方面提供一種用以分析細菌菌種的測序方法。分析細菌菌種的測序方法包含:搜索第一基因樣本序列中的特定變異區域以及搜索第二基因樣本序列中的另一特定變異區域;判斷特定變異區域與另一特定變異區域是否存在相同的跨檢體子序列;當特定變異區域與另一特定變異區域存在相同的跨檢體子序列時,儲存跨檢體子序列至記錄表中;當存在跨檢體子序列時,將跨檢體子序列與數據庫模塊中的多個已知菌種基因序列進行比對,以分析該第一基因樣本序列與第二基因樣本序列中對應跨檢體子序列的菌種。
綜上所述,本發明的技術方案與現有技術相比具有明顯的優點和有益效果。通過上述技術方案,可達到相當的技術進步,并具有產業上的廣泛利用價值,本公開內容可減少用以分析細菌菌種的測序數據的系統的運算量,以達到提升分析檢體數據速度的功效。
附圖說明
為了使本發明的上述和其他目的、特征、優點與實施例能更明顯易懂,提供附圖如下:
圖1是根據本發明一實施例繪示的一種用以分析細菌菌種的測序數據的系統的方塊圖;
圖2是根據本發明一實施例繪示的一種用以分析細菌菌種的測序數據的方法的流程圖;
圖3是根據本發明一實施例繪示的一種基因樣本序列的示意圖;
圖4A-4C是根據本發明一實施例繪示的一種基因片段的示意圖。
具體實施方式
參照第1圖,圖1是根據本發明一實施例繪示的一種用以分析細菌菌種的測序數據的系統100的方塊圖。
用以分析細菌菌種的測序數據的系統100包含:單一檢體去重復序列模塊110、跨檢體重復序列判斷模塊120、重復序列記錄模塊130以及運算貼序模塊140。單一檢體去重復序列模塊110用以搜索第一基因樣本序列中的第一保守區域及特定變異區域,并將第一保守區域移除。跨檢體重復序列判斷模塊120用以判斷特定變異區域是否存在與第二基因序列中的另一特定變異區域相同的一跨檢體子序列。重復序列記錄模塊130用以當特定變異區域存在與第二菌體樣本中的另一特定變異區域相同的跨檢體子序列時,儲存跨檢體子序列至一記錄表135中。運算貼序模塊140用以當存在跨檢體子序列時,將跨檢體子序列與一數據庫模塊150中的多個已知菌種基因序列進行比對,以分析第一基因樣本序列與第二基因樣本序列中對應跨檢體子序列的菌種。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于財團法人資訊工業策進會,未經財團法人資訊工業策進會許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610083766.X/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種人類蛋白質亞細胞位置預測方法
- 下一篇:一種評估腫瘤負荷變化的方法和系統
- 同類專利
- 專利分類
G06F 電數字數據處理
G06F19-00 專門適用于特定應用的數字計算或數據處理的設備或方法
G06F19-10 .生物信息學,即計算分子生物學中的遺傳或蛋白質相關的數據處理方法或系統
G06F19-12 ..用于系統生物學的建模或仿真,例如:概率模型或動態模型,遺傳基因管理網絡,蛋白質交互作用網絡或新陳代謝作用網絡
G06F19-14 ..用于發展或進化的,例如:進化的保存區域決定或進化樹結構
G06F19-16 ..用于分子結構的,例如:結構排序,結構或功能關系,蛋白質折疊,結構域拓撲,用結構數據的藥靶,涉及二維或三維結構的
G06F19-18 ..用于功能性基因組學或蛋白質組學的,例如:基因型–表型關聯,不均衡連接,種群遺傳學,結合位置鑒定,變異發生,基因型或染色體組的注釋,蛋白質相互作用或蛋白質核酸的相互作用





