[發明專利]病原體基因組序列數據庫系統無效
| 申請號: | 201110348760.8 | 申請日: | 2011-11-08 |
| 公開(公告)號: | CN103093123A | 公開(公告)日: | 2013-05-08 |
| 發明(設計)人: | 張鑫磊;蔣小云;肖琛 | 申請(專利權)人: | 北京健數通生物計算技術有限公司 |
| 主分類號: | G06F19/28 | 分類號: | G06F19/28 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100101 北京市朝陽區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 病原體 基因組 序列 數據庫 系統 | ||
1.數據庫的構建。本數據庫是基于關系數據庫模式而構建的。
從總體上來看,在數據庫中最終包含的信息有:譜系中各個等級的注釋;按照宿主進行劃分了的病毒基因組序列(EMBL格式)及其蛋白質產物與結構域的注釋;按照病原體種類進行劃分了的病原體基因組序列(EMBL格式)及其蛋白質產物與結構域的注釋;各基因組序列的CDS、3’UTR、5’UTR、LTR、18s?rRNA、5.8s?rRNA和28s?rRNA(對于細菌來說,后三類除外)序列信息(fasta格式);細菌的16s?rRNA、5s?rRNA和23s?rRNA序列信息;便于探針設計的序列信息(新fasta格式)。
2.數據采集、分類、加工及重組的實現
1)、譜系注釋信息的采集、分類、校正分析及重組。NCBI中提供了一個廣泛的、綜合的、非冗余的譜系注釋信息,因此,我們選擇了這個數據庫作為譜系分類注釋信息的來源。從這個數據庫中下載總的譜系注釋信息,然后按照病原體的種類進行分類和校正分析,最后將結果存入到數據庫中。
2)、前期參考信息的獲取。ICTV數據庫(international?committee?ontaxonomy?of?viruses)提供了一個基于病毒分類信息的病毒描述鏈接,在此數據庫中,將病毒依據宿主種類劃分為9種,包括藻類病毒、古細菌病毒、細菌病毒、真菌病毒、非脊椎動物病毒、植物病毒、原生動物病毒、脊椎動物病毒和未分類的病毒,這種按照宿主種類進行劃分的信息給我們提供了一種很好的構建病毒庫的信息。從ICTV中分別按照宿主種類下載病毒屬的物種名信息,并整理成表格,以便于下游病毒庫的設計。
從NCBI數據庫中下載taxid與其上一級的taxid的關系表nodes.dmp、taxid與其對應的學名及同義字關系表names.dmp、并依據物種分類表(division.dmp)將這兩個關系表劃分為10類,包括細菌、非脊椎動物、哺乳動物、植物、靈長類動物、嚙齒動物、病毒、脊椎動物、環境樣本、未分類和綜合類。我們對每一個分類的names.dmp和nodes.dmp表進行處理,生成taxid與其對應的所有物種名(包括學名與同義字)之間的關系表taxid.synonym。然后,我們對真菌、細菌的nodes.dmp與names.dmp表進行如下處理:從nodes.dmp中查找得到屬以下等級的taxid,并進行此taxid對應的屬和種的信息的查找。在此過程中,我們獲得了每個分類下屬以下等級的taxid和學名與其對應的屬和科的taxid和學名之間的關系表taxid.family。
3)、病毒庫的構建。依據ICTV庫的信息,將病毒庫中的序列信息依據宿主種類劃分為9種,以便于下游的信息下載和分析。
由于ICTV的數據更新比NCBI中的數據更新慢,所以,首先我們需要依據NCBI中的信息對ICTV中屬的信息進行校正,步驟如下:將ICTV中獲得的屬的物種名信息按照宿主進行分類,對每個分類進行如下處理:依據names.dmp對這些信息進行校正,最終校正的屬的學名以names.dmp中的名稱為準,同時生成屬的taxid與屬的學名之間的關系表;依據nodes.dmp對屬的taxid進行分支信息的查找,即查找各屬以下等級的物種信息,并生成taxid和其學名與其所對應的屬的taxid和學名之間的關系表。在此過程中,我們獲得了按照宿主進行分類了的所有病毒的taxid和學名及其對應的屬的taxid和學名之間的關系表taxid.genus。
然后,從EMBL中下載得到病毒的基因組序列(EMBL格式),然后依據文件中的taxid信息和關系表taxid.genus將病毒按照宿主劃分為9種,并將其各自存入到ourDB中。在此過程中,我們還將基因組序列通過Pfam數據庫進行蛋白質產物和結構域的注釋,并將此注釋信息也存入到ourDB中。隨后,我們對各類病毒基因組序列進行如下處理:依據關系表taxid.genus和文件中的taxid信息對基因組序列中的信息進行提取,將提取到的信息劃分為CDS、3’UTR、5’UTR、LTR四類,并以fasta格式存入到ourDB中。在此過程中,我們還發展了一種適合于下游探針設計的序列格式,并將其也存入到數據庫中,序列格式以fasta格式為基礎,但在“>”后主要包含以下信息:taxid對應種的學名信息、taxid對應屬的學名信息及序列本身的taxid,這種序列格式有助于在下游從種上進行病毒診斷檢測的生物芯片的探針設計。
4)、便于下游探針設計的細菌16s?rRNA庫的構建。從RDP庫中下載得到細菌的16s?rRNA序列信息(fasta格式)并將其存入到ourDB中,此信息分為兩類:古細菌和真細菌。我們從此fasta格式的文件中提取出每條序列所對應的物種名,并與細菌的taxid.synonym表中的各個名字進行匹配,并在此過程中依據細菌的taxid.family表進行序列信息的處理,最后生成新fasta格式的文件,在“>”后主要包含以下信息:taxid對應的屬的學名信息、taxid對應的科的學名信息、序列本身的taxid和原文件中的頭部信息,將這種新fasta格式的文件同樣存入到ourDB中。這種序列格式有助于在下游從屬上進行細菌診斷檢測的生物芯片的探針設計。
5)、真菌、原生動物,寄生蟲及細菌的基因組序列的采集、加工及重組。首先,我們從EMBL,PlasmoDB,GiardiaDB和EuPathDB中下載得到各個病原體的基因組序列數據,然后我們對這些數據進行合并、去冗余和分類,再將按照病原體種類進行劃分了的基因組數據各自存入到ourDB中,在此過程中,我們同樣的將基因組序列通過Pfam數據庫進行蛋白質產物和結構域的注釋,并將此注釋信息也存入到ourDB中。隨后,我們對各個分類了的基因組序列進行如下處理:對基因組序列中的信息進行提取,將提取到的信息劃分為CDS、3’UTR、5’UTR、LTR、18s?rRNA、5.8s?rRNA和28s?rRNA八類(對于細菌來說,后三類除外),并以fasta格式存入到ourDB中;對細菌的基因組序列中的信息進行提取,將提取到的信息劃分為兩類5s?rRNA和23s?rRNA,將這些信息與上游的細菌的16s?rRNA序列信息進行合并,并以fasta格式存入到ourDB中;依據各病原體種類的taxid.family表,在此過程中發展了一種適合于下游探針設計的序列格式,并將其也存入到ourDB中,序列格式以fasta格式為基礎,但在“>”后主要包含以下信息:taxid對應的屬的學名信息、taxid對應的科的學名信息及序列本身的taxid,這種序列格式有助于在下游從屬上進行病原體診斷檢測的生物芯片的探針設計。
3.數據查詢和管理功能的實現。利用perl和CGI(公用網關接口)技術開發一個可通過web對數據庫進行查詢的系統,并動態生成界面友好的查詢頁面。用戶可以通過網頁瀏覽器實現數據的訪問、查詢、分析和下載等功能。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京健數通生物計算技術有限公司,未經北京健數通生物計算技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110348760.8/1.html,轉載請聲明來源鉆瓜專利網。
- 同類專利
- 專利分類
G06F 電數字數據處理
G06F19-00 專門適用于特定應用的數字計算或數據處理的設備或方法
G06F19-10 .生物信息學,即計算分子生物學中的遺傳或蛋白質相關的數據處理方法或系統
G06F19-12 ..用于系統生物學的建模或仿真,例如:概率模型或動態模型,遺傳基因管理網絡,蛋白質交互作用網絡或新陳代謝作用網絡
G06F19-14 ..用于發展或進化的,例如:進化的保存區域決定或進化樹結構
G06F19-16 ..用于分子結構的,例如:結構排序,結構或功能關系,蛋白質折疊,結構域拓撲,用結構數據的藥靶,涉及二維或三維結構的
G06F19-18 ..用于功能性基因組學或蛋白質組學的,例如:基因型–表型關聯,不均衡連接,種群遺傳學,結合位置鑒定,變異發生,基因型或染色體組的注釋,蛋白質相互作用或蛋白質核酸的相互作用





