[發(fā)明專利]一種基于高通量測序數據的溶源性噬菌體預測方法有效
| 申請?zhí)枺?/td> | 201910506027.0 | 申請日: | 2019-06-12 |
| 公開(公告)號: | CN110211628B | 公開(公告)日: | 2022-06-07 |
| 發(fā)明(設計)人: | 彭紹亮;牛琦;童貽剛;張湘莉蘭;李肯立;曲強;謝湘成 | 申請(專利權)人: | 湖南大學 |
| 主分類號: | G16B15/30 | 分類號: | G16B15/30;G16B20/30 |
| 代理公司: | 國防科技大學專利服務中心 43202 | 代理人: | 王文惠 |
| 地址: | 410012 湖*** | 國省代碼: | 湖南;43 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 通量 序數 溶源性 噬菌體 預測 方法 | ||
1.一種基于高通量測序數據的溶源性噬菌體預測方法,其特征在于,包括以下步驟:
第一步、開始對原始測序數據的質量值進行控制和過濾:為保證對基因組進行測序時的準確性,定義測序得到的每個堿基的質量值表示各個堿基的置信度的度量標準,表示此堿基測序錯誤的概率,質量值越高說明錯誤率越低,測序準確率就越高;如果測序質量值偏低,則會對拼接效果造成不良影響,因此必須對質量值進行過濾,去除質量值較差的序列;
第二步、準備對高質量數據進行測序并組裝:為方便測序,會人為地添加一種短片段,稱為接頭,最后的測序結果可能會殘存接頭序列,從而影響拼接的結果,因此需要人為地建立接頭數據庫,把測序數據中的堿基序列逐個與接頭數據庫中的序列進行比較,刪除相同序列,完成對接頭序列的過濾,得到凈化后的數據進行拼接組裝;
第三步、粗略前噬菌體預測:構建噬菌體蛋白質數據庫,利用該數據庫注釋宿主菌的DNA,將呈現成簇聚集特征的噬菌體基因區(qū)域作為前噬菌體區(qū)域,再進行搜索并注釋在細菌基因組上的整合酶基因,將整合酶基因的上下游一個前噬菌體基因組的區(qū)域估計為疑似存在前噬菌體的區(qū)域,其長度為90000bp;
第四步、精確前噬菌體預測:尋找定義了前噬菌體基因組邊界的兩個成對出現的特有的短正向重復序列attL和attR,長度在14-50bp之間,且可以取端點值;在粗略前噬菌體范圍上設置兩個“滑動窗口”,兩個窗口差分的距離為e,其中e代表重復序列的距離,并設置兩輪迭代;第一輪迭代改變兩個窗口差分的距離,然后第二輪迭代從各窗口前端進行逐個堿基對比,把相同的堿基串記錄下來,就是短正向重復序列attL和attR,兩個短正向重復序列之間的范圍即是精確的前噬菌體范圍;
第五步、前噬菌體的功能性驗證:根據在細菌DNA制備過程中溶源性噬菌體會被誘導出來并發(fā)生自身環(huán)化的特性進行其功能性的驗證;先在精確前噬菌體預測范圍截取上游末端1000bp的序列,命名為A,以及下游末端1000bp的序列,命名為B,之所以選擇1000bp的長度是因為測序時的片段讀長一般為1000bp-2000bp之間,且可以取端點值;然后使用測序得到的長度為500或1000或500-1000bp之間的基因片段成對地與A、B區(qū)域進行比對,尋找能夠跨過A、B兩區(qū)域的基因片段,若找到配對基因片段,則說明該前噬菌體在整合到細菌基因組上的同時產生了自身激活環(huán)化,即被驗證為功能性前噬菌體;
第六步、溶源性噬菌體完整序列提取:在溶源性噬菌體序列上先將首尾兩端的兩個重復序列一起切除,再從首尾兩端切除掉50個堿基的序列,以保證完全去除整合位點處的重復序列,再從前噬菌體下游末端出發(fā),取下游末端長度為20bp的堿基序列,在原始測序數據中循環(huán)遍歷一遍,把所有可以匹配到這條序列的基因片段取出來并通過多序列比對算法進行合并,生成一條一致性的序列;獲得的一致性序列的前段若和前噬菌體下游末端序列相同,則將前噬菌體下游片段的末端延長;反之則未能接上,然后從延長后的前噬菌體下游末端繼續(xù)取一段序列進行延伸,直到序列補充完畢,從而得到溶源性噬菌體完整序列。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于湖南大學,未經湖南大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910506027.0/1.html,轉載請聲明來源鉆瓜專利網。





