[發(fā)明專利]基于高通量測序技術的宿主中病毒來源sRNA數(shù)據(jù)分析方法有效
| 申請?zhí)枺?/td> | 202110354949.1 | 申請日: | 2021-04-01 |
| 公開(公告)號: | CN113066532B | 公開(公告)日: | 2022-08-26 |
| 發(fā)明(設計)人: | 肖云平;徐天生;楊雨晴;劉鈺釧;史賢俊;林博 | 申請(專利權)人: | 上海歐易生物醫(yī)學科技有限公司 |
| 主分類號: | G16B20/30 | 分類號: | G16B20/30;G16B30/10;G16B45/00 |
| 代理公司: | 上海德禾翰通律師事務所 31319 | 代理人: | 夏思秋 |
| 地址: | 201114 上海市閔行*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 通量 技術 宿主 病毒 來源 srna 數(shù)據(jù) 分析 方法 | ||
1.一種基于高通量測序技術的宿主中病毒來源sRNA數(shù)據(jù)分析方法,其特征在于,包括如下步驟:
(1)文件準備步驟:
準備config文件,讀取后用于進行數(shù)據(jù)自動化質(zhì)控以及后續(xù)數(shù)據(jù)分析;
(2)下機數(shù)據(jù)質(zhì)控步驟:
將下機得到的原始數(shù)據(jù)去除接頭,保留15-41nt長度的序列,然后過濾低質(zhì)量序列;對去除接頭的序列做質(zhì)控,匯總包括序列的測序質(zhì)量統(tǒng)計、GC含量統(tǒng)計的質(zhì)控信息;對去除接頭的序列做去除低質(zhì)量堿基處理,然后對上述去除低質(zhì)量堿基的序列做N堿基檢測,若序列中含有一個及以上的N堿基則將這條序列剔除;然后將剔除含N堿基的序列轉成fasta格式的序列文件,將過濾后的數(shù)據(jù)進行去重,獲得無重復的序列,并標記所有序列的數(shù)量;同時對原始數(shù)據(jù)和過濾數(shù)據(jù)量進行統(tǒng)計,并以柱狀圖展示各個樣本不同長度序列的數(shù)量分布特征;過濾序列用于后續(xù)分析;
(3)病毒參考基因組比對以及病毒sRNA注釋步驟:
對參考基因組序列構建索引,將步驟(1)中去重后的序列與病毒參考基因組序列做比對,篩選出堿基錯配數(shù)小于2的結果,比對上的序列認為是潛在的病毒來源sRNA,統(tǒng)計匯總序列和比對序列數(shù)信息;
(4)病毒sRNA定量步驟:
將步驟(3)中比對上參考基因組的序列數(shù)做統(tǒng)計,匯總序列和比對序列數(shù)信息,并繪制各樣本比對上參考基因組的序列在基因組上的分布情況,整理病毒sRNA的counts數(shù),再基于counts數(shù)計算每個病毒sRNA的TPM,并生成病毒sRNA注釋文件;
(5)差異病毒sRNA分析步驟:
根據(jù)步驟(4)中注釋到的病毒sRNA信息以及表達量結果進行差異表達分析,篩選同時滿足差異倍數(shù)和顯著性的差異表達病毒sRNA,統(tǒng)計并展示可視化結果;
(6)宿主靶基因預測、富集分析步驟:
將步驟(5)中所述差異病毒sRNA與宿主mRNA序列進行宿主靶標預測,統(tǒng)計靶標結合位點信息,繪制結合位點示意圖;
對步驟(6)中預測到的差異病毒sRNA宿主靶基因,基于宿主的GO、KEGG背景文件使用超幾何分布檢驗計算方法進行GO功能和KEGG通路的富集分析,計算GO、KEGG條目在差異病毒sRNA的宿主靶基因中是否顯著富集的P值,再對P值經(jīng)BenjaminiHochberg多重檢驗糾正后得到FDR;針對富集結果做柱狀圖和氣泡圖統(tǒng)計,獲得差異病毒sRNA可能參與影響的功能和代謝通路;
(7)網(wǎng)頁版報告整理步驟:
根據(jù)結果一鍵化生成病毒sRNA分析的網(wǎng)頁版報告,網(wǎng)頁版報告對整個分析結果做匯總,并對每個分析步驟做描述和對應的圖表展示以及彈窗式幫助文檔。
2.如權利要求1所述的基于高通量測序技術的宿主中病毒來源sRNA數(shù)據(jù)分析方法,其特征在于,所述文件準備步驟當中config文件包括:下機數(shù)據(jù)位置以及對應的樣本分析名和分組名、用于差異分析的分組信息、差異倍數(shù)參數(shù)、生物學重復參數(shù)、參考基因組信息。
3.如權利要求1所述的基于高通量測序技術的宿主中病毒來源sRNA數(shù)據(jù)分析方法,其特征在于,一個堿基錯配比對上病毒參考基因組的序列認為是潛在的病毒來源sRNA,并展示序列在基因組上的分布情況。
4.如權利要求1所述的基于高通量測序技術的宿主中病毒來源sRNA數(shù)據(jù)分析方法,其特征在于,所述過濾低質(zhì)量序列為以5個堿基長度為窗口對原始序列進行搜索,當窗口中堿基的平均測序質(zhì)量低于20時,將從窗口最前端開始的部分截斷并舍棄。
5.如權利要求1所述的基于高通量測序技術的宿主中病毒來源sRNA數(shù)據(jù)分析方法,其特征在于,使用Fastx-Toolkit軟件將剔除含N堿基的序列轉成fasta格式的序列文件。
6.如權利要求1所述的基于高通量測序技術的宿主中病毒來源sRNA數(shù)據(jù)分析方法,其特征在于,使用DESeq或DESeq2軟件進行差異表達分析。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海歐易生物醫(yī)學科技有限公司,未經(jīng)上海歐易生物醫(yī)學科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110354949.1/1.html,轉載請聲明來源鉆瓜專利網(wǎng)。





