[發明專利]基于snakemake語言快速批量可自動郵件反饋結果的高通量測序質控分析方法有效
| 申請號: | 202110338467.7 | 申請日: | 2021-03-30 |
| 公開(公告)號: | CN112967756B | 公開(公告)日: | 2022-07-26 |
| 發明(設計)人: | 張建明;顧胤聰;肖云平;史賢俊;劉鈺釧;林博 | 申請(專利權)人: | 上海歐易生物醫學科技有限公司 |
| 主分類號: | G16B30/00 | 分類號: | G16B30/00;G16B40/00;G16B45/00;G16B50/00;G06Q10/10 |
| 代理公司: | 上海德禾翰通律師事務所 31319 | 代理人: | 夏思秋 |
| 地址: | 201114 上海市閔行*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 snakemake 語言 快速 批量 自動 郵件 反饋 結果 通量 測序質控 分析 方法 | ||
本發明公開了一種基于snakemake語言快速批量可自動郵件反饋結果的高通量測序質控分析方法,所述方法具體包括如下步驟:文件準備;多樣本并行fastp質控過濾;單樣本fastp運行監控;所有樣本fastp質控結果匯總;質控結果匯總郵件反饋;多樣本并行fastqc檢測;所有樣本結果進行整合;分析方法圖繪制。本發明所述分析方法能夠對樣本進行批量處理,獲得的結果全面,并能夠自動整理所有分析結果,進行統計匯總可視化,同時所有操作步驟可溯源,方便錯誤查詢。
技術領域
本發明屬于高通量微生物測序技術領域,涉及一種基于snakemake語言快速批量可自動郵件反饋結果的高通量測序質控分析方法。
背景技術
高通量測序又稱“下一代測序”,是對傳統測序的一次變革,與傳統的Sanger測序相比,新一代測序技術的通量提高了一到兩個數量級,能夠經濟地對基因組進行高倍率的序列覆蓋。隨著高通量測序儀器的性能的逐漸穩定和價格的不斷下降,其應用也越來越廣泛,因此基于高通量測序數據的研究將會在數量上和應用上呈現井噴式的快速發展趨勢。
由于高通量測序技術本身的限制及人為的實驗操作誤差,原始生成的高通量測序數據往往含有部分低質量序列,包括低質量堿基和污染序列等。這些低質量序列的存在會極大影響后續數據分析結果,導致錯誤結果和結論。因此質量控制是進行高通量測速數據分析必須的關鍵步驟之一。
由于高通量測序數據往往具有數據量大,樣本數多等特點,所以對應于高通量測序數據的質量控制,必須具有多樣本批量處理、單樣本分析速度快、實時監測單樣本運行是否成功、快速反饋數據質控結果等特點。目前的普通分析方法利用Trimmomatic先進行低質量序列及測序接頭進行過濾,然后使用fastqc對數據進行質量可視化分析,且只能進行單樣本處理,對于大樣本量的高通量測序數據進行質控處理可能需要幾天甚至一個月的時間,且不能對分析結果進行快速反饋,沒有流程監控機制,使數據分析成為相關研究中的一大瓶頸。
現有高通量測序質控分析流程在如下缺陷:(1)單樣本分析速度慢:單個樣本從原始數據到質控過濾出結果耗時長;(2)不能批量處理樣本:只能進行單樣本質控,不能多樣本并行處理;(3)分析結果反饋不及時:流程跑完需要人工核對,不能及時郵件反饋;(4) 無錯誤檢測機制:沒有單樣本是否運行成功的檢測機制;(5)無分析流程可視化:沒有對分析流程進行直觀的可視化展示;(6)結果展示不完整:分析結果過于簡單,缺少數據對應的可視化展示內容。
發明內容
為了解決現有技術存在的不足,本發明的目的是提供一種基于snakemake語言快速批量可自動郵件反饋結果的高通量測序質控分析方法。
所述方法具體包括如下步驟:
步驟一、文件準備:
準備所有樣本的高通量測序原始數據。
步驟二、多樣本并行fastp[1]質控過濾:
使用fastp軟件對每個樣本數據自動進行全方位質控,包括利用滑窗(4bp大小)去除平均質量低于Q20的低質量堿基序列、通過軟件自動識別接頭序列并進行剪裁去除接頭污染、去除短序列(長度小于下機長度一半)、去除含有5個及以上N堿基的序列、軟件自動查找雙端測序數據中每一對read的重疊區域并對該重疊區域中不匹配的堿基進行校正等,上述質控方法單雙端都適用。
步驟三、單樣本fastp運行監控:
對每個樣本進行質控監測,即把運行統計結果的質控指標與參照質控指標進行核對,如果都符合參照指標,則生成一個check空文件表示此樣本質控達標;若有部分質控指標不符合參照指標,則不生成check空文件,表示此樣本質控未達標,此樣本在不影響其它樣本分析的條件下停在質控這個步驟,不參與下游分析。
步驟四、所有樣本fastp質控結果匯總:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海歐易生物醫學科技有限公司,未經上海歐易生物醫學科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110338467.7/2.html,轉載請聲明來源鉆瓜專利網。





