[發明專利]基于snakemake語言快速批量可自動郵件反饋結果的高通量測序質控分析方法有效
| 申請號: | 202110338467.7 | 申請日: | 2021-03-30 |
| 公開(公告)號: | CN112967756B | 公開(公告)日: | 2022-07-26 |
| 發明(設計)人: | 張建明;顧胤聰;肖云平;史賢俊;劉鈺釧;林博 | 申請(專利權)人: | 上海歐易生物醫學科技有限公司 |
| 主分類號: | G16B30/00 | 分類號: | G16B30/00;G16B40/00;G16B45/00;G16B50/00;G06Q10/10 |
| 代理公司: | 上海德禾翰通律師事務所 31319 | 代理人: | 夏思秋 |
| 地址: | 201114 上海市閔行*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 snakemake 語言 快速 批量 自動 郵件 反饋 結果 通量 測序質控 分析 方法 | ||
1.一種基于snakemake語言快速批量可自動郵件反饋結果的高通量測序質控分析方法,其特征在于,所述方法具體包括如下步驟:
步驟一、文件準備:準備所有樣本的高通量測序原始數據;
步驟二、多樣本并行fastp質控過濾:使用fastp軟件對每個樣本數據自動進行全方位質控,包括利用4bp大小滑窗去除平均質量低于Q20的低質量堿基序列、通過軟件自動識別接頭序列并進行剪裁去除接頭污染、去除長度小于下機長度一半的短序列、去除含有5個及以上N堿基的序列、軟件自動查找雙端測序數據中每一對read的重疊區域并對該重疊區域中不匹配的堿基進行校正;上述質控方法單雙端都適用;
步驟三、單樣本fastp運行監控:對每個樣本進行質控監測,即把運行統計結果的質控指標與參照質控指標進行核對,如果都符合參照指標,則生成一個check空文件表示此樣本質控達標;若有部分質控指標不符合參照指標,則不生成check空文件,表示此樣本質控未達標,此樣本在不影響其它樣本分析的條件下停在質控這個步驟,不參與下游分析;
步驟四、所有樣本fastp質控結果匯總:對所有樣本fastp質控過濾結果進行匯總,形成一張包含常質控指標的excel表,所述excel表包含達標與未達標所有樣本的質控結果;
步驟五、質控結果匯總郵件反饋:使用python包smtplib對質控表進行郵件自動反饋;
步驟六、多樣本并行fastqc檢測:當樣本fastp質控運行成功后,對過濾后的數據進行fastqc檢測,進行一組模塊化的分析,通過這些分析快速了解數據是否存在問題,為后續進行進一步分析提供參考;所述模塊化分析包括序列測序質量統計、每個tile測序的情況、每條序列的測序質量統計、序列堿基含量分布統計、序列平均GC含量分布圖;分析結果提供是否存在測序質量偏低、某些tile受到不可控因素的影響而出現測序質量偏低、堿基含量不平穩、混入了其它物種的DNA序列的問題的信息;
步驟七、所有樣本結果進行整合:對fastqc生成結果利用multiqc進行整合,使多樣本整合成一個網頁報告;
步驟八、分析方法圖繪制:當質控流程完成后,snakemake自動生成分析方法圖,便于直觀展示。
2.如權利要求1所述的分析方法,其特征在于,步驟四中,所述excel表中的常質控指標包含原始數據reads條數、clean數據reads條數、clean數據與原始數據reads條數之比、原始數據量、clean數據量、clean數據量與原始數據量之比、GC含量、clean數據中大于Q20的比率、clean數據中大于Q30的比率指標信息。
3.如權利要求1所述的分析方法,其特征在于,步驟七中,所述網頁報告中包含結果內容與步驟六中一致,但樣本數是所有樣本的綜合結果。
4.如權利要求1-3之任一項所述方法在高通量測序質控分析中的應用。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海歐易生物醫學科技有限公司,未經上海歐易生物醫學科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110338467.7/1.html,轉載請聲明來源鉆瓜專利網。





