[發明專利]一種mNGS鑒定微生物的數據處理方法、裝置及存儲介質有效
| 申請號: | 202111579973.1 | 申請日: | 2021-12-22 |
| 公開(公告)號: | CN114242173B | 公開(公告)日: | 2023-05-16 |
| 發明(設計)人: | 黃毅;楊振宇;劉久成;林小芳;張丹;易鑫;楊玲 | 申請(專利權)人: | 深圳吉因加醫學檢驗實驗室 |
| 主分類號: | G16B50/00 | 分類號: | G16B50/00;G16B30/10 |
| 代理公司: | 深圳鼎合誠知識產權代理有限公司 44281 | 代理人: | 李小焦;彭家恩 |
| 地址: | 518000 廣東省深圳市*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 mngs 鑒定 微生物 數據處理 方法 裝置 存儲 介質 | ||
1.一種mNGS鑒定微生物的數據處理方法,其特征在于:包括以下步驟,
數據庫加載步驟,包括利用Linux系統提供的內存映射/dev/shm來加載用于mNGS鑒定微生物的數據庫;
數據庫檢查步驟,包括在讀取數據庫之前,先檢查數據庫的大小,如果小于硬盤中原始加載的數據庫的大小,則通過虛擬內存觸碰方式將其激活,使得加載的數據庫完整的緩存于內存中;
數據庫比對步驟,包括采用內存映射方式加載參考基因組,在同時運行多個比對時,對參考索引進行統一緩存,各比對進程共享此過程和結果;在有新的比對進程加入時,先進行索引的檢查,如果發現已經加載在內存中或者正在加載的過程中,則按內存地址進行訪問或等待加載完畢后使用,不重復加載;當并行的所有比對進程結束后,自動管理參考索引,待其不在活躍訪問時將其從緩存中釋放;
數據傳輸步驟,包括采用Linux管道輸出和讀入,減少臨時文件產生,從而提高分析速度;
二次比對步驟,包括對初步鑒定到的序列支持數滿足要求的物種,以物種為單位,將選定物種的所有序列比對到該選定物種的基因組參考序列中,準確獲得測序樣本中該選定物種的序列支持數,以此計算該物種的覆蓋度、深度分布和離散度;
所述覆蓋度為選定物種基因組覆蓋1×以上的區域加和占基因組大小L的比例;
在選定物種存在多個基因組版本時,以最長基因組Lmax計算,覆蓋的位置按各個基因組的實際比對位置Pi計算;對于存在多個基因組版本的物種,得到的覆蓋度C為估算值,即Capprox=∑Pi/Lmax。
2.根據權利要求1所述的數據處理方法,其特征在于:所述數據庫加載步驟還包括在將數據庫加載到/dev/shm之前,預先申請大于數據庫大小的內存空間,并釋放系統已經緩存的內容,確保數據庫能夠完整的加載到/dev/shm。
3.根據權利要求1所述的數據處理方法,其特征在于:還包括同源區域標記步驟,所述同源區域標記步驟,包括將數據庫中的宿主參考基因組拆分為短序列,形成短序列庫;將需要計算同源區域的真核生物基因組與短序列庫進行比對,將能夠與短序列庫匹配的區域標記成“N”,將連續標記成“N”的區域替換成“N”堿基。
4.根據權利要求2所述的數據處理方法,其特征在于:同源區域標記步驟,還包括將序列中的A、C、G、T分別轉化成二進制數字,將短序列存儲成無符號整型方式,預加載到內存中。
5.根據權利要求4所述的數據處理方法,其特征在于:所述短序列的長度為31bp。
6.根據權利要求1所述的數據處理方法,其特征在于:所述離散度為選定物種支持的序列能覆蓋到的參考基因組窗口數n占總窗口N的比例,即D=n/N。
7.根據權利要求1所述的數據處理方法,其特征在于:所述序列支持數滿足要求的物種,具體的,對于寄生蟲序列支持數要求大于或等于100,其它物種序列支持數要求大于或等于10。
8.一種mNGS鑒定微生物的數據處理裝置,其特征在于:所述裝置包括存儲器和處理器;
所述存儲器,包括用于存儲程序;
所述處理器,包括用于通過執行所述存儲器存儲的程序以實現權利要求1-7任一項所述的mNGS鑒定微生物的數據處理方法。
9.一種計算機可讀存儲介質,其特征在于:所述存儲介質中存儲有程序,所述程序能夠被處理器執行以實現權利要求1-7任一項所述的mNGS鑒定微生物的數據處理方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳吉因加醫學檢驗實驗室,未經深圳吉因加醫學檢驗實驗室許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111579973.1/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:用于焊接電池軟銅排的焊接機及其方法
- 下一篇:一種干濕兩用清潔裝置





