[發明專利]通過模塊化選擇實現的生物信息項目自動分析方法及系統有效
| 申請號: | 201410742403.3 | 申請日: | 2014-12-08 |
| 公開(公告)號: | CN104484582B | 公開(公告)日: | 2018-04-24 |
| 發明(設計)人: | 蘇海橋;蔡雄穎;唐啟覃;李卡麟;鄭媛;周良風;梁紹光;陳勇;劉娜;李國慶 | 申請(專利權)人: | 深圳華大基因科技服務有限公司 |
| 主分類號: | G06F19/10 | 分類號: | G06F19/10 |
| 代理公司: | 廣州三環專利商標代理有限公司44202 | 代理人: | 梁順宜,郝傳鑫 |
| 地址: | 518083 廣東省深圳市*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 通過 模塊化 選擇 實現 生物 信息 項目 自動 分析 方法 系統 | ||
技術領域
本發明涉及生物信息分析領域,尤其涉及一種通過模塊化選擇實現的生物信息項目自動分析方法及系統。
背景技術
隨著生命科學領域實驗技術的快速發展,科學儀器的自動化、智能化水平日益提高,數據產出能力有了質的飛躍。同時,生命科學研究對分析測試的要求無論在樣品數量、分析周期、分析項目和數據準確性等方面都提出了更高的標準和要求,生物實驗室產出的信息呈幾何級數增長。
隨著人類基因組計劃、人類單體型計劃、千人基因組計劃的完成,以及各種模式生物的基因組測序的完成。同時越來越多的物種的基因組序列被科學界揭示。人類已經在功能基因組學方面累積了很多令人激動的成果。尤其是現階段人們開始研究基因組數據、轉錄組數據、表觀基因組、小RNA、非編碼RNA等并利用其中包含的信息來認識生物的本源;并為基因工程、酶工程、合成生物學等技術提供理論支持;為人類抗擊如癌癥、帕金森病、各種遺傳病等構建基礎。一個項目可以產生幾百Gb的數據,甚至是上Pb級的數據,項目類型越來越多,針對特定分析目的而專門構建一套分析工具將產生巨大的時間成本和人力成本。本系統有提供了一種在生物信息學面臨大數據,項目分析多樣性,分析流程構建高成本的背景下的一種適用性廣、高效、穩定、可擴展式的解決方案。
在傳統的生物實驗室中,由于數據類型多樣、格式不一,數據的保存、交換、查詢、分析、維護都很不方便,嚴重阻礙了研究人員之間的信息提交。在生物信息學中涉及到的多種分析流程中,往往是1,一個總的流程,在linux下設置流程參數,然后投任務;或者是2、一步一步的跑流程,每一步運行一個小的腳本,完成一個小項的分析,尤其是每一步完成后都需要準備分析腳本、等待分析完成、人工查看結果是否正常才能進入下一步的分析。流程繁瑣且極度消耗寶貴的人力資源和時間,無法高效、自動可靠地得到所需的分析結果。
發明內容
本發明的目的提供一種通過模塊化選擇實現的生物信息項目自動分析方法和系統,能有效簡化現有的生物信息分析的過程和步驟,減少工作量,高效得到分析結果。
本發明提供了一種通過模塊化選擇實現的生物信息項目自動分析方法,包括步驟:
步驟一:創建項目并存于業務管理系統中,每個項目包括多個子項目;并由用戶根據子項目和任務信息直接選擇所述創建項目中需要的分析模塊;所述子項目的類型包括只過濾子項目和標準化子項目;
步驟二:
當所述子項目的類型為標準化子項目時,則該子項目對應的樣品在經測序儀測序的同時,供用戶選擇對該樣品創建包括過濾分析、表達譜定量分析、差異比較分析、Cluster聚類分析、靶基因預測分析、KOGO分析和堿基編輯分析中的一種或多種的模塊化的標準流程分析,且在創建每個標準流程分析過程中由用戶根據當前子項目的樣品情況、測序類型、分析目的選擇匹配的過濾模塊及輸入對應的比對參數;經測序儀測序完成后,根據所述過濾模塊及比對參數對每一樣品數據進行過濾,從而去掉不符合比對參數的樣品數據;然后再運用所創建的標準流程分析模塊對符合比對參數的每一樣品數據進行分析,從而生成分析結果,分析結果包括子項目信息和對應的樣品信息;
當所述子項目的類型為只過濾子項目,則根據選擇的子項目類型和任務信息,依次從下機數據管理系統中獲取對應的且經過測序儀測序后的樣品數據;且每獲取一個樣品數據,即根據預設的參數配置運用統一的過濾標準進行過濾與分析,從而過濾不符合參數配置的樣品數據;且待獲取的所有樣品數據過濾與分析完后,生成分析結果,分析結果包括子項目信息和對應的樣品信息;
步驟三:由用戶選擇質控模塊以及輸入對應的質控參數來對所述分析結果進行質控,若質控通過,則直接輸出該分析結果;若質控不通過,且所述分析結果和質控標準的差距在閾值范圍內,則重新編輯所述樣品數據或過濾/質控參數后再次進行步驟二的過濾與分析過程,直至分析結果通過質控;若質控不通過,且所述分析結果和質控標準的差距超過閾值,則編輯所述樣品且廢棄相關Lane,并在所述業務管理系統中重新下單。
作為上述技術方案的改進,還包括步驟:將所述分析結果進行存儲備份;而優選在所述步驟三中:若質控不通過且所述分析結果和質控標準的差距在閾值范圍內,在重新編輯所述樣品數據是可以單個樣品數據編輯或樣品批量編輯。
作為上述技術方案的改進,所述比對參數存于數據庫中;該數據庫為公共數據庫或個人數據庫,在創建每個標準流程分析過程中由用戶在所述個人數據庫中選擇建立新的數據庫記錄以及根據當前子項目的樣品情況、測序類型、分析目的向所述新的數據庫記錄中輸入對應的所述比對參數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳華大基因科技服務有限公司,未經深圳華大基因科技服務有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410742403.3/2.html,轉載請聲明來源鉆瓜專利網。
- 同類專利
- 專利分類
G06F 電數字數據處理
G06F19-00 專門適用于特定應用的數字計算或數據處理的設備或方法
G06F19-10 .生物信息學,即計算分子生物學中的遺傳或蛋白質相關的數據處理方法或系統
G06F19-12 ..用于系統生物學的建模或仿真,例如:概率模型或動態模型,遺傳基因管理網絡,蛋白質交互作用網絡或新陳代謝作用網絡
G06F19-14 ..用于發展或進化的,例如:進化的保存區域決定或進化樹結構
G06F19-16 ..用于分子結構的,例如:結構排序,結構或功能關系,蛋白質折疊,結構域拓撲,用結構數據的藥靶,涉及二維或三維結構的
G06F19-18 ..用于功能性基因組學或蛋白質組學的,例如:基因型–表型關聯,不均衡連接,種群遺傳學,結合位置鑒定,變異發生,基因型或染色體組的注釋,蛋白質相互作用或蛋白質核酸的相互作用





