[發(fā)明專利]無參轉錄組自動化分析方法在審
| 申請?zhí)枺?/td> | 201611187563.1 | 申請日: | 2016-12-20 |
| 公開(公告)號: | CN106778064A | 公開(公告)日: | 2017-05-31 |
| 發(fā)明(設計)人: | 沈立;王智健;姜麗榮;孫子奎 | 申請(專利權)人: | 上海派森諾生物科技股份有限公司 |
| 主分類號: | G06F19/18 | 分類號: | G06F19/18 |
| 代理公司: | 上海天翔知識產(chǎn)權代理有限公司31224 | 代理人: | 呂伴 |
| 地址: | 200231 上海市*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 轉錄 自動化 分析 方法 | ||
技術領域
本發(fā)明涉及生物信息分析技術領域,尤其涉及無參轉錄組分析系統(tǒng)及方法,特別涉及無參轉錄組自動化分析方法。
背景技術
隨著第二代測序技術的迅猛發(fā)展,其高通量、快速、低成本的特點成為越來越多的生物學研究者在解決生物學問題時的首選,尤其在轉錄組測序方面更顯示出極大的潛力。轉錄組(transcriptome)即特定生物體在某種狀態(tài)下所有基因轉錄產(chǎn)物的總和,也是連接基因組遺傳信息與生物功能(蛋白質(zhì)組)的必然紐帶。
轉錄組研究是功能基因組研究的一項重要內(nèi)容。相對于真核生物全基因組測序來說,轉錄組測序得到的序列不含有內(nèi)含子及其它非編碼序列,因此轉錄組測序有著無可比擬的高性價比優(yōu)勢。研究基因組結構的復雜性及遺傳語言的根本規(guī)律,需要對測序所得的海量數(shù)據(jù)進行精準且全面的揭示和分析。
目前轉錄組測序及分析技術可以解決新基因的深度發(fā)掘、低豐度轉錄本的發(fā)現(xiàn)、轉錄圖譜繪制、可變剪接的調(diào)控、代謝途徑確定、基因家族鑒定及進化分析等各方面的問題。轉錄組研究是基因功能及結構研究的基礎和出發(fā)點,已經(jīng)被廣泛應用于醫(yī)學、農(nóng)學等各個領域。
目前現(xiàn)存的轉錄組分析方式存在以下缺陷:每項分析內(nèi)容可選軟件很多,不同生物信息分析人員使用的軟件不統(tǒng)一,分析人員的技術水平也有高有低,給出的分析結果存在差異,導致后期項目交接困難,高級分析難以開展,容易導致分析項目的錯漏。同時,各項分析需要單獨運行,不能自動分配計算節(jié)點,也不能自動銜接后續(xù)分析,增加了分析等待時間,影響測序數(shù)據(jù)的處理效率。
發(fā)明創(chuàng)造內(nèi)容
本發(fā)明的目的在于針對現(xiàn)有技術所存在的缺陷而提供一種無參轉錄組自動化分析方法,該無參轉錄組自動化分析方法基于Perl語言的自動化分析流程,可進行批量項目分析,提高服務器使用效率,減少分析人員的分析壓力,便于控制分析內(nèi)容。
為了實現(xiàn)上述目的,本發(fā)明所采用的技術方案如下:
一種無參轉錄組自動化分析方法,包括如下步驟:
1)輸入要進行分析的項目信息步驟
將項目開題單號、物種類型、email、KAAS注釋參考物種、樣品過濾數(shù)據(jù)、樣品分組以及需要分析的項目以一行表示一個信息進行輸入;
2)開始標準分析步驟
根據(jù)步驟1)所設定的需要分析的項目,進行后續(xù)分析,該步驟默認的標準流程包括轉錄本拼接、Unigene聚類、Unigene功能注釋、表達定量、表達差異富集分析以及結構分析;
3)查看程序輸出和運行日志步驟
在分析進行過程中,如果程序出現(xiàn)問題,會將錯誤信息保存到對應的分析項目的目錄下,同時分析流程使用的命令也會寫入日志文件;通過檢查日志文件和錯誤信息,保證分析結果的正確性。
本發(fā)明的有益效果在于:
基于Perl語言和PBS集群管理軟件的自動化分析流程,可進行批量項目分析,自動銜接分析項目,提高服務器使用效率,減少分析人員的分析壓力,便于控制分析內(nèi)容。
附圖說明
圖1為本發(fā)明的無參考轉錄組自動化流程的方法流程圖。
具體實施方式
為了能夠更清楚地理解本發(fā)明的技術內(nèi)容,特舉以下實施例詳細說明。
請參閱圖1所示,為本發(fā)明的無參考轉錄組測序數(shù)據(jù)處理方法的步驟流程圖。
在具體實施方式中,該方法如圖1所示包括以下步驟:
(1)輸入的需要分析的項目的信息文件;
(2)檢測信息的是否滿足條件(格式是否正確),;
(3)格式正確后,會生成對應的分析項目列表,按照項目分析的前后順序進行分析;
(4)查找項目需要的數(shù)據(jù),判斷是否存在,如果存在,進行分析,如果不存在,寫入日志,該項目不分析;
(5)按照程序設定的目錄結構,輸出結果文件。
在實際應用中,本發(fā)明的方法所利用的工具包共包含1個Perl編寫主程序代碼和47個Perl、R或shell編寫的子程序代碼。主程序名為:RNASeq_Denovo_Main.pl。
流程所使用的每個子程序腳本既能夠獨立執(zhí)行,也可以嵌入到已有的數(shù)據(jù)分析流程中,使用非常靈活。
程序基于的Perl、R和shell語言,可以在Linux、MacOS等多種類unix系統(tǒng)平臺下使用,能夠在任意安裝上述系統(tǒng)的服務器上進行使用。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海派森諾生物科技股份有限公司,未經(jīng)上海派森諾生物科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611187563.1/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字數(shù)據(jù)處理
G06F19-00 專門適用于特定應用的數(shù)字計算或數(shù)據(jù)處理的設備或方法
G06F19-10 .生物信息學,即計算分子生物學中的遺傳或蛋白質(zhì)相關的數(shù)據(jù)處理方法或系統(tǒng)
G06F19-12 ..用于系統(tǒng)生物學的建模或仿真,例如:概率模型或動態(tài)模型,遺傳基因管理網(wǎng)絡,蛋白質(zhì)交互作用網(wǎng)絡或新陳代謝作用網(wǎng)絡
G06F19-14 ..用于發(fā)展或進化的,例如:進化的保存區(qū)域決定或進化樹結構
G06F19-16 ..用于分子結構的,例如:結構排序,結構或功能關系,蛋白質(zhì)折疊,結構域拓撲,用結構數(shù)據(jù)的藥靶,涉及二維或三維結構的
G06F19-18 ..用于功能性基因組學或蛋白質(zhì)組學的,例如:基因型–表型關聯(lián),不均衡連接,種群遺傳學,結合位置鑒定,變異發(fā)生,基因型或染色體組的注釋,蛋白質(zhì)相互作用或蛋白質(zhì)核酸的相互作用





