[發明專利]一種轉錄本注釋方法以及篩選長非編碼RNA和內源逆轉錄病毒來源長非編碼RNA的方法在審
| 申請號: | 202011007988.6 | 申請日: | 2020-09-23 |
| 公開(公告)號: | CN112201307A | 公開(公告)日: | 2021-01-08 |
| 發明(設計)人: | 孔慶然;杜佳偉;侯衛博;丁春明 | 申請(專利權)人: | 溫州醫科大學 |
| 主分類號: | G16B25/10 | 分類號: | G16B25/10;G16B30/00;G16B35/20;G16B50/10;G16B50/30 |
| 代理公司: | 哈爾濱市陽光惠遠知識產權代理有限公司 23211 | 代理人: | 鄧宇 |
| 地址: | 325027 *** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 轉錄 注釋 方法 以及 篩選 編碼 rna 內源 逆轉錄 病毒 來源 | ||
本發明提供了一種轉錄本注釋方法以及篩選長非編碼RNA和內源逆轉錄病毒來源長非編碼RNA的方法,屬于生物信息學領域,為了提供精準和完整的轉錄本,得到表達量較低、重復序列來源的長非編碼RNA,本發明提供了一種轉錄本的注釋方法,RNA測序和小RNA測序數據結合注釋轉錄本,得到完整精準的轉錄本信息,提供更精準的長鏈非編碼RNA注釋,準確獲取長鏈非編碼RNA的表達信息,本發明應用在篩選長非編碼RNA和內源逆轉錄病毒來源長非編碼RNA,篩選得到新預測長非編碼RNA 2,711條,其中內源逆轉錄病毒來源長非編碼RNA占59.3%。
技術領域
本發明屬于生物信息學領域,具體涉及到一種轉錄本注釋方法以及篩選長非編碼RNA和內源逆轉錄病毒來源長非編碼RNA的方法。
背景技術
RNA轉錄本的注釋主要利用高通量RNA-seq(轉錄組測序技術)數據,其面臨的一個普遍問題是轉錄本精確的邊界難以界定。在理想條件下,RNA-seq讀段在所有表達的轉錄本上應該是無偏性的覆蓋模式,但由于讀段長度的限制、樣品的降解、建庫方法和堿基偏好性等問題,RNA-seq讀段的覆蓋存在偏差,尤其在轉錄本末端的缺失,影響轉錄本注釋的完整性,給轉錄本的識別、表達水平的定量以及進一步的功能解析帶來偏差。 5’端的降解和采用oligo(dT)的第一鏈合成方案等會導致轉錄本5’端更嚴重的缺失,通常覆蓋不到啟動子區域和轉錄起始位點(transcription start site,TSS)。例如,Liu等發現 PCAN-R2的轉錄起始位點在其RNA-seq注釋轉錄本上游3kb處。因此,提供精準的RNA 轉錄本的注釋,進而準確的獲取其表達信息顯得尤為重要。傳統的5’和3’RACE(Rapid Amplification of cDNAEnds)是獲得完整轉錄本的最佳方法,但這種實驗方法是低通量的。
長鏈非編碼RNA(lncRNA)是一類大于200nt(堿基)不編碼蛋白的轉錄本,目前研究表明,其在多個生物過程中發揮重要作用,引起科學家們的廣泛關注。大多數lncRNA的形成都與內源逆轉錄病毒(ERV)有關。越來越多ERV來源的lncRNA被證明具有重要功能,其在進化、發育和疾病上都具有重要的調控作用。lncRNA的識別主要利用高通量RNA-seq數據,但由于讀段長度的限制、樣品的降解、建庫和堿基偏好性等問題, RNA-seq讀段的覆蓋存在偏差,尤其在轉錄本末端的缺失,影響轉錄本注釋的完整性,給lncRNA的識別、表達水平的定量以及進一步的功能解析帶來偏差。因此,提供精準的lncRNA的注釋,進而準確的獲取lncRNA的表達信息顯得尤為重要。傳統的5’和 3’RACE(RapidAmplification of cDNAEnds)是獲得完整轉錄本的最佳方法,但這種實驗方法是低通量的。
發明內容
本發明為了獲得表達量較低、重復序列來源的長非編碼RNA,本發明提供了一種轉錄本的注釋方法,采用RNA測序和小RNA測序數據(NCBI:GSE102518)結合的策略 (RNA-seqand small RNA-seq combined strategy,RSCS)注釋轉錄本,得到完整精準的轉錄本信息,利用RSCS篩選長鏈非編碼RNA和篩選內源逆轉錄病毒來源長非編碼RNA。
本發明提供了一種轉錄本的注釋方法,所述的注釋方法的具體步驟包括:
(1)對RNA測序和小RNA測序的下機數據(raw data)進行去接頭處理獲得有效數據(clean data);
(2)對步驟(1)中得到的有效數據按照質控標準進行數據質控,得到符合標準的有效數據;
(3)分別將步驟(2)中得到的符合標準的有效數據與參考基因組進行比對拼接,獲得比對結果(bam)文件;
(4)把步驟(3)中得到的比對結果文件,以比對質量得分(MAPQs)值作為篩選標準篩選轉錄本;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于溫州醫科大學,未經溫州醫科大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011007988.6/2.html,轉載請聲明來源鉆瓜專利網。





