[發明專利]一種基于二代測序的T細胞受體庫分析方法及裝置在審
| 申請號: | 201810461908.0 | 申請日: | 2018-05-15 |
| 公開(公告)號: | CN108624667A | 公開(公告)日: | 2018-10-09 |
| 發明(設計)人: | 金亞彬;羅微;崔金環;陳湘萍;林凱容;毛曉帆;潘英明 | 申請(專利權)人: | 佛山市第一人民醫院(中山大學附屬佛山醫院) |
| 主分類號: | C12Q1/6869 | 分類號: | C12Q1/6869 |
| 代理公司: | 廣州嘉權專利商標事務所有限公司 44205 | 代理人: | 王國標 |
| 地址: | 528000 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 分析方法及裝置 測序 比對結果 參考序列 參考坐標 程序語言 調用序列 輸出內容 序列比對 非生物 比對 擴增 內核 樣本 分析 一體化 | ||
1.一種基于二代測序的T細胞受體庫分析方法,其特征在于,所述分析方法包括以下步驟:
步驟1,將測序數據中以3'端開頭為引物序列的測序數據篩選出來獲得第一序列集;
步驟2,在第一序列集中截取TCR范圍內的目標序列片段獲得第二序列集;
步驟3,統計第二序列集內每種序列出現的次數并將第二序列集去除重復序列,并按照序列出現的次數從大到小排序獲得第三序列集;
步驟4,調用序列比對工具blat將第三序列集中的序列逐個與參考基因組序列進行比對,獲取第三序列集中每一序列對應到參考基因組上的位置信息得到第四序列集;
步驟5,根據TCR區域V、J基因的參考坐標注釋出第四數據集中的每個片段所在位置的基因信息得到注釋后的第五序列集;
步驟6,篩選出第五序列集中同時覆蓋TCR區域V、J基因的序列獲得第六序列集;
步驟7,將第六序列集中的序列進行核苷酸到氨基酸的密碼子翻譯后將翻譯后的每個序列按照TCRV-CDR3-TCRJ順序分解成為第七序列集;
步驟8,根據第七序列集中所包含的序列、頻數、所在基因信息統計出第七序列集的TCR庫的序列數、種類數、分布的香農熵、辛普森指數。
2.根據權利要求1所述的一種基于二代測序的T細胞受體庫分析方法,其特征在于,在步驟2中,所述TCR范圍需根據PCR引物設計的位置進行設定,其中,所述第一序列集片段是每一條3'端序列去除引物序列后剩余的序列片段,所述TCR范圍可由用戶根據實際情況自由定義。
3.根據權利要求1所述的一種基于二代測序的T細胞受體庫分析方法,其特征在于,在步驟3中,將第二序列集按照每個序列出現的次數排序獲得第三序列集的方法為:將第二序列集中完全相同的序列合并的同時計數,形成一個2列的表格,其中一列為第三序列集,另一列為該序列出現的次數。
4.根據權利要求1所述的一種基于二代測序的T細胞受體庫分析方法,其特征在于,在步驟4中,所述參考基因組序列為TCR公共數據庫中公布的人基因組上TCR區域的DNA參考序列,其中,實驗數據來自于人基因組TCR的α鏈為TCRA,來自于人基因組TCR的β鏈為TCRB。
5.根據權利要求1所述的一種基于二代測序的T細胞受體庫分析方法,其特征在于,在步驟5中,根據TCR基因的參考坐標注釋出第四數據集中每個片段所在位置的基因信息得到注釋后的第五序列集的方法為:根據TCR區域V、J基因的參考坐標每個位置對應的基因名字獲取第四數據集中每個片段所在位置的基因信息,其中,參考坐標是TCR公共數據庫中公布的各個V,J基因的位置信息。
6.根據權利要求1所述的一種基于二代測序的T細胞受體庫分析方法,其特征在于,在步驟7中,所述將翻譯后的每個序列按照TCRV-CDR3-TCRJ順序分解成為第七序列集的方法為:CDR3區域的定義為以C開頭FGXG結尾的氨基酸序列片段,提取及整合CDR3區域中以C開頭、以FGXG的F結尾的氨基酸序列獲得第七序列集,其中,所述TCRV-CDR3-TCRJ順序為將每個翻譯后的序列都分為TCRV、CDR3、TCRJ前中后三段的順序,所述TCRV為前段V區域,CDR3為中段CDR3區域,TCRJ為后段J區域,所述CDR3區域的頭端為半胱氨酸,末端為FGXG的特征序列,F表示苯丙氨酸,G表示甘氨酸,X表示任意氨基酸。
7.一種基于二代測序的T細胞受體庫分析裝置,其特征在于,所述裝置包括:存儲器、處理器以及存儲在所述存儲器中并可在所述處理器上運行的計算機程序,所述處理器執行所述計算機程序以執行在以下裝置的單元中:
獲取單元,用于將測序數據中以3’端開頭為引物序列的測序數據篩選出來獲得第一序列集;
片段截取單元,用于在第一序列集中截取TCR范圍內的第一序列集片段獲得第二序列集;
排序計數單元,用于統計第二序列集內每種序列出現的次數并將第二序列集去除重復序列,并按照序列出現的次數從大到小排序獲得第三序列集;
序列比對單元,用于調用序列比對工具blat將第三序列集中的序列逐個與參考基因組序列進行比對,獲取第三序列集中每一序列對應到參考基因組上的位置信息得到第四序列集;
注釋單元,用于根據TCR區域V、J基因的參考坐標注釋出第四數據集中的每個片段所在位置的基因信息得到注釋后的第五序列集;
質控篩選單元,用于篩選出第五序列集中同時覆蓋TCR區域V、J基因的序列獲得第六序列集;
提取整合單元,用于將第六序列集中的序列進行核苷酸到氨基酸的密碼子翻譯后將翻譯后的每個序列按照TCRV-CDR3-TCRJ順序分解成為第七序列集;
數據統計單元,用于根據第七序列集中所包含的序列、頻數、所在基因信息統計出第七序列集的TCR庫的序列數、種類數、分布的香農熵、辛普森指數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于佛山市第一人民醫院(中山大學附屬佛山醫院),未經佛山市第一人民醫院(中山大學附屬佛山醫院)許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810461908.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:用于構建測序文庫的接頭核酸分子
- 下一篇:用于基因組組裝及單體型定相的方法





