[發明專利]一種Drop?seq數據質量控制和分析方法在審
| 申請號: | 201710638356.1 | 申請日: | 2017-07-31 |
| 公開(公告)號: | CN107463801A | 公開(公告)日: | 2017-12-12 |
| 發明(設計)人: | 張勇;張超;施威揚;王璐瑩 | 申請(專利權)人: | 浙江紹興千尋生物科技有限公司 |
| 主分類號: | G06F19/24 | 分類號: | G06F19/24;G06F19/22 |
| 代理公司: | 紹興市越興專利事務所(普通合伙)33220 | 代理人: | 蔣衛東 |
| 地址: | 312000 浙江省紹興市柯橋區柯橋經*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 drop seq 數據 質量 控制 分析 方法 | ||
1.一種Drop-seq數據質量控制和分析方法,其特征在于:包括以下步驟:
第一步、使用兩個配對的測序文件作為輸入文件;
第二步、對測序文件進行處理;
第三步、提供以下層面的質量控制的測量;
(1)測序片段層面的質量控制包括測序片段的質量、核苷酸的組成以及測序片段的GC含量;
(2)多細胞層面的質量控制包括基因區域的覆蓋程度和序列回帖率;
(3)單個細胞層面的質量控制包括,通過對挑選出的STAMPs計算其測序片段的重復率分布、位于內含子的測序片段的比例和覆蓋基因的數目,從而在單細胞層面上對mRNA的捕獲效率進行評估;
(4)所述細胞聚類層面的質量控制包括,通過計算gap statistic和silhouette score,對樣本的異質性進行評估;
第四步、給用戶提供一份質量控制的報告文檔,其中描述了第三步中質量控制的測量值。
2.根據權利要求1所述的Drop-seq數據質量控制和分析方法,其特征在于:還包括以下步驟,
第五步,提供產生以下一項或多項的分析結果,
(1)表達指數;
(2)pair-wise相關表;
(3)主成分分析(PCA)和t-SNE降維的輸出結果;
(4)篩選出的STAMPs的聚類簇的分配結果;
(5)t-SNE和聚類結果的可視化輸出。
3.根據權利要求1所述Drop-seq數據質量控制和分析方法,其特征在于,所述第一步中的其中一個文件包含轉錄本的信息,另一個文件包含細胞條形碼和UMI的信息。
4.根據權利要求1所述Drop-seq數據質量控制和分析方法,其特征在于,所述第二步中對測序數據的處理方法為把轉錄本的測序文件比對到參考基因組上,且只留取具有高測序質量的比對上的測序片段。
5.根據權利要求1所述Drop-seq數據質量控制和分析方法,其特征在于:第三步(1)中的測序片段層面的質量控制方法為,將Drop-seq數據看作是多細胞RNA-seq數據進行分析;對測序質量分布、每個測序位點的堿基組成以及每個測序片段的GC含量這幾個測度進行計算。
6.根據權利要求1所述Drop-seq數據質量控制和分析方法,其特征在于:所述第三步(2)中的多細胞層面的質量控制部分方法為,列出測序片段的比對結果總結,包括序列的回帖率和全基因組范圍的序列分布,并通過繪制基因區域的序列覆蓋程度來估計5’端和3’端的測序偏差;使用bedtools工具整合測序片段、細胞條形碼以及基因組的注釋信息;進行測序片段的合并,把合并后去重的測序片段通過基因的注釋信息和細胞條形碼信息生成基因表達矩陣,并且利用不同細胞條形碼信息把測序片段分配到不同的細胞中;獲得的表達矩陣是包含所有細胞的表達矩陣,即同時包括STAMPs和“empty”細胞。
7.根據權利要求1所述Drop-seq數據質量控制和分析方法,其特征在于:所述第三步(3)從混有“empty”細胞的表達矩陣中區分出STAMPs;根據細胞條形碼信息把測序片段分組到不同的細胞條形碼中;以單個的細胞為研究對象,利用UMI和每個測序片段的基因組上位置的共同信息,計算每個細胞的獨特測序片段數目、測序片段的重復率以及覆蓋的基因數目;篩選STAMPs條形碼:挑選的細胞條形碼需要滿足其覆蓋的基因數目大于用戶定義的閾值,評估在單個細胞的層面上mRNA的捕獲效率:通過覆蓋基因數目的分布和屬于內含子測序片段的比例。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江紹興千尋生物科技有限公司,未經浙江紹興千尋生物科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710638356.1/1.html,轉載請聲明來源鉆瓜專利網。
- 同類專利
- 專利分類
G06F 電數字數據處理
G06F19-00 專門適用于特定應用的數字計算或數據處理的設備或方法
G06F19-10 .生物信息學,即計算分子生物學中的遺傳或蛋白質相關的數據處理方法或系統
G06F19-12 ..用于系統生物學的建模或仿真,例如:概率模型或動態模型,遺傳基因管理網絡,蛋白質交互作用網絡或新陳代謝作用網絡
G06F19-14 ..用于發展或進化的,例如:進化的保存區域決定或進化樹結構
G06F19-16 ..用于分子結構的,例如:結構排序,結構或功能關系,蛋白質折疊,結構域拓撲,用結構數據的藥靶,涉及二維或三維結構的
G06F19-18 ..用于功能性基因組學或蛋白質組學的,例如:基因型–表型關聯,不均衡連接,種群遺傳學,結合位置鑒定,變異發生,基因型或染色體組的注釋,蛋白質相互作用或蛋白質核酸的相互作用
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





