[發明專利]基于RNA靶向測序和機器學習的癌癥組織溯源方法在審
| 申請號: | 201910654039.8 | 申請日: | 2019-07-19 |
| 公開(公告)號: | CN110379465A | 公開(公告)日: | 2019-10-25 |
| 發明(設計)人: | 楊家亮;王博;郎繼東;梁樂彬;張燕香;孫雪;張海鵬;王偉偉;田埂 | 申請(專利權)人: | 元碼基因科技(北京)股份有限公司 |
| 主分類號: | G16B50/30 | 分類號: | G16B50/30;G16B40/20;C12Q1/6874 |
| 代理公司: | 北京北匯律師事務所 11711 | 代理人: | 高元吉 |
| 地址: | 100102 北京市朝陽區廣*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 測序 溯源 癌癥組織 機器學習 算法 腫瘤 目標基因區域 測序技術 測序數據 高效富集 目標區域 隨機森林 相關基因 預測模型 癌組織 反轉錄 靈敏度 數據集 準確率 建庫 探針 通量 合成 檢測 預測 | ||
本發明公開基于RNA靶向測序和機器學習的癌癥組織溯源方法。本發明通過RNA靶向測序技術,高效富集目標基因區域,經過反轉錄、建庫、測序步驟,得到目標區域的二代測序數據,并利用隨機森林算法在TCGA數據集上訓練得到腫瘤溯源預測模型,從而預測癌組織的原發灶位置。另外,本發明中特定探針的合成不僅降低了腫瘤溯源相關基因測序成本,而且很大程度上簡化了檢測過程,具有通量高、靈敏度高和特異性高的特點。本發明公開的方法在算法速度、精度、分析結果的準確率上均超過傳統方法。
技術領域
本發明涉及基因檢測,具體涉及基于RNA靶向測序和機器學習的癌癥組織溯源方法。
背景技術
原發灶不明轉移癌(cancer of unknown primary site,CUP)是指組織學確診為轉移癌,但無法明確原發位點的惡性腫瘤。這類腫瘤約占所有腫瘤的5%。CUP的治療以經驗性化療為主,患者預后普遍較差,中位存活時間僅為8-11月。明確腫瘤的原發部位有助于醫生制定針對性的治療方案,提高患者生存率。然而,目前約20%-50%的CUP患者無法找到原發灶[陳金影、蔡虎、徐清華,原發灶不明轉移癌的臨床診斷[J].分子診斷與治療雜志,2017,9(01):67-72.]。
研究發現腫瘤在其發生、發展、轉移的過程中,始終保留其組織起源的基因表達特征。根據這一原理,目前已經開發了幾種基于核酸表達的腫瘤溯源產品并獲得美國FDA認證。例如,基于RT-PCR技術的Cancer TYPE ID[2.Ma XJ,Patel R,Wang X,et al.Molecularclassification of human cancers using a92-gene real-time quantitativepolymerase chain reaction assay.Arch Pathol LabMed.2006;130(4):465-73]、基于微陣列技術的組織溯源[Pillai R,Deeter R,Rigl CT,et al.Validation andreproducibility of a microarray-based gene expression test for tumoridentification in formalin-fixed,paraffin-embedded specimens.J MolDiagn.2011;13(1):48–56.doi:10.1016/j.jmoldx.2010.11.001]等。其中,Cancer TYPEID使用遺傳算法對基因進行挑選,使用K近鄰算法進行腫瘤的溯源,其在訓練集交叉驗證得到的總體準確率為91%。
靶向基因測序是指采用各種技術手段將待檢測的目標區域富集之后,進行高通量測序的研究。二代靶向測序目前主流分為液相雜交捕獲和擴增子測序兩種技術手段,富集策略分別是探針雜交和多重PCR。二代靶向測序具有通量高、價格低、檢測范圍廣等優點。相比較于其他全轉錄組測序,不僅效率高,而且可以在降低測序成本的同時保證高深度測序,除此之外,針對表達豐度較低的基因,靶向測序的高深度的優勢就體現了其價值。因此,以靶向測序為基礎的組織溯源具有明顯的優勢。然而,以靶向測序為基礎的組織溯源需要高效而準確的算法模型,由于目前未開發出此類算法,因此以靶向測序為基礎的組織溯源方案目前仍是空白。
發明內容
鑒于此,本發明建立一種基于RNA靶向測序和機器學習的癌癥組織溯源方法。本發明利用隨機森林算法在TCGA數據集上訓練,從而得到一種腫瘤溯源預測模型。至少部分地基于此完成了本發明。具體地,本發明包括以下內容。
一種基于RNA靶向測序和機器學習的癌癥組織溯源方法,其包括以下步驟:
(1)建立癌癥溯源數據庫,在多個癌種的基因表達數據中,以多個基因的表達數據作為特征,以癌種分類作為標簽,建立所述癌癥溯源數據庫;
(2)確定溯源預測模型,使用隨機森林算法,設置每棵決策樹樁的最大特征數,使用多棵決策樹樁對所述癌癥溯源數據庫進行分類訓練,根據占比權重挑選出包含目標區域的多個模型基因,并保存為溯源預測模型;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于元碼基因科技(北京)股份有限公司,未經元碼基因科技(北京)股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910654039.8/2.html,轉載請聲明來源鉆瓜專利網。





