[發明專利]一種腫瘤良惡性鑒別模型的構建方法及裝置有效
| 申請號: | 202010043127.7 | 申請日: | 2020-01-15 |
| 公開(公告)號: | CN111276252B | 公開(公告)日: | 2023-03-28 |
| 發明(設計)人: | 黃毅;易鑫;楊玲;張超;何欣諾;王長希 | 申請(專利權)人: | 北京吉因加科技有限公司 |
| 主分類號: | G16H50/50 | 分類號: | G16H50/50 |
| 代理公司: | 北京三聚陽光知識產權代理有限公司 11250 | 代理人: | 徐律 |
| 地址: | 北京市昌平區中關村科技園區昌平園生命園路*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 腫瘤 惡性 鑒別 模型 構建 方法 裝置 | ||
1.一種腫瘤良惡性鑒別模型的構建方法,其特征在于,包括:
取已知良性腫瘤樣本和惡性腫瘤樣本若干作為訓練集,獲得訓練集中樣本的TCR克隆種類和CDR3區段,包括擴增訓練集樣本的CDR3區段,并進行建庫和測序,將測序后的數據進行序列質控,包括去除測序接頭序列和/或過濾低質量測序序列,將質控后的序列進行V基因和J基因序列比對,鑒定出TCR克隆種類和CDR3區段;
統計并計算所述CDR3區段出現的頻次,然后將所述CDR3區段的氨基酸序列通過Kmer打斷進行重編碼,得到CDR3區段Kmer頻率數據;
將重編碼后獲得的Kmer頻率數據進行數據降維處理;
將訓練集中的已知腫瘤樣本的良惡性信息與數據降維后的Kmer頻率數據關聯,利用機器學習算法進行模型的訓練,得到腫瘤良惡性鑒別模型;所述機器學習算法包括K近鄰、隨機森林、支持向量機或adaBoost中的至少一種。
2.根據權利要求1所述的構建方法,其特征在于,所述數據降維的方法包括特征選擇和特征提取;
所述特征選擇的方法包括方差過濾、卡方過濾、F檢驗、互信息過濾、遞歸式特征消除、啟發式搜索、隨機搜索、完全搜索、基于懲罰項的特征選擇或基于樹模型的特征選擇中的至少一種;
所述特征提取的方法包括主成分分析、奇異值分解、非負矩陣分解、線性判別分析或因子分析中的至少一種。
3.根據權利要求1-2任一項所述的構建方法,其特征在于,所述過濾低質量測序序列,包括Q20、Q30、GC含量、N含量、平均讀長長度和/或有效堿基比例的篩選,選擇符合以下設定閾值的數據:Q2090%、Q3085%、GC含量40%并且60%、N含量10.00%、平均讀長長度>90bp并且≤110bp和/或有效堿基比例80%。
4.一種腫瘤良惡性鑒別裝置,其特征在于,包括:
TCR克隆鑒定單元,用于鑒定出訓練集樣本的TCR克隆種類和CDR3區段;所述TCR克隆鑒定單元包括:
建庫測序單元,用于擴增訓練集樣本的CDR3區段,并進行建庫和測序;
序列質控單元,用于將測序數據進行序列質控;
序列比對單元,用于將質控后的序列進行V基因和J基因序列比對,鑒定出TCR克隆種類和CDR3區段;
CDR3統計單元,用于統計并計算所述CDR3區段出現的頻次;
Kmer打斷單元,用于將所述CDR3區段的氨基酸序列通過Kmer打斷進行重編碼,得到CDR3區段Kmer頻率數據;
數據降維單元,用于將CDR3重編碼后的Kmer頻率數據進行數據降維;
機器學習模型訓練單元,用于將訓練集中已知腫瘤樣本的良惡性信息與數據降維后的Kmer頻率數據關聯,利用機器學習算法進行模型的訓練,得到腫瘤良惡性鑒別模型;所述機器學習模型訓練單元包括K近鄰單元、隨機森林單元、支持向量機單元或adaBoost單元中的至少一種。
5.根據權利要求4所述的裝置,其特征在于,所述數據降維單元包括:
特征選擇單元,用于對重編碼后的Kmer頻率數據進行特征選擇;
特征提取單元,用于將特征選擇后的Kmer頻率數據進行特征提取。
6.根據權利要求5所述的裝置,其特征在于,所述特征選擇單元包括方差過濾單元、卡方過濾單元、F檢驗單元、互信息過濾單元、遞歸式特征消除單元、啟發式搜索單元、隨機搜索單元、完全搜索單元、基于懲罰項的特征選擇單元或基于樹模型的特征選擇單元中的至少一種;
所述特征提取單元包括:主成分分析單元、奇異值分解單元、非負矩陣分解單元、線性判別分析單元或因子分析單元中的至少一種。
7.根據權利要求5-6任一項所述的裝置,其特征在于,所述序列質控單元包括:
去除測序接頭序列單元,用于去除測序數據中的接頭序列;
過濾低質量測序序列單元,用于過濾測序數據中低質量序列,包括Q20、Q30、GC含量、N含量、平均讀長長度和/或有效堿基比例的篩選,選擇符合以下設定閾值的數據:Q2090%、Q3085%、GC含量40%并且60%、N含量10.00%、平均讀長長度>90bp并且≤110bp和/或有效堿基比例80%。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京吉因加科技有限公司,未經北京吉因加科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010043127.7/1.html,轉載請聲明來源鉆瓜專利網。





