[發明專利]一種機器學習模型高通量分析乙型肝炎病毒基因組RT/S區序列特征預測肝癌風險的方法在審
| 申請號: | 202010411458.1 | 申請日: | 2020-05-15 |
| 公開(公告)號: | CN111613324A | 公開(公告)日: | 2020-09-01 |
| 發明(設計)人: | 高春芳;王穎;陳世鵬;朱山風;張子寒 | 申請(專利權)人: | 高春芳 |
| 主分類號: | G16H50/20 | 分類號: | G16H50/20;G16B40/00;G16B30/10 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 200438 上海市楊*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 機器 學習 模型 通量 分析 乙型肝炎 病毒 基因組 rt 序列 特征 預測 肝癌 風險 方法 | ||
1.一種采用機器學習模型高通量分析乙型肝炎病毒(Hepatitis B virus,HBV)基因組RT/S區序列特征預測肝癌風險的方法,其特征包括以下步驟:
(1)數據輸入及預處理:輸入HBV基因組RT/S區序列數據,判斷文件存儲類型是否為FASTA格式,判斷是否為反向互補序列,并結合判斷結果,選用相應的方法進行預處理;
(2)生成RT/S區氨基酸序列;
(3)特征矩陣構建;
(4)將特征矩陣數據集劃分為訓練集與測試集,將訓練集輸入機器學習模型中進行參數訓練,并進行概率預測;
(5)使用訓練好的模型,針對新的一批患者數據,評估模型的魯棒性和各類性能,如敏感性、特異性、AUC值、準確率等。
2.根據權利要求1所述的采用機器學習模型高通量分析乙型肝炎病毒HBV基因組RT/S區序列特征預測肝癌風險的方法,其特征在于:所述步驟(1)中,輸入數據為NGS高通量測序的序列數據,包含HBV基因組數據RT及S區序列的兩個片段,其中RT1序列長度為481bp,RT2序列長度為406bp,文件格式為FASTA或FASTQ。
3.根據權利要求1所述的采用機器學習模型高通量分析乙型肝炎病毒HBV基因組RT/S區序列特征預測肝癌風險的方法,其特征在于:所述步驟(2)中,RT區氨基酸序列的翻譯從第1位核苷酸起始,S區氨基酸序列的翻譯從第2位核苷酸起始。
4.根據權利要求1所述的采用機器學習模型高通量分析乙型肝炎病毒HBV基因組RT/S區序列特征預測肝癌風險的方法,其特征在于:所述步驟(3)中,選用堿基分布百分比特征(ACGT feature)算法計算每個位點的堿基分布百分比,選用三種突變頻率特征算法分別計算核苷酸序列及RT/S區氨基酸序列的突變頻率,選用三種香農熵特征算法計算核苷酸序列及RT/S區氨基酸序列的香農熵,選用游走香農熵特征(Group Walk entropy feature)和滑動香農熵特征(Slide entropy feature)算法分別計算RT區核苷酸序列的香農熵,選用K-mer feature算法計算RT區序列的3-mer特征,特征矩陣引入all features特征,為上述特征的整合。
5.根據權利要求1所述的采用機器學習模型高通量分析乙型肝炎病毒HBV基因組RT/S區序列特征預測肝癌風險的方法,其特征在于:所述步驟(4)中,輸入數據為HBV基因組RT/S區序列的特征矩陣,并采用隨機森林、K最近鄰、支持向量機和邏輯回歸四種機器學習模型進行學習與訓練;在本步驟中,機器學習算法采用scikit-learn包。
6.根據權利要求1-4任一項所述的采用機器學習模型高通量分析乙型肝炎病毒HBV基因組RT及S區序列特征預測肝癌風險的方法,其特征在于:對于每一個訓練的模型,共輸入了11種不同的特征(10種單一特征以及1種所有特征的整合),最終一共得到44種不同模型;在模型訓練與測試完成后,選擇曲線下面積AUC最優的模型作為慢性乙肝(CHB)和HCC人群進行鑒別的模型,模型輸出值作為肝癌風險預測得分。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于高春芳,未經高春芳許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010411458.1/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種使工件表面免于損傷的軟成型伺服液壓機
- 下一篇:電子設備





