[發明專利]RNA序列編碼潛力的計算方法及系統有效
| 申請號: | 202010075959.7 | 申請日: | 2020-01-21 |
| 公開(公告)號: | CN111276182B | 公開(公告)日: | 2023-06-20 |
| 發明(設計)人: | 諶先敢;陽小飛;牛艷慶;劉李漫;李智 | 申請(專利權)人: | 中南民族大學 |
| 主分類號: | G16B20/00 | 分類號: | G16B20/00;G16B30/00;G16B40/00 |
| 代理公司: | 武漢智權專利代理事務所(特殊普通合伙) 42225 | 代理人: | 邱云雷 |
| 地址: | 430000 湖北*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | rna 序列 編碼 潛力 計算方法 系統 | ||
1.一種RNA序列編碼潛力的計算方法,其特征在于,包括以下步驟:
對訓練數據中的部分數據進行過采樣,得到新訓練數據;
計算新訓練數據的序列特征,將該序列特征及標簽輸入分類器進行訓練;
采用訓練所得到的模型對測試數據的特征進行預測;
將預測的標簽與真實的標簽進行比較,得到評估結果;
所述訓練數據包含編碼RNAs和非編碼RNAs,按照ORF長度是否大于303的條件,編碼RNAs分為ORF長度小于303的數據和其他ORF長度的數據;非編碼RNAs分為ORF長度位于151-303之間的數據和其他長度的數據;
所述對訓練數據中的部分數據進行過采樣,包括以下步驟:
對訓練數據中ORF長度小于303的編碼RNAs進行過采樣,使之達到與ORF長度在151-303之間的非編碼RNAs同樣的數目;
所述對訓練數據中的部分數據進行過采樣,還包括以下步驟:
在除ORF長度和ORF完整性以外的特征值上,加一定比例的擾動值,生成新的樣本點;
在除ORF長度和ORF完整性以外的特征值上,加一定比例的擾動值,數學公式如下:
Fnew=F+Fother*a,
其中,Fnew是加入擾動之后的新特征值,F是原來的特征值,Fother是除ORF長度和ORF完整性以外的其他特征值,a是擾動的系數。
2.一種RNA序列編碼潛力的計算系統,其特征在于,包括:
過采樣單元,用于:對訓練數據中的部分數據進行過采樣,得到新訓練數據;
訓練單元,用于:計算新訓練數據的序列特征,將該序列特征及標簽輸入分類器進行訓練;
預測單元,用于:采用訓練所得到的模型對測試數據的特征進行預測;
評估單元,用于:將預測的標簽與真實的標簽進行比較,得到評估結果;
所述訓練數據包含編碼RNAs和非編碼RNAs,按照ORF長度是否大于303的條件,編碼RNAs分為ORF長度小于303的數據和其他ORF長度的數據;非編碼RNAs分為ORF長度位于151-303之間的數據和其他長度的數據;
所述對訓練數據中的部分數據進行過采樣,包括以下步驟:
對訓練數據中ORF長度小于303的編碼RNAs進行過采樣,使之達到與ORF長度在151-303之間的非編碼RNAs同樣的數目;
所述過采樣單元對訓練數據中的部分數據進行過采樣,還包括以下步驟:
在除ORF長度和ORF完整性以外的特征值上,加一定比例的擾動值,生成新的樣本點;
在除ORF長度和ORF完整性以外的特征值上,加一定比例的擾動值,數學公式如下:
Fnew=F+Fother*a,
其中,Fnew是加入擾動之后的新特征值,F是原來的特征值,Fother是除ORF長度和ORF完整性以外的其他特征值,a是擾動的系數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中南民族大學,未經中南民族大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010075959.7/1.html,轉載請聲明來源鉆瓜專利網。





