[發明專利]RNA序列編碼潛力的計算方法及系統有效

申請號：	202010075959.7	申請日：	2020-01-21
公開（公告）號：	CN111276182B	公開（公告）日：	2023-06-20
發明（設計）人：	諶先敢;陽小飛;牛艷慶;劉李漫;李智	申請（專利權）人：	中南民族大學
主分類號：	G16B20/00	分類號：	G16B20/00;G16B30/00;G16B40/00
代理公司：	武漢智權專利代理事務所(特殊普通合伙) 42225	代理人：	邱云雷
地址：	430000 湖北***	國省代碼：	湖北;42
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	rna 序列編碼潛力計算方法系統
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本發明公開了一種RNA序列編碼潛力的計算方法及系統，涉及生物信息學領域。該方法包括以下步驟：對訓練數據中的部分數據進行過采樣，得到新訓練數據；計算新訓練數據的序列特征，將該序列特征及標簽輸入分類器進行訓練；采用訓練所得到的模型對測試數據的特征進行預測；將預測的標簽與真實的標簽進行比較，得到評估結果。本發明能實現對包含sORF數據的RNA序列編碼潛力的準確預測。

技術領域

本發明涉及生物信息學領域，具體是涉及一種RNA(RibonucleicAcid，核糖核酸)序列編碼潛力的計算方法及系統。

背景技術

人類基因組中只有不到2％的堿基對編碼蛋白質，剩余部分的功能是未知的，在這些剩余的部分中，ncRNA(non-coding?RNA，非編碼RNA)是指未翻譯成蛋白質的轉錄本，通過被認為在各種生物過程中起重要作用，且與癌癥等疾病有關。

新一代的測序技術產生了大量的新轉錄本，估計這些轉錄本的編碼潛力對于分析這些數據非常重要。區分cRNA(coding?RNA，編碼RNA)和ncRNA是一個二元分類問題，目前有許多很好的方法。

在實現本發明的過程中，發明人發現現有技術中至少存在如下問題：目前的眾多方法取得了很好的效果，但局限性也存在，即這些方法對包含sORF(small?Open?ReadingFrame，小開放閱讀框)的數據的預測很差。ORF(Open?Reading?Frame，開放閱讀框)是由起始密碼子、終止密碼子以及位于兩者之間的核苷酸序列三個部分構成的一段核苷酸片段，sORF是指長度小于300核苷酸(nucleotide，nt)的ORF。編碼RNA和非編碼RNA均可能包含sORF，包含sORF的編碼RNA和非編碼RNA可以被稱為小編碼RNA(small?coding?RNAs)和小非編碼RNA(small?ncRNAs)。目前的經典方法在區分smallcoding?RNAs和small?ncRNAs方面的準確率不高。

發明內容

本發明的目的是為了克服上述背景技術的不足，提供一種RNA序列編碼潛力的計算方法及系統，能夠實現對包含sORF數據的RNA序列編碼潛力的準確預測。

第一方面，提供一種RNA序列編碼潛力的計算方法，包括以下步驟：

對訓練數據中的部分數據進行過采樣，得到新訓練數據；

計算新訓練數據的序列特征，將該序列特征及標簽輸入分類器進行訓練；

采用訓練所得到的模型對測試數據的特征進行預測；

將預測的標簽與真實的標簽進行比較，得到評估結果。

根據第一方面，在第一方面的第一種可能的實現方式中，所述訓練數據中的部分數據為訓練數據中ORF長度在151-303的轉錄本。

根據第一方面的第一種可能的實現方式，在第一方面的第二種可能的實現方式中，所述對訓練數據中的部分數據進行過采樣，包括以下步驟：

對訓練數據中ORF長度小于303的編碼RNAs進行過采樣，使之達到與ORF長度在151-303之間的非編碼RNAs同樣的數目。

根據第一方面的第二種可能的實現方式，在第一方面的第三種可能的實現方式中，所述對訓練數據中的部分數據進行過采樣，還包括以下步驟：

在除ORF長度和ORF完整性以外的特征值上，加一定比例的擾動值，生成新的樣本點。